Dokumentu honetan
IXA taldeko dokumentuen analisiak datu base
batean sartzea aztertuko da. Analisiak fitxategietan daude eta
errepikapenik gabe datu base batean izan nahi ditugu, hori da
helburua. Hori lortzeko, aurretik Mikelek egindako datu baseratze
bat, errepikapenak dituen datu base erraldoi bat eta errepikapenik
gabeko datu base berri bat erabiliko dira.
Datu baserako
aukeratu den softwarea Berkeley DB XML izan da eta
hau probatzen ibili gara.
Mikelen Datu Basea
Lehenik, Berkeley
DB XML probatzeko Mikelek egindako datu
baseratzea aprobetxatu dugu. FS-ak daude datu basean, 254.638 hain
zuzen ere.
dbxml>
getDocuments
254638
documents found
Tamaina:
1,1 GB
Datu basearen izena: morf.dbxml
Datu basea hau zerbitzarietan kokalekua:
/sc01a4/users/jalberdi004/workspace/Astizena/run/dbxml.ondo
Terminalaren exekutagarria:
/sc01a4/users/jalberdi004/workspace/dbxml-2.4.13/install/bin/dbxml
Datu basean 7
indize definituta daude. f_forma, f_lema-osatua,
f_KAT eta f_AZP dira guri interesatzen zaizkigunak. Gehiago
definitzea interasatzen zaigun aztertzeko geratzen da.
dbxml>
listIndexes
Index:
edge-element-equality-string for node {}:f_AZP
Index:
edge-element-equality-string for node {}:f_KAT
Index:
node-element-equality-string node-element-substring-string for node
{}:f_forma
Index:
node-element-equality-string node-element-substring-string for node
{}:f_lema-osatua
Index:
node-attribute-equality-string for node {}:id
Index:
node-attribute-equality-string for node {}:md5
Index:
unique-node-metadata-equality-string for node
{http://www.sleepycat.com/2002/dbxml}:name
7 indexes found.
Datu basea errepikapenekin
Bigarrengoz, fs
guztiak dituen datu base bat dituen datu base bat
erabili dugu. Hau da datu basearen laburpena
Indizeak:
dbxml>
listIndexes
Index:
unique-node-metadata-equality-string for node
{http://www.sleepycat.com/2002/dbxml}:name
Index:
edge-element-equality-string for node {}:str
Index:
edge-element-equality-string for node {}:sym
Index:
edge-attribute-equality-string for node {}:value
4 indexes found.
Dokumentu kopurua:
dbxml>
getDocuments
1747064 documents
found
Tamaina:
9,9 GB
Datu basearen izena: EPEC_fsak.bdbxml
Kokalekua:
sipg35.si.ehu.es:/data2/export
Terminalaren
exekutagarria: /home/jalberdi004/dbxml-2.4.13/install/bin/dbxml
Datu basea, errepikapenik gabe
Azkenik,
errepikapenik gabeko datu base bat sortu da. Hau da datu
basearen laburpena
Indizeak:
dbxml>
listIndexes
Index:
edge-attribute-equality-string for node {}:id
Index:
unique-node-metadata-equality-string for node
{http://www.sleepycat.com/2002/dbxml}:name
Index:
edge-element-equality-string edge-element-substring-string for node
{}:str
Index:
edge-element-equality-string for node {}:sym
Index:
edge-attribute-equality-string edge-attribute-substring-string for
node {}:value
5 indexes found.
Dokumentu kopurua:
dbxml>
getDocuments
414454 documents
found
Tamaina:
2,7 GB
Datu basearen izena:
EPEC_fsak.dbxml
Zerbitzarietan
kokalekua: /sc01a4/users/jalberdi004/workspace/DeBeratu
Terminalaren exekutagarria:
/sc01a4/users/jalberdi004/workspace/dbxml-2.4.13/install/bin/dbxml
Datu basearen kontsulta interfazea
Datu basera
atzipen bisual bat izateko eta oinarrizko galderak egiteko interfaze
bat dago siuc zerbitzarietan.
Exekutagarriaren kokalekua:
/sc01a4/users/jalberdi004/workspace/DeBeratu
Goiko direktorioan
kokatu eta ondorengo komandoa exekutatu behar da:
dbQuery/dbQuery
Aurrekoak funtzionatu ahal izateko LD_LIBRARY_PATH ingurune aldagaia
eguneratu behar da, ondorengo agindua egikarituz:
% setenv
LD_LIBRARY_PATH
/sc01a4/users/jalberdi004/dbxml-2.4.13/install/lib/:/sc01a4/users/jalberdi004/qt-4.4.1/lib/:$LD_LIBRARY_PATH
|