Berkeley DB XML probak


SARRERA

________________________________________________________________________________

SARRERA
PROBAK
ONDORIOAK
KODEA
DEBERATU

Dokumentu honetan IXA taldeko dokumentuen analisiak datu base batean sartzea aztertuko da. Analisiak fitxategietan daude eta errepikapenik gabe datu base batean izan nahi ditugu, hori da helburua. Hori lortzeko, aurretik Mikelek egindako datu baseratze bat, errepikapenak dituen datu base erraldoi bat eta errepikapenik gabeko datu base berri bat erabiliko dira.

Datu baserako aukeratu den softwarea Berkeley DB XML izan da eta hau probatzen ibili gara.

Mikelen Datu Basea

Lehenik, Berkeley DB XML probatzeko Mikelek egindako datu baseratzea aprobetxatu dugu. FS-ak daude datu basean, 254.638 hain zuzen ere.

dbxml> getDocuments
254638 documents found

Tamaina:                        1,1 GB

Datu basearen izena:     morf.dbxml

Datu basea hau zerbitzarietan kokalekua:
/sc01a4/users/jalberdi004/workspace/Astizena/run/dbxml.ondo

Terminalaren exekutagarria:
/sc01a4/users/jalberdi004/workspace/dbxml-2.4.13/install/bin/dbxml

Datu basean 7 indize definituta daude. f_forma, f_lema-osatua, f_KAT eta f_AZP dira guri interesatzen zaizkigunak. Gehiago definitzea interasatzen zaigun aztertzeko geratzen da.

dbxml> listIndexes
Index: edge-element-equality-string for node {}:f_AZP
Index: edge-element-equality-string for node {}:f_KAT
Index: node-element-equality-string node-element-substring-string for node {}:f_forma
Index: node-element-equality-string node-element-substring-string for node {}:f_lema-osatua
Index: node-attribute-equality-string for node {}:id
Index: node-attribute-equality-string for node {}:md5
Index: unique-node-metadata-equality-string for node {http://www.sleepycat.com/2002/dbxml}:name
7 indexes found.


Datu basea errepikapenekin

Bigarrengoz, fs guztiak dituen datu base bat dituen datu base bat erabili dugu. Hau da datu basearen laburpena

Indizeak:

dbxml> listIndexes
Index: unique-node-metadata-equality-string for node {http://www.sleepycat.com/2002/dbxml}:name
Index: edge-element-equality-string for node {}:str
Index: edge-element-equality-string for node {}:sym
Index: edge-attribute-equality-string for node {}:value
4 indexes found.

Dokumentu kopurua:

dbxml> getDocuments
1747064 documents found

Tamaina:                         9,9 GB

Datu basearen izena:      EPEC_fsak.bdbxml

Kokalekua:                      sipg35.si.ehu.es:/data2/export

Terminalaren exekutagarria: /home/jalberdi004/dbxml-2.4.13/install/bin/dbxml


Datu basea, errepikapenik gabe

Azkenik, errepikapenik gabeko datu base bat sortu da. Hau da datu basearen laburpena

Indizeak:

dbxml> listIndexes
Index: edge-attribute-equality-string for node {}:id
Index: unique-node-metadata-equality-string for node {http://www.sleepycat.com/2002/dbxml}:name
Index: edge-element-equality-string edge-element-substring-string for node {}:str
Index: edge-element-equality-string for node {}:sym
Index: edge-attribute-equality-string edge-attribute-substring-string for node {}:value
5 indexes found.

Dokumentu kopurua:

dbxml> getDocuments
414454 documents found

Tamaina:                             2,7 GB

Datu basearen izena:          EPEC_fsak.dbxml

Zerbitzarietan kokalekua:  /sc01a4/users/jalberdi004/workspace/DeBeratu

Terminalaren exekutagarria:
/sc01a4/users/jalberdi004/workspace/dbxml-2.4.13/install/bin/dbxml


Datu basearen kontsulta interfazea

Datu basera atzipen bisual bat izateko eta oinarrizko galderak egiteko interfaze bat dago siuc zerbitzarietan.

Exekutagarriaren kokalekua:
/sc01a4/users/jalberdi004/workspace/DeBeratu

Goiko direktorioan kokatu eta ondorengo komandoa exekutatu behar da:
dbQuery/dbQuery

Aurrekoak funtzionatu ahal izateko LD_LIBRARY_PATH ingurune aldagaia eguneratu behar da, ondorengo agindua egikarituz:

% setenv LD_LIBRARY_PATH /sc01a4/users/jalberdi004/dbxml-2.4.13/install/lib/:/sc01a4/users/jalberdi004/qt-4.4.1/lib/:$LD_LIBRARY_PATH


Galdetu