TERM31_ESP-GS.rs3 (57)
EDUSegmentTaggerCentral Unit
1El vaciado terminológico automático y su aplicación para el euskera GS
21. Introducción GS
3En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, GS
4si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. GS
5Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). GS
6Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. GS
7Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática,GS
8 sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. GS
9Si pretendemos desarrollar un instrumento similar para el euskera, GS
10toparemos con mayores inconvenientes debido a estas razones: GS
11el proceso unificador de la lengua no ha concluido,GS
12 las investigaciones efectuadas son limitadasGS
13 y, por último, el euskara es una lengua aglutinante. GS
142. Vaciado terminológico GS
15Es una ardua labor conseguir una definición formal y completa de un términoGS
16 y en eso consiste precisamente un apartado importante del trabajo:GS
17 definir las características de los términos. GS
18Para conseguir del corpus términos técnicosGS
19 se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. GS
202.1. Técnicas lingüísticas GS
21Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. GS
22Como se suelen emplear modelos morfosintácticos,GS
23 resulta conveniente tener analizado el texto o, por lo menos, etiquetado. GS
24La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. GS
25De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96). GS
26La lematización está ligada al análisis morfológico y a la desambiguación. GS
27En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultadosGS
28 y será necesaria la lematización. GS
29El conocimiento lingüístico también es primordial en la normalización terminológica; GS
30ya que como algunos términos pueden formar parte de otras unidades más largas, GS
31se ha de efectuar una discriminación entre ellos. GS
322.2. Técnicas estadísticas GS
33En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. GS
34Los métodos aplicados varían mucho en función del proyecto, GS
35por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), GS
36si bien, en general, se combinan numerosas fórmulas probabilísticas. GS
372.3. Resultados GS
38Los resultados que se obtienen no son aún los que se precisaríanGS
39 para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). GS
40En ese equilibrio se le otorga preferencia a la cobertura, GS
41siempre que haya una persona que lleve a cabo la reducción terminológica. GS
42Para obtener una cobertura del 95%GS
43 se suele reducir la precisión al 50%, GS
44y para que la precisión ronde el 85%,GS
45 la cobertura no se reduce ni al 35% siquiera. GS
463. Aplicación al euskera GS
47El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. GS
48Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), GS
49el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial. GS
50Mientras se preparan dichas herramientas, GS
51habremos de trabajar sobre la modelización de los términos técnicos, GS
52es decir, hemos de reducir las características de los mismos. GS
53Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, GS
54se han de conseguir modelos principales. GS
55Aunque aún no contamos con resultados, GS
56intuimos que el modelo será más amplio que el del sintagma nominal. GS
57Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo.GS