Sarrera | Mapa | Kontaktua | Guri buruz |   
Hemen zaude: Sarrera »  Sare-aldizkariak »  Berri berriak »  Itzultzaile automatikoa software librean

Itzultzaile automatikoa software librean

2005-04-19 / 07:00 / IXA taldea   INFORMATIKA

Dagoeneko abiatu da Espainiako estatuko lau hizkuntza nagusiak kontuan hartzen dituen proiektua, espainiera (es), euskara (eu), galegoa (gl) eta katalana (ca) hain zuzen. Itzulpenak egiteko transferentzia bidezko teknologia klasikoa erabiltzen du. Hau da, bi hizkuntza zehatzen arteko baliokidetzak bilatzen dira, eta horregatik, hizkuntza bikote bakoitzeko sistema bat egongo da. Beraz, es-eu, eu-es, es-ca, ca-es, es-gl eta gl-es bikoteetarako sistemak sortuko dira.

Adibideetan oinarritutako itzulpen-metodoak (1) eta itzulpen memorien erabilera baztertu dira momentuz, etorkizunean teknika multzo hori modu osagarrian erantsiko bada ere.

Teknologia libre eta irekia sortzea da helburu nagusia, eta beraz, estandarizazioari, modulartasunari eta hornitzaile berarenak ez diren moduluen elkarreragingarritasunari eman zaio lehentasuna. Proiektuaren emaitza 2006ko lehen hiruhilekoan agertuko da: alde batetik, itzulpenak egingo dituen webgune bat zabalduko da, eta bestetik, erabilitako kodea eskuratzeko eta egokitzeko aukera izango da.

Lau unibertsitateren eta hainbat enpresaren arteko elkarlanaren emaitza da proiektu hau.

Ikerketa taldeak

  • Euskal Herriko Unibertsitateko IXA,
  • Alacanteko Unibertsitateko Transducens,
  • Vigoko Unibertsitateko Linguistika Informatikoko Mintegia
  • Kataluniako Unibertsitate Politeknikoko TALP.

Enpresak

  • Eleka Ingeniaritza Linguistikoa da enpresa arduraduna,
  • Elhuyar Fundazioa enpresa laguntzailea da,
  • Galiziako Imaxin Software enpresa laguntzailea da eta

Espainiako Industria, Turismo eta Merkataritza Ministerioaren laguntzaz garatzen ari da proiektua.

Aurrekariak

Proiektu honen aurrekari nagusiak hiru sistema dira: Irternostrum, FreeLing eta Matxin.

Katalanaren eta espainieraren arteko itzulpenak egiten dituen InterNostrum sistema (2) Alacanteko unibertsitateak garatu du eta dohain erabil daiteke web bidez.

Adibidez Gipuzkoako Foru Aldundiko orri nagusia espainieratik katalanera itzul dezakegu “Traduir i navegar” aukeraren bidez eta dagokion URLa sartuz.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Bi segundotan itzultzen du gipuzkoa.net webgunea, eta honako hau izan da martxoaren 15ean lortu dugun itzulpena:

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Internostrum sistemaren teknologia izango da hizkuntza latinoen arteko sistemen funtsa, baina kodea eta hainbat baliabide linguistiko askatuz.

FreeLing (3) UPCk garatutako espainieraren eta ingelesaren azterketarako software librea da. CVS programaren bidez zabaltzen da eta edonork erabil edo alda dezake. Espainieraren analisi sakona egiteko gai denez, es-eu itzultzailean erabiliko da hainbat hobekuntzarekin.

Matxin (4) IXA taldeak garatutako euskararako itzulpen automatiko eleanitzerako prototipo bat da, espainieratik zein ingelesetik euskarara itzultzen duena modu esperimentalean. Momentuz abiaduraren, estalduraren eta doitasunaren aldetik mugatua da, baina prototipo hau sistema erabilgarri bihurtzea da es-eu atalaren jomuga. Beste hizkuntzetako tresnen integrazioari eta postedizioari, hau da erabiltzaileak aldaketak egin ahal izateari, ematen zaio garrantzi handia prototipo honetan.

Proiektuaren hasieran garatuta genuen prototipoa laborategikoa kontsidera daiteke, esaldi sinple asko ondo itzultzen dituelako baina egunkarietan eta bestelako testuetan agertzen diren esaldi konplexuetarako mugatua da. Ondoko adibideetan sistemaren ezaugarriak antzeman daitezke.

Hona hemen hainbat esaldi sinpleren itzulpenak:

  • Ellos ganan esta batalla, pero perderán la guerra.
    • Beraiek bataila hau irabazten dute, baina gerra galduko dute.
  • El traductor que estamos desarrollando.
    • Garatzen ari garen itzultzailea.
  • Además ahora come manzanas y peras.
    • Gainera orain sagarrak eta udareak jaten ditu.

Ondoren egunkari bateko espainierazko adibide bat itzultzera bidali da eta emaitza honako hau da:


SUCESO

Un ciudadano vasco aparece ahogado con los pies atados en aguas del Puerto_de_Barcelona.

Dos personas han aparecido muertas en aguas del Puerto_de_Barcelona. Uno de ellos, al parecer un ciudadano vasco, tenía los tobillos atados entre sí con una corbata.

GERTAERA

Euskal hiritar bat azaltzen da eta uretan lotutako hankekin.

Bi pertsonak hilak azaldu dira uretan. Beraien bat, euskal hiritar bat ?, artean lotutako orkatilak hartzen nituen gorbata batekin.


Adibide horietan ikus daitekeenez, oinarrizko prozesaketa linguistikoan urrats asko eman badira ere, badago lanik itzulpena egokia izan dadin.

Osagaiak

Proiektuaren ekarpen teknologikoaren aldetik bi sistema multzo bereizten dira, gertu dauden hizkuntzen artekoak batetik, eta urrun dauden hizkuntzen artekoa, es-eu sistema hain zuzen, bestetik.

Lehen multzoko sistemetan ez da testuaren analisi sakonik egiten, eta modulu nagusiak honako hauek diren: analisi lexiko-morfologikoa, azaleko sintaxia, azaleko transferentzia eta sorkuntza morfologikoa. Abiadura handiko itzulpena lortzen da urrats hauetarako egokia den egoera finituko teknologiari esker. Automatetan oinarritutako teknologia horri esker itzulpen-prozesua nabigazioarena baina azkarragoa da, eta ondorioz nabigatzen den bitartean bisitatutako orrien itzulpena lor daiteke batere atzerapenik gabe. Fidagarritasuna edo kalitatea % 95 inguruan egongo da, hau da, 100 hitzeko 5 soilik zuzendu behar izango dira.

es-eu bikoterako berriz, analisi sintaktiko sakonagoa beharko da, eta horrekin batera egiturazko transferentzia eta sorkuntza. Analisi zein transferentzia sakonean automatetan oinarritutako teknologia ezin denez erabili, sistema zerbait motelagoa izango da, eta kalitatearen aldetik aurreikuspenak egitea zaila bada ere, % 80ko fidagarritasun-mailara hurbiltzea espero da. Bi faktore nagusik eragiten dute fidagarritasun txikiagoa, sintaxiak eta lexikoaren hautapenak. Sintaxiaren aldetik dagoen aldeak batzuetan esaldi-egitura okerrak edo desegokiak sortzea ekartzen du. Horrez gain, gaur egungo teknologiak testu orokorretarako analisi semantiko sakona egiteko gai ez denez, nahiz eta arlo horretan aurrerapenak egiten ari diren, lexikoaren hautapena analisi semantiko sakonik egin gabe burutuko da, eta horrek maiztasun handieneko adiera hautatzea ekarriko du. Hizkuntzak antzekoak direnean sinplifikazio honek emaitza onak ematen ditu, baina bestelako kasuetan hutsegite gehiagoren iturburua da.

(IÑAKI ALEGRIA, ARANTZA DIAZ DE ILARRAZA, GORKA LABAKA, MIKEL LERSUNDI eta AINGERU MAYOR IXA taldeko kideak dira)

Bibliografia

  • (1) Díaz de Ilarraza A., Mayor A., Sarasola K. 2002 Adibideetan Oinarritutako Itzulpen Automatikoa (AOIA): azterketa bibliografikoa eta euskararekin lan egiteko proposamenak Senez aldizkaria. ISBN: 847086287-1 17- 35. orr.
  • (2) R. Canals-Marote, A. Esteve-Guillén, A. Garrido-Alenda, M.I. Guardiola-Savall, A. Iturraspe-Bellver, S. Montserrat-Buendia, S. Ortiz-Rojas, H. Pastor-Pina, P.M. Pérez-Antón, M.L. Forcada, "El sistema de traducción automática castellano-catalán interNOSTRUM", Procesamiento del Lenguaje Natural, (XVII Congreso de la Sociedad Española de Procesamiento del Lenguaje Natural, Jaén, Spain, 12-14.09.2001) 27, 151-156. ( Artikulua eskuratzeko, klikatu HEMEN )
  • (3) Xavier Carreras and Isaac Chao and Lluís Padró and Muntsa Padró. FreeLing: An Open-Source Suite of Language Analyzers Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04), 2004. ( Artikulua eskuratzeko, klikatu HEMEN )
  • (4) Díaz de Ilarraza A., Mayor A., Sarasola K. Reusability of Wide-Coverage Linguistic Resources in the Construction of a Multilingual Machine Translation System MT 2000. University of Exeter, United Kingdom: 19-22. ( Artikulua eskuratzeko, klikatu HEMEN )


Inprimatu


Erantzun

Euskara Patronatua
Tel.:943-814518
Faxa: 943-811947
erabili@erabili.eus