Sarrera | Mapa | Kontaktua | Guri buruz |   
Hemen zaude: Sarrera »  Sare-aldizkariak »  Berri berriak »  OpenTrad: itzulpen automatiko librea

OpenTrad: itzulpen automatiko librea

2006-09-14 / 07:00 / IXA taldea   INFORMATIKA

Joan den maiatzean (2006-5-30) aurkeztu zituzten Bartzelonan OpenTrad itzultzaile automatikoaren proiektuaren emaitzak. Lau unibertsitateren eta hainbat enpresen arteko elkarlanaren emaitza da proiektu hau. Tartean daude Euskal Herriko Unibertsitateko (EHU) IXA taldeko kideak. Beraiek azaltzen dizkigute, artikulu honetan, OpenTrad-en nondik norako nagusienak.

Sarrera

Sarrera

Dagoeneko erabilgarri daude estatu espainiarreko lau hizkuntza ofizialak (espainera (es), euskara (eu), gailegoa (gl) eta katalana (ca)) kontuan hartzen dituen OpenTrad proiektuaren emaitzak.

Itzulpenak transferentzia bidezko teknologia klasikoa erabiltzen duenez, hau da, bi hizkuntza zehatzen arteko baliokidetzak bilatzen direnez, hizkuntza-bikote bakoitzeko sistema bat da, espainieratik euskarara (es-eu), espainieratik katalanera (es-ca), katalanetik espainierara (ca-es), espainieratik galizierara (es-gl) eta galizieratik espainierara (gl-es) bikoteetarako sistemak sortu dira. Adibideetan oinarritutako itzulpen-metodoak baztertu dira momentuz, etorkizunean teknika multzo hori modu osagarrian erantsiko bada ere. Bi teknologia sortu dira, bat apertium izenekoa, antz handia duten hizkuntzen artean itzultzeko; eta bestea matxin izenekoa, egitura desberdineko hizkuntzen artean itzultzeko. Automatetan oinarritutako teknologiari esker itzulpen-prozesua nabigazioarena bezain azkarra izan daiteke, eta, ondorioz, nabigatzen den bitartean bisitatutako orrien itzulpena lor daiteke atzerapenik gabe.

Teknologia libre eta irekia sortzea izan da helburu nagusia, beraz, estandarizazioari, modulartasunari eta hornitzaile desberdinetako moduluen elkarreragingarritasunari eman zaio lehentasuna. Proiektuaren emaitzak 2006ko martxoan publiko egin ondoren, hainbat komunikabidetan hizpide izan dira azken hilabeteetan. Emaitzak kontsultatzeko ondoko webguneak dira interesgarrienak:

Lau unibertsitateren eta hainbat enpresen arteko elkarlanaren emaitza da proiektu hau. Unibertsitateak ondoko hauek izan dira: Euskal Herriko Unibertsitateko IXA taldea, Alacanteko Unibertsitateko Transducens taldea, Vigoko Unibertsitateko Linguistika Informatikoko Mintegia eta Kataluniako Unibertsitate Politeknikoko TALP taldea. Enpresa arduraduna Eleka Ingeniaritza Linguistikoa da, Elhuyar Fundazioaren zein Galiziako Imaxin Software enpresaren laguntzarekin. Alacanten Prompsit izeneko enpresa bat sortu da, proiektuaren emaitzak Herri Katalanetan zabaltzeko asmoz. Espainiako Industria, Turismo eta Merkataritza Ministerioaren laguntzaz garatu da proiektua.

Emaitzak

OpenTrad-eko demoaren ondoko irudian ikus daitekeenez hiru aukera nagusi daude itzultzeko aipatutako hizkuntza bikoteen artean:

  • Testu itzulpena: momentu horretan tekleatutako testuaren itzulpena. Probak egiteko egokia da, baina ez oso praktikoa lan profesionaletarako.
  • Dokumentu itzulpena: konputagailuan dugun dokumentu baten itzulpena. Itzulpena egiteaz gain formatuaren informazioari eusten dio dagokion tokian, beraz, lan profesionalerako aukera nagusia da. Momentuz rtf eta html formatuak dira identifikatzen eta ondo ebazten direnak, baina epe laburrean beste formatu batzuk hartu nahi dira kontuan.
  • Nabigatu eta itzuli: webguneak bisitatu bitartean orriak itzultzeko balio du. Zure hizkuntzan ez dauden web-orriak ikusteko oso aukera interesgarria itzulpenaren kalitatea ona baldin bada.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Ondoren, azken aukera hori erabiliz, katalan hutsean dagoen web-orri baten itzulpena duzu, katalana ez dakigunentzat behintzat, aukera interesgarria:

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Erabiltzeaz gain, informatikan edota hizkuntzalaritzan aditua den pertsona, erakunde edo enpresa batek teknologia eskura dezake sistema integratzeko, aldatzeko edo hobetzeko. Software librea denez, hau egitea edonoren esku dago, beti aipatutako GPL eta CC lizentzien eskakizunak betez gero (orokorrean hortik eraldatutakoa libre izan beharko dela). Aipatutako apertium.sourceforge.net eta matxin.sourceforge.net helbideetan aurkitzen dira baliabide informatikoak eta linguistikoak. Ondoren ikus daiteke matxin teknologia eta es-eu baliabide linguistikoak jaisteko pantaila nagusia.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Itzulpenen kalitateaz

Itzulpen automatikoan hainbat neurri erabiltzen dira lortutako kalitatea neurtzeko, eta itzultzaileentzat adierazgarriena dena honako errore-tasa hau da: hitz guztien artean zenbat aldatu behar den itzulpen zuzen bat lortzeko. Neurri hau aplikatu da sistemaren garatzaileek ezagutzen ez zuten espainieratik itzulitako esaldi multzo baten gainean eta emaitzak honako hauek izan dira:

  • es-ca eta es-gl itzulpen-sistemetan errore-tasa % 4 baino txikiagoa izan da, hau da, 100 hitzetatik 4 baino ez dira zuzendu behar itzulpen zuzen bat lortzeko.
  • es-eu sisteman, berriz, errore-tasa % 32,90koa izan da, hau da, hiru hitzetatik bat zuzendu behar da. Kontuan hartuta euskarazko hitz kopurua nabarmen txikiagoa dela, euskararen izaera flexibo eta eranskariarengatik, neurria normalizatu behar izan da konparagarria izan dadin eta errore-tasa konparagarria % 24,80koa da.

Itzulpen automatikoan errore-tasa % 10 baino txikiagoa izan behar du sistema produktiboan integratu ahal izateko, beraz, es-eu sistema prototipo bat da (halaxe definituta zegoen proiektuan), oraindik garapena behar duena benetan eraginkorra izan dadin. Edozein kasutan egitura desberdineko hizkuntzen artean automatikoki itzultzean lortzen diren emaitzak neurri horretatik kanpo geratzen dira eta bi aukera daude:

  • oso sistema konplexuak egitea diru handiak inbertituz.
  • itzulpen-sistema orokorrak alde batera utzi eta testu-mota berezi batzuetan espezializatutako sistemak sortzea.

Edozein kasutan, erroreen iturburua aztertu dugu zein modulutan sakondu behar dugun detektatzeko, eta hauexek dira lortutako ondorio nagusiak:

  • es-ca eta es-gl itzulpenenetan arazo nagusia hiztegian ez dauden hitzak dira, izen arruntak eta izen bereziak batez ere.
  • es-eu itzulpenean berriz, erroreen iturri nagusia espainieraren analisi sintaktiko sakonean egindako akatsak dira, eta adiera desegokiaren hautapena zein deklinabide desegokiaren hautapena bigarren eta hirugarren arazo nagusiak dira.

Gure asmoa espainieratik zein ingelesetik euskarara itzultzen duten sistema eraginkorrak lortzea da, baina hori lortu ahal izateko dugun teknologia itzulitako testuen ustiapenarekin konbinatu beharko da, eta hori bideragarria izan dadin aplikazio-domeinua murriztu beharko da. Gure ustez, momentu honetan ezinezkoa da itzultzaile automatiko orokor eraginkor bat eraikitzea, baina bai domeinu jakin baterako, domeinu horretan itzulitako testu asko (itzulpen-memoriak deitzen zaie) eskuragarri baldin badago.

Espainiera-euskara itzulpenaren adibideak

Proiektatu zen sistemaren helburua xumea zen, espainierazko esaldi sinpleak euskarara itzultzen dituen prototipo bat garatzea. Lortutako emaitzak nahiko onak dira esaldi sinpleentzat ondoko adibidean ikus daitekeen moduan.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Dena den, esaldi horiek probatu ziren tresnaren garapenean zehar, beraz, logikoa da hauetan ondo asmatzea. Garatzaileek ezagutzen ez zituzten esaldiak dira ebaluatzeko erabili direnak eta ondoko bi iruditan adibide batzuk ikus daitezke. Aurreneko adibidean esaldien itzulpena ulergarria da, nahiz eta akats batzuk egon. Bigarrenean, berriz, esaldia desitxuratu egiten da eta jatorrizkoa begiratu gabe ez dago ulertzerik.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Azpimarra daiteke edad media terminoaren itzulpena: Erdi Aroa hautatu da testuinguru honetan itzulpen desegokia izan arren. Letra xeheek (termino moduko itzulpena aukeratzea letra larriz dagoenean) lagun dezakete akats hau konpontzen, baina antzeko kasuak gertatzen dira beste termino zein hitz batzuekin.

Akats nabarmenenak

Itzulpena egiteko espainieraz dagoen testuaren analisi sintaktiko osoan oinarritzen da. Analisi sintaktiko oso honek kategoria, morfologia, dependentzia sintaktikoak, etab. ditu eta itzulpena analisi horretan oinarritzen da. Beraz, analisi hori gaizki egina baldin badago, itzulpena txarra izango da.

Adibidez, Itzul zerrendan ezaguna egin den adibide honetan ("Miren lleva sus manzanas en un cesto") hau dugu itzulpena: "Haren sagarrak zaramazte saski batean begira bezate". Espainierazko analizatzaileak "Miren" aginterako adizki gisa analizatzen du, 3. pertsona plurala. Hortik sortu du "begira bezate"*.

Bestetik, aditz nagusia "Miren" dela agertzen da, eta horregatik beste elementu guztiak bere azpian zintzilikatzen ditu zuhaitz sintaktikoan. Aditz nagusi izate horrek "begira bezate" hori azken lekuan agertzea dakar. Bide batez esan esaldi honetan dagoen beste errore handia "lleva" "zaramazte" gisa itzultzea dela, eta hau datu base lexikoan dugun eta konponbidean dagoen errore batek eragindako akatsa da.

Opentrad es-eu itzultzaile automatikoak duen bigarren muga handia adiera-desanbiguazioa ez egitea da. Adibidez, "ha pasado por delante de casa" "etxearen aurretik atzean utzi du" itzultzen du.

Tresnak Elhuyar-en agertzen den lehen adierako lehen hitza hartzen du eta hori erabiltzen du itzulpen gisa. "pasar" aditzak hainbat balizko itzulpen ditu, baina lehenengoa "atzean utzi" da. Halakoak detektatzen baditugu, itzulpenean dauden hitzen ordena aldatu egiten dugu tartean orokorrago bat dagoela iruditzen bazaigu.

Adibidez, Elhuyar Hiztegian "tráfico"ren lehen ordaina "salerosketa" da. "salerosketa" ez zaigu testuetan askotan agertzen, eta, orokorragoa den "trafiko"ren alde egin dugu. Oraintxe martxan dugun tresnak "tráfico" "trafiko" gisa itzultzen du. Badakigu zenbaitetan maileguetara jotzen ari garela, baina ez dugu uste tresnak duen akats larriena hori denik.

Hala ere, ez dugu esango inolako adiera-desanbiguaziorik egiten ez dugunik. Preposizioen kasuan badugu zenbait informazio interesgarri (hala nola izenen biziduntasuna, aditzen azpikategorizazioa...) eta informazio hori erabiltzen saiatu gara. Adibidez, bi esaldi hauek itzultzera bidaliz gero, "sobre" preposizioak itzulpen ezberdinak ditu: "el libro está sobre la mesa" eta "los aviones volaron sobre la muchedumbre". Hauek dira itzulpenak: "liburua maihaiaren gainean dago" eta "hegazkinek jendetzaren gainetik hegan egin zuten".

Informazio gehiago


(IXA TALDEA. Euskal Herriko Unibertsitatea)


Inprimatu


Erantzun

 
Ez dakit nondik atera dituzten errore batezbestekoak
2006-09-14 / 12:57 / Borja Ariztimuño López

Ez dakit nondik atera dituzten errore batezbestekoak (%32?¿ %24¿?). Nik neuk askotan erabili dut opentrad delakoa eta zin dagizuet, %50etik ez dela jaisten akatsen ehunekoa (esaldi labur eta sinpleekin). Hitz desegokiak, adiera desegokiak, deklinabide desegokiak erabiltzeaz gain, hitz ordena ere askotan zeharo aldrebesa da, beharrik gabe atzekoz aurrera (txistea dirudi batzuetan, gaztelaniaz ezkerretara dagoena euskaraz eskuinean eta kito!)... Ergatiboa ere ez du bereizten eta!

Hona adibideak (ezin sinpleagoak):

-Ayer fui a casa y comí una manzana. -Etxea izan nintzen eta sagar bat jan nuen Atzo. (hitz larriak toki bitxietan, Atzo hasieran jartzea litzateke logiko eta errazena, gaztelaniazko a ez du kontuan hartu eta, beraz, izan aditza balitz bezala itzuli du fui)

-No sé nada sobre eso. -Ezer Ez dakit horren gainean. (Ez da horren zaila... hitz ordena aldatu gabe ere: Ez dakit ezer-No sé nada, hobeto legoke)

Volvieron a las diez. 10tara itzuli ziren. (Ez du kontuan hartzen erdaraz, normalean, gehienetan a las+zenbakia orduak adierazteko dela, batez ere esaldia hor bukatzen bada...)

Yo he ido, yo he hecho. Ni joan naiz, ni egin dut. (Sinestezina, EGIN-ek BETI behar du ERGATIBOA!)

Oso zaila izango da horrelako gauzak egitea... Baina uste dut jendaurrean aurkeztu baino lehenago asko hobetu behar zuketeela...

Ekin.

 
Helburua: testu sinpleak euskaratzeko prototipoa lortzea
2006-09-19 / 15:16 / IXA taldea

Kaixo, lagun

mila esker OpenTrad itzultzaile automatikoa erabiltzeagatik eta zure iradokizunak helarazteagatik.

Proiektu honen helburua espainierako testu sinpleak euskaratzeko prototipoa lortzea zen, eta, gure ustez, martxan dagoen prototipoak proiektuaren helburuak bete ditu. Hobetu daitekeela... jakina!! eta ojala inork hobetze horretan interesik izatea eta laguntzea. Momentuz aldaketa txikiak egiten gabiltza, baina hainbat deialditan aurkeztu dugu proiektua hobekuntza potoloagoak egiteko.

Erroreen batez bestekoak datuetatik ateratzen dira. Hau da, espainierako testu bat makinak itzuli ondoren itzultzaile batek zenbat hitz aldatu beharko lituzkeen kontatzen da. Zure adibideak hartuko ditugu kontuan eta aldatu beharreko hitzak begiratuko ditugu. Erroreen zergatiak azaltzen eta zure komentarioak erantzuten saiatuko gara.

> Hona adibideak (ezin sinpleagoak):

> -Ayer fui a casa y comí una manzana.

> -Etxea izan nintzen eta sagar bat jan nuen Atzo.

Aldatu behar diren hitzak: etxea (etxera), izan (joan). 9 hitzetatik 2 (%22,22). Eta oso zorrotzak izanda atzo ere lekuz aldatuko genuke, eta orduan 9 hitzetatik 3 (%33,33)

Hitz larriak: arrazoi guztia duzu. Batzuetan arazoak ditugu hitz larriekin, baina ez dugu uste horrek esaldia ulertzen zailtzen duenik. Atzo amaieran: arrazoi duzu logikoena hasieran jartzea litzatekeela.

"Fui" eta "a": gaztelaniako analizatzaileak "fui" forma "ser" aditzarena (eta ez "ir") dela dio eta horrek itzulpen txarra eragiten du. Ondoren preposizioak itzultzeko garaian aditzari begiratzen diogunez, "izan" aditzaren konplementurik normalean "a"rekin agertzen ez denez, kale egiten du eta "a" ez du itzultzen. "a" preposizioa itzultzeko zaila da espainierazko analisi ona behar delako, baina ikus ezazu ondoko adibideetan itzultzen saiatzen garela: He visto a Juan --> Joan ikusi dut.

Le he dado el libro a Juan --> Liburua eman diot Joani.

Llegó a casa a la tarde --> Etxera iritsi zen arratsaldean.

> -No sé nada sobre eso.

> -Ezer Ez dakit horren gainean.

Esaldi hau ez al da onargarria? Bueno, zure proposamenean "ezer" lekuz aldatu beharko litzateke. Beraz, 5 hitzetatik 1 aldatu (errorea %20)

"Ez da horren zaila”... hori oso subjektiboa da. Ezin duguna da adibide bakoitzerako ordena bat proposatu. Erregela orokorrak eman behar ditugu. Nire uste apalean, esaldi hori ulergarria da. > Volvieron a las diez.

> 10tara itzuli ziren.

Aldatu beharrekoa: 10etara (10etan). 3tik 1 aldatu (%33,33)

Hemen ere espainieraren analizatzailearen mende gaude... eta espainierazko analizatzailea egiten dutenek esaten digutenez, “a las diez” ordua denik ezin dute jarri “beti” ez delako hala agertzen. Gure ustez, zuk diozun bezala ia-beti izango da hala baina... “han entrevistado a diez personas y han contratado a las diez” adibidez. Dena den aldatzeko asmoa dugu

> Yo he ido, yo he hecho.

> Ni joan naiz, ni egin dut.

> (Sinestezina, EGIN-ek BETI behar du ERGATIBOA!)

> Aldatu beharrekoa: ni (nik). 6tik 1 (%16,66)

Bai, hor sorkuntza arazo bat izan dugu eta "ni" horri makinak ez dio ergatiboa jarri... baina aditz laguntzailea asmatu du. Bestetan dena asmatzen du, baina zenbait izenordainek arazoak ematen dizkigute euskarako zatia sortzeko garaian. Konpondu egingo dugu laster. Hara adibide on bat: "El hermano de mi amigo ha hecho una casa." --> Nire adiskidearen anaiak etxe bat egin du.

> Oso zaila izango da horrelako gauzak egitea... Baina uste dut jendaurrean aurkeztu baino lehenago asko hobetu behar zuketeela...

Hasieran esan dizugun bezala, helburua (eta horretarako eman ziguten proiektua Madrilgo Ministerio de Educación y Ciencia-n) prototipo bat egitea eta publiko jartzea zen. Horretan saiatu gara eta lortu dugula uste dugu. Gainera kontuan hartu behar duzu software libre gisa garatu dugula eta inportantea dela publikoa egitea, beste norbaitek halako asmo bat baldin badu guk egindako lana berriro egin ez dezan. Gu gara itzulpen egokiagoak ikusi nahiko genituzkeen lehenak.

Mila esker berriro ere zure kezkak gurekin konpartitzeagatik eta edozer iradokizun berri izanez gero, berriro ere guri helaraztea eskertuko genizuke.

 

Erantzun

Euskara Patronatua
Tel.:943-814518
Faxa: 943-811947
erabili@erabili.eus