Sarrera | Mapa | Kontaktua | Guri buruz |   
Hemen zaude: Sarrera »  Sare-aldizkariak »  Iritzi-muinetik »  Euskararen digitalizazioa nola bihurtu industria?

Euskararen digitalizazioa nola bihurtu industria?

2004-01-26 / 07:03 / Kepa Sarasola   INFORMATIKA

Epe ertainean pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal izango dugu, ez makinaren hizkuntzan. Ez dago zalantzarik aho-idatzizko mintzaira naturala gure eguneroko bizitzaren giltzarri dela. Egunetik egunera, datu-base dokumentalak handitzen ari dira, ordenagailuekin harremanak izateko erak aldatzen eta multimedia sistema guztiak digitalizatzen. Horren ondorioz, ezinbestekoa bihurtu zaigu aho-idatzizko mintzaira naturala ere informatika bidez lantzeko bideak aztertzea. Zalantzarik gabe Hizkuntza-Teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartea esaten diogun horretan.

Tresna horiek mugatuak izango dira, eta beti errore-maila batekin lan egingo dute, baina, hala ere, laguntza ederra emango digute. Alde batetik, ekonomikoki errentagarriak izango direlako (merkeago da erroreak dituen itzulpen zirriborro bat zuzentzea, testu osoa bere osotasunean itzultzea baino). Beste alde batetik, tresna horiei esker gizakien arteko komunikazioa hobetu egin ahal izango da (adibidez, telefono bidez hitz egiteko aukera izango dugu beste hizkuntza bat darabilen pertsona batekin, hitzak banan-banan sistema batek itzultzen baditu).

Gaur egun badira zenbait hizkuntza-aplikazio eskuragarri: ortografia-zuzentzaileak eta estilo-zuzentzailea, hiztegi-kontsultak on-line, itzulpen-laguntzak, interneterako bilatzaileak, hizketa testu bihurtzen duten sistemak, testua irakurtzen dutenak, bigarren hizkuntza ikasteko sistemak eta abar.

Baina horrelako sistema gehienek ingeleserako balio dute, ez beste hizkuntzetarako. Beste hizkuntzek ahalegin handia egin behar dute atzean ez gelditzeko, are gehiago euskara bezalako hizkuntza txikiek.

Natural Language Software Registry zerbitzuak interneten duen orria begiratzen badugu (http://registry.dfki.de , edo hizkuntza-teknologiari buruzko informazio orokorragoa duen www.lt-world.org) gaur egun hizkuntzak lantzeko erabilgarri diren 167 programaren berri jasoko dugu (ikus 1. irudia). Horietatik %75 ingeleserako erabilgarri dira, eta %30 bakarrik erabil daitezke edozein hizkuntzatarako. Merkatuan aurki daitezkeen aplikazio gehienek hizkuntza “handiak” dituzte helburu, ingelesa, batik bat, baina baita, bigarren maila batean bada ere, beste hainbat hizkuntza handi ere: frantsesa, alemanera eta espainiera, besteak beste.

1. irudia. Hizkuntza-Teknologiako zenbait sistema erabilgarri hainbat hizkuntzatarako.

Euskararen egoera orain

Orokorrean aztertuta -alegia, ez hizkuntzaren prozesamendu automatikoarekin lotuta dauden aplikazioak bakarrik-, euskarak orain informatikaren munduan duen egoera ez da basamortua, badira aplikazio batzuk; baina oraindik zeregin handia dago egoera normalizatu batera iristeko. Euskararen Softwarearen Katalogoa aztertzen badugu (www.ueu.org/softkat) aplikazio-motaren arabera zenbait programa aurkituko ditugu:

  • (13) BULEGO APLIKAZIOAK (Testu prozesatzaileak, kontabilitatea...)
  • (18) AISIALDIA (Musika,Jokoak...)
  • (34) HIZKUNTZA (Itzultzaileak, zuzentzaileak, hiztegiak...)
  • (15) INTERNETEN ARITZEKO (Nabigatzaileak, posta elektronikoa...)
  • (13) TRESNA OROKORRAK (Sistema eragileak, Interneteko datu-baseak eta bilatzaileak...)
  • (37) IRAKASKUNTZA ETA JOKO PEDAGOGIKOAK (Matematika, zientziak...)
  • (2) DOKUMENTAZIOA

Hizkuntzaren prozesamenduarekin lotuta azaltzen diren 34 aplikazio horiek aztertuz gero, era berean, esan dezakegu ez gaudela basamortuan, eta hala ere, oraindik zeregin handia dagoela:

  • Ediziorako laguntzak:
    • Xuxen: zuzentzaile ortografikoa
    • Elhuyar hiztegia on-line. Officeko plug-ina.
    • UZEIren Sinonimoen hiztegia on-line. Officerako plug-ina.
  • Hizketaren tratamendua
    • BIZKAIFON (Bizkaieraren Fonoteka)
    • AhoTTS Testu-Ahots Bihurgailua
    • FonAtari
  • Euskara ikasteko metodoak:
    • BOGA
    • HEZINET
    • bai&by
    • Gel@irekia
  • Lematizatzailea, informazioa bilatzeko tresna
    • Euslem
  • Datu-base dokumentala
    • Kapsula
  • XX mendeko corpus estatistikoa
  • Baliabide lexikalak: hiztegiak, esamoldeak,...
    • 22 produktu

Hizkuntz-ingeniaritzaren aplikazioa

Hizkuntzaren tratamendu automatikoaren ia 50 urteko historian gorabehera handiak izan dira. Helburu liluragarriak lortzear zeudela uste izan da zenbait une euforikotan, baina belarriak jaitsi eta helburu apal baina eskuragarriagoetara mugatze aldera jo behar izan da beste une pragmatikoago batzuetan. Erabateko itzulpen automatikoa konputagailuen eskutik etorriko zela aurreikusi zuten 1954an Georgetown-eko Unibertsitatean. Alabaina, 1966an itzulpen automatikorako diru-iturri ofizial guztiak itxi egin ziren, ALPAC txosten ezagunak horrela gomendatu eta gero. Aurrerago, 1980 inguruan, adimen artifizialeko teknika berrien eskutik konputagailuak hizkuntza arruntaz —aho-idatzizko mintzaira naturalean— programatu ahal izango genituela agindu zitzaigun. Gaur egun ahaztuta daude horrelako ametsak. Dena dela, euforia eta pragmatismoko ziklo horiek bi motatako emaitzak utzi dituzte: alde batetik, hobeto baloratu eta ezagutzen dugu hizkuntzaren egitura eta erabilera, eta aitortu behar izan dugu ez direla hasieran uste bezain sinpleak; bestetik, helburu utopiko horiek lortzeko asmotan eraiki diren tresnekin helburu apalagoa duten baina komertzialki bideragarriak diren produktu asko merkaturatu dira.

Hizkuntza naturalaren tratamendu konputazional osoa ezinezkoa da, etengabeko aldaketak eta erabilera mugaezinak ditu eta. Bost urteko edozein ume hitz egiten eta ulertzen ondo moldatzen denez, hizkuntza erabiltzea lan erraza dela pentsatzen dugu, baina hori ez da horrela. Hizkuntza sortzea eta ulertzea oso prozesu konplexuak dira eta gaur egungo ordenagailuak urrun ikusten ditu giza adimenaren hizkuntz-ahalmen orokorrak. Baina horrek ez du esan nahi aplikazio interesgarri eta oso baliagarriak egin ezin direnik. Esan bezala tresna horiek mugatuak izango dira, eta beti errore-maila batekin lan egingo dute, baina, hala ere, laguntza ederra emango digute zenbait hizkuntz jarduera mugatutan.

Euskararen tratamendu automatikoa bideratzeko estrategia IXA taldearen ustean

Hizkuntza-Teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartea esaten diogun horretan. Eusko Jaurlaritzako hiru sailek batera, Industria, Hezkuntza eta Kulturak, ikerlerro estrategiko gisa definitu izan dute. Testuinguru horretan kokatuta dagoen Etortek 2002-04 ikerketa-deialdian VICOMTech, Elhuyar, Robotiker, Aholab eta IXA taldeak elkarlanean proiektu bat ari gara garatzen: "HIZKING21 HIZKuntza INGeniaritza XXI mendeko atarian” (http://www.hizking21.org). Hizkuntz-ingeniaritzaren arloan ikerketan eta garapenean lan egiteko epe erdirako estrategia diseinatu dugu, proiektuko partaideen 15 urteko eskarmentuan oinarrituta. Nazioartean punta-puntako mailan jardungo duen industria sendoa sortzea da gure erronka. Ikerketa-taldeek, industriak eta erakunde ofizialek elkarrekin koordinatu behar dute helburu hori lortzeko. Hizkuntz-ingeniaritzaren arloan Ikerketan eta Garapenean arituko den komunitate zabal bat sortu behar dugu. Gaur, 2004. urtean, guk atera ditugun kontuen arabera, 120-150 lagun dabiltza lanean Euskal Herrian hizkuntzaren prozesamenduaren arloan, zuzenki edo zeharka. Gauzak ondo planifikatuz gero eta formazio-plan egokiak aurrera eramanez gero, urte gutxiren buruan kopuru hori bi halakotu edo hiru halakotu egin daitekeela aurreikus daiteke.

  • Nola ekin erronka horri? IXA taldean urteetan jarraitu izan dugu estrategia bat, urrats-kate bat hizkuntzaren teknologiari metodo batekin ekiteko. Taldearen 15 urteko ibilbidea estrategia horren arabera egin dugu. Nazioarteko foroetan ere aurkeztu eta kontrastatu dugu beste ikerlari batzuekin. Ideia nagusiak oso sinpleak dira:

  • Hasieran oinarrizko baliabideak eta tresnak sortu behar dira, eta geroago merkatu-aplikazioak sortu. Ez da alderantziz egin behar!
  • Oinarri linguistiko bakoitza, tresna eta aplikazio bakoitza, ondo diseinatu behar da ondorengo produktuetan erabilgarria izan dadin.

Aplikazio horien garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro har, hizkuntza teknologien egitura, piramide moduko batez irudika dezakegu (ikus 2. irudia). Piramide honen oinarrian hizkuntz-ingeniaritza arloan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide hauei esker, tresnak garatzeko moduan izango gara, eta behin hauek garatuta, hizkuntz-ingeniaritzaren hainbat esparrutan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu. Kontuan izan behar da, ordea, alderantzizko bidea ezin dela egin, etxea teilatutik eraiki nahi ez badugu.

2. irudia. Hizkuntza Teknologiako aplikazioek oinarri sendoa behar dute.

Aplikazioak garatuko badira, zer-nolako azpiegitura behar da?

Aplikazioak ditugu helburu, noski. Gizarte eleaniztun batean bizi gara, eta eleaniztasun horretan lagungarri izango zaizkigun tresnekin egiten dugu amets: euskararako itzulpen automatikoa, hizketaren ezagutza, estilo zuzentzaileak ere nahi ditugu. Baina hauek sortzera helduko bagara oinarri sendoa beharko dugu lehenik. Esaterako, itzultzaileentzat lagungarri izan daitekeen tresna bat garatzeko hainbat baliabide eta tresna garatu beharko ditugu aurretik (ikus 3. irudia), eta baliabide eta tresna horiek guztiak itzulpena ez den beste aplikazioetan ere erabilgarri izango dira.

3. irudia. Hizkuntza Teknologiako hainbat modulu itzulpengintzarako laguntza dira.

Produktu bakoitza produktu berrien garapenean ahalik eta modu zabalenean berrerabilia izatea da gure helburua. Horrela, gaur egungo lorpenak eta jarduerak ondorengo irudian ageri diren moduan sailkatu ditugu:

4. irudia. Hizkuntz baliabideak eta tresnak aplikazioen oinarri.

Hauek dira orain artean garatu ditugun oinarrizko tresna eta baliabide nagusiak:

Tresnak

  • Analizatzaile morfologikoa. Hizkuntza guztietan beharrezkoa, eta euskara bezalako hizkuntza flexionatu eta eranskarien kasuan ezinbestekoa. Analizatzaile (eta sintetizatzaile) morfologikoaren zeregina hitz-forma osatzen duten morfemak ezagutzea (eta konposatzea) da, eta morfema bakoitzari dagokion informazio morfologiko-lexikala ematea. Erreminta hau oinarri da hainbat aplikaziotan, hala nola, zuzentzaile ortografikoan, karaktere-ezagutza optikoan (OCR), eta aplikazio sofistikatuago guztietan -itzulpen automatikoan, adibidez-. Euskarako analizatzaile/sintetizatzaile morfologiko orokorra egina dago, eta Xuxen euskarazko zuzentzaile ortografikoaren funtsa da.
  • Lematizatzaile/etiketatzailea. Lematizatzaile/etiketatzailea analizatzaile morfologikotik eratorria da, eta hitz-forma baten lema eta kategoria ematen ditu, anbiguotasuna saihestu edo gutxitzearren testuingurua aintzat hartuz. Zeregin nagusia desanbiguazioa bada ere, beste egitekorik ere badu halako tresna batek, esate baterako, hitz anitzeko unitate lexikalen identifikazioa (lokuzioak, hitz-elkarketak, pertsona-izenak, etab.). Oso aplikazio interesgarriak dituzte lematizatzaileek: indexazioa -Interneteko bilatzaileetan, adib.-, terminologia eta lexikografia, etab. Euskarako lematizatzaile orokorrari EusLem izena eman diogu, eta txertatuta dago jadanik Interneteko hainbat bilatzailetan.
  • Analizatzaile sintaktikoa. Analizatzaile sintaktikoen zeregina, testuetako osagai sintaktikoak ezagutzea da: perpausak, izen-sintagmak, izen-lagunak, etab. Analisiaren oinarria lexikoa eta gramatika izango dira, hitzen ezaugarriak eta egitura sintaktikoen osaketa posibleak definituko dituztenak. Hau ere ezinbesteko tresna dugu hizkuntza-aplikazio askotan, itzulpen automatikoan, esate baterako. Euskararen kasuan, azaleko analizatzaile sintaktiko orokorra egina dugu -EusMG-, eta zuhaitz sintaktiko osoa emango digunaren ikerbideak nahiko aurreratuta daude.


Hizkuntza-baliabideak eta oinarriak

Aplikazioak garatzeko tresnak behar ditugu lehenik, baina hauen oinarri baliabideak dira. Hona nagusiak:

  • Datu-base lexikala eta morfologiaren deskribapena. EDBL, euskararen datu-base lexikalak, 75.000 sarrera inguru biltzen ditu egun. Helbide honetan kontsulta daiteke:ixa2.si.ehu.es/edbl
  • Hiztegi elektronikoak. Hizkuntzaren datu-base lexikal orokorra oinarri dela, horren inguruan biltzen ahal dira beste zenbait tresna lexikal ere: definizio-hiztegiak, hiztegi terminologiko berezituak, hiztegi elebidunak, eta beste.
  • Gramatika konputazionalak: sintaxiaren deskribapena. Euskararen kasuan, gainera, morfologia eta sintaxiaren arteko lotura estua hartu behar da kontuan. Horrek eraman gaitu tratamendu morfosintaktikoa analizatzaile morfologikoan integratzera: Morfeus izeneko analizatzaile morfosintaktiko orokorra da emaitza.
  • Taxonomia semantikoak. Hizkuntza ulertzea xede denean, baina, ez da aski morfologia eta sintaxiarekin, semantikaz ere jakin behar izaten baitu programak. Erlazio lexiko-semantiko horiek sare semantiko moduko batean adierazten dira esplizituki. Ingelesezko sare semantikoen artean ezagunena-edo WordNet izenekoa dugu, eta haren euskararako egokitzapenari Euskal WordNet deitzen diogu. Oraindik garapen mailan dagoen baliabide hori kontsultagarri dago euskararako, eta beste hizkuntza bazuetarako, helbide honetan: sisx03.si.ehu.es/tresnak/wei/wei_mysql_euskaraz.html
  • Testu-corpusak. Testu-corpusak testu-masa handiak dira, informazio linguistikoaren iturri nagusia, eta gorago aipatu aplikazio, tresna eta oinarrietarako ezinbesteko probalekuak. Hizkuntza-corpusek lexikografian duten garrantzia ezaguna da. Era berean, tratamendu automatikorako lexikoi bat edo gramatika konputazional bat ezin dira hutsetik asmatu, eta, horretarako, corpusak ezinbestekoak dira. Bestalde, garatutako tresnak eta aplikazioak ezin dira probatu laborategiko hitz, perpaus eta esaldiekin soilik: testu errealak behar dira. Euskaraz baditugu zenbait corpus kontsultatzeko moduan (XX. mendeko corpus estatistikoa www.euskaracorpusa.net/XXmendea, edo Ereduzko Prosa Gaur www.ehu.es/euskara-orria/euskara/ereduzkoa). Baina beste hizkuntzetarako daudenekin konparatuta eskas samar geratzen dira gure corpusak, bai tamaina aldetik bai testu barruan etiketatzen denaren arabera (lemak, hitzen kategoria desanbiguatuak, osagai sintaktikoak, hitzen adiera desanbiguatuak...):

CorpusaHitz kopuruaHizkuntza
British National Corpus100 milioi hitzIngelesa
Bank of English (COBUILD)300 milioi hitzIngelesa
FRANTEXT150 milioi hitzFrantsesa
CRAE130 milioi hitzGaztelania
CORDE136 milioi hitzGaztelania
XX. mendeko corpus estatistikoa5 milioi hitzEuskara
Ereduzko Prosa Gaur4,5 milioi hitzEuskara

Testuak ondo aukeratuz gero, testu horien azterketaren emaitza hizkuntzaren egoeraren adierazgarri eta eredugarri izan daiteke, alegia, hizkuntza lantzeko erreferentzia estandarra. Gaur egun informazioaren gizartean hizkuntza batek duen garrantzia neurtzeko garaian, hizkuntza horrek aplikazioak garatzeko dituen hizkuntz-baliabideak aztertzen dira. Hizkuntz-baliabide hauen artean, corpus handien garapena lehendabiziko jomuga izan ohi da. Gaur egun corpusen kopurua eta hauek sortzeko proiektuen kopurua gero eta handiagoa da. Web orri hauetan topa daiteke corpus hauen informazio nahiko eguneratua: www.elda.fr/catalog.html eta www.ruf.rice.edu/~barlow/corpus.html

Lehen esan bezala, oinarrizko baliabide eta tresna hauek gabe, ez gara izango gai helburu ditugun aplikazioak garatzeko. Euskararen kasuan, baditugu hainbat tresna eta baliabide, baina euskararen hizkuntza teknologiak ingelesa bezalako hizkuntzen pare nahi baditugu ikusi, badugu oraindik egin beharreko bide luze bat.

Ondorioak

Badira hainbat produktu euskara eta softwarea uztartzen dituztenak. Euskararen Software Katalogoan (www.ueu.org/softkat) 140 bildu dira. Horietarik 34 lotuta daude Hizkuntzaren Industriarekin. Hori ez da hutsaren hurrengoa, baina bai oso gutxi; ahalegin handia egin behar dugu informazioaren gizarteko mundu honetan euskara atzean ez gelditzeko.

Gure bide horretan sortuko dugun hizkuntz-oinarri bakoitza, tresna eta aplikazio bakoitza, ondo diseinatu beharko dugu ondorengo produktuetan erabilgarria izan dadin.

Hizkuntz-ingeniaritza arloan, ikerketan eta garapenean gabiltzan VICOMTech, Elhuyar, Robotiker, Aholab eta IXA taldeentzat, elkarlanean garatzen ari garen "HIZKING21 HIZKuntza INGeniaritza XXI mendeko atarian” proiektuan, nazioartean punta-puntako mailan arituko den industria sendoa sortzea da gure erronka. Ikerketa-taldeak, industriak eta erakunde ofizialak koordinatu egin behar dira helburu hori lortzeko. Hizkuntz-ingeniaritza arloan Ikerketan eta Garapenean arituko den komunitate zabal bat sortu behar dugu. Lan egiteko epe erdirako estrategia azaldu dugu, 15 urteko eskarmentuan oinarritua, beraz, jarraibide horretatik, nazioartean punta-puntako mailan arituko den industria sendoa sor dezagun. Ildo horretatik, Etortek deialdiko beste proiektuetan bezala helburua ez da produktu konkretu bat lortzea, eragitea eta antolatzea baizik. Alde batetik, ikerketa eta garapen mailari dagokionez hizkuntza-baliabideak, garapen-tresnak eta teknologia eguneroko bizimoduan txertatu ahal izateko teknikak sortu nahi dira. Eta beste aldetik, formazioa (masterrak eta doktorego-programak), nazioarteko lankidetza eta zabalkundea eta behatoki teknologikoa sustatu nahi ditugu.

Hori da gure erronka.


(KEPA SARASOLA GABIOLA informatikaria, IXA taldeko kide, Euskal Herriko Unibertsitateko irakasle eta UEUko kide da)

Ixa taldeko kideak. Gai honi buruzko infomazio sakonagoa hemen: http://ixa.si.ehu.es/Ixa

Ildo bereko artikuluak (irakurtzeko gainean sakatu)

Inprimatu


Erantzun

Euskara Patronatua
Tel.:943-814518
Faxa: 943-811947
erabili@erabili.eus