Sarrera | Mapa | Kontaktua | Guri buruz |   
Hemen zaude: Sarrera »  Sare-aldizkariak »  Berri berriak »  Ahotsaren sintesia eta ahotsaren ezagutza euskaraz

Ahotsaren sintesia eta ahotsaren ezagutza euskaraz

2003-12-15 / 13:26 / Eusko Jaurlaritza   INFORMATIKA

Eusko Jaurlaritzak Euskararen garapen teknolinguistikoarentzat oinarrizko urratsa eman du: euskararetzat ahots-sintesirako eta ahots-ezagutzarako motorrak garatuko dira eta erabilera publikokoak izango dira. Beste era batera esanda, euskarazko testuak ahots eta ahotsa testu bihurtzeko teknologia garatuko da euskararentzat.

Euskarari egokitutako ahots-sintesiaren eta ahots-ezagutzaren motorrak garatzeko bidea ireki du Eusko Jaurlaritzaren Kultura sailak. Bizi garen aro digitalean ohikoak bilakatzen ari diren hainbat sistemen oinarrian dauden ahots-sintesia eta ahots-ezagutza euskararentzat ere garatu ahal izateko, elkarlan hitzarmenda sinatu dute Miren Azkarate Kultura sailburuak eta Johan Smolderes jaunak, Scansoft Belgium BVBA enpreseko garapen zuzendariak.

Euskararentzat oinarrizko tresna informatikoak garatzeak erabateko garrantzia du bizi garen aro digitalean arruntak eta ohikoak diren lanetara iritsi ahal izateko. Eusko Jaurlaritzaren helburua bide hori zabaltzea eta Europako Batasunak martxan jarri duen Europa elektronikoan eta kulturaniztunean, nazioak gainditzen dituen Europan alegia, euskarak bere eremu linguistikoa izatea da.

Azken urteotan, nabarmenak izan dira euskarak Informazioaren eta Komunikazioaren teknologia berrien arloan eman dituen aurrera pausoak: on line jarritako prentsa idatzia dela; euskara ikasteko eta euskaraz ikasteko egindako CDak direla, web orriak direla; sarean euskarri elektronikoan kontsultagai jarritako corpusak direla, hiztegiak direla, zuzentzaile ortografikoa eta ildo bereko gainontzeko tresnak direla, hizkuntzaren urrutiko hezkuntzarako eta irakasleak trebatzeko sortutako leku birtualak direla, hizkuntzaren ingeniaritzan garatutako oinarrizko tresnak direla, merkatuan zabalkunde handia duten softwareko produktuak euskaratzea dela...

Bide honetan, Eusko Jaurlaritzaren plan estrategikoak, Euskara Biziberritzeko Plan Nagusiak eta Zientzia, teknologia eta berrikuntzarako planak, batetik, eta, bestetik, berriki onartu den Euskadi Informazio Gizartean Plana-k ere eragin handia izan dute.

Eusko Jaurlaritzaren Hizkuntza Politikarako Sailburuordetzak, ahotsaren teknologiei buruzko azterketa sakona egin ondoren, euskarari egokitutako ahotsaren sintesirako eta ezagutzarako motorrak garatzeko beharra azaldu zuen eta Kultura Saileko, Informatika eta Komunikazio Zuzendaritzako (DITeko), Administrazioa Eraberritzeko Bulegoaren Zuzendaritzako (DOMAko) eta Informatika Elkartea EJIE S.A.-ko kideez osaturiko batzordeak onartu zuen.

Hori horrela, Eusko Jaurlaritzak euskarazko sintesiaren motorra, hau da, testua ahots bihurtzeko teknologia, egitea (Text-To-Speech), eta ahotsaren ezagutzarena, hots, ahotsa testu bihurtzeko teknologiarena (Automatic Speech Recognition) egitea erabaki du; halaber, elkarrizketen gestio-sistema egingo du, Scansoft Belgium BVBA enpresarekin izenpetutako hitzarmenari esker. Enpresa horrek bereak diren TTS eta ASR softwareak euskarara egokituko ditu ondoren zabaltzeko eta merkaturatzeko. Belgikako enpresa honen eskarmentua eta garatu duen teknologia kontuan hartu da langintza honetarako aukeratzeko orduan.

Euskarazko ahotsaren sintesiaren eta ezagutzaren motorrak geroko aplikazioen oinarrian egongo dira, hala nola, telefono-zentralitak (call centers), merkataritza- eta banku-eragiketak, jendeari erantzuteko zerbitzuak, jostailuak, euskararen irakaskuntza, telefono-direktorioak, garraio publikoa etab. Halaber, proiektuaren barnean Eusko Jaurlaritzarentzako Directory Assistance baten aplikazio erakusgarria egingo da.

Aplikazio horiek garatuko dituzten enpresek %15eko beherapena izango dute Scansoften garapen-softwarea erostean eta ondoren egin ditzaketen hobetze-lanetan. Hizkuntza tresneri honen garapenerako eta erosi dituen eskubideen truke, Kultura Sailak 706.000 euro ordainduko ditu.

Euskal Herrian garatutako eta erabilera publikoko oinarrizko baliabideak

Bestalde, euskarazko ahotsaren sintesiaren eta ezagutzaren teknologiak garatzeko proiektuak hizkuntza-baliabideak lantzea eskatzen du eta Eusko Jaurlaritzak Scansoft enpresari eskuratuko dizkio proiektua gauzatu ahal izateko. Baliabideak Euskal Herriko eragileek garatuko dituzte eta etorkizunean erabilera publikokoak izango dira. Baliabideak honako hauek dira:

  • Testu-corpus elektronikoa, 25.000.000 hitz izango ditu eta ASP enpresak egingo du, Eusko Jaurlaritzarentzat.
  • Oinarrizko lexiko fonetikoa: 60.000 sarrera baino gehiago izango ditu. Gehien erabiltzen diren hitzak, laburdura eta akronimo ohikoenak, eta datu-base akustikoetan jasotako hitzak. Hitzek transkripzio fonetikoa eta informazio gramatikala eramango dituzte. Kultura sailak lexikoa egitea ELEKA enpresari enkargatuko dio.
  • Telefoniako datu-base akustikoa: telefonoren bidez egindako grabazioak; helburua hizkuntza-ereduak sortzeko datuak ematea da. Jaurlaritzaren jabegokoa izango den datu-basea Euskal Herriko Unibertsitateko AHOLAB taldeak egingo du.
  • ASR3200rako datu-base akustikoa: bulego inguruan egindako grabazioak; helburua hizkuntza-ereduak sortzeko datuak ematea da. Lan hau Euskal Herriko Unibertsitateko Zientzia eta Teknologia Fakultateak egingo du, Kultura sailaren enkarguz.

Proiektuarentzat aurreikusitako iraupena 18 hilabetekoa da, hau da, 2005a arte.

Garabidean dauden egitasmo hauez gain, beste egitasmo batzuei ere ekin behar zaie, euskarak etorkizunean aurrera egin dezan, hala nola, testuinguru eleaniztun batean eraginkorrak direla erakutsi duten tresnen egokitze-gaitasuna egiaztatzea; interfaze foniko atseginen bidez sareetan sartzea ahalbidetzea; Eusko Jaurlaritzan telefono-zentralita elebiduna antolatzea; posta elektronikoaren gestioa ahotsaren bidez bideratzea; weben interfazeen itzulpen automatikoa egitea; euskararen eta gaztelaniaren arteko itzulpen automatikoa bideratzeko sistemak sortzea eta abar.

(EUSKO JAURLARITZAren Hizkuntza Politikarako Sailordetza)

Inprimatu

Ildo bereko artikuluak (irakurtzeko gainean sakatu)


Erantzun

 
Ahoskera eta azentua
2003-12-16 / 09:57 / Txomin Peillen

Ohar nagusia. Bai, beharrezkoa baina zein ahoskera eta zein azentu toniko hautatuko dira?

(TXOMIN PEILLEN, hizkuntzalaria eta euskaltzaina da)

 
Ahoskera eta azentua Euskal Herrian garatuko dira
2003-12-16 / 11:41 / Koldo Ordozgoiti

Hizkuntza baliabideak, hizkuntzarekin zerikusirik duten oinarri tekniko guztiak, Euskal Herrian eta Euskal Herriko enpresek garatuko dituzte... eskarmentuko taldeak dira, hortaz badakite eta ez da lehen aldia horrelako alorretan lanak egiten dituztela. Horrekin batera eskatu diren datutegiak zabal xamarrak dira.

Gogoratzeko besterik ez bada:

  • Testu-corpus elektronikoa, 25.000.000 hitz izango ditu eta ASP enpresak egingo du, Eusko Jaurlaritzarentzat.
  • Oinarrizko lexiko fonetikoa: 60.000 sarrera baino gehiago izango ditu. Gehien erabiltzen diren hitzak, laburdura eta akronimo ohikoenak, eta datu-base akustikoetan jasotako hitzak. Hitzek transkripzio fonetikoa eta informazio gramatikala eramango dituzte. Kultura sailak lexikoa egitea ELEKA enpresari enkargatuko dio.
  • Telefoniako datu-base akustikoa: telefonoren bidez egindako grabazioak; helburua hizkuntza-ereduak sortzeko datuak ematea da. Jaurlaritzaren jabegokoa izango den datu-basea Euskal Herriko Unibertsitateko AHOLAB taldeak egingo du.
  • ASR3200rako datu-base akustikoa: bulego inguruan egindako grabazioak; helburua hizkuntza-ereduak sortzeko datuak ematea da. Lan hau Euskal Herriko Unibertsitateko Zientzia eta Teknologia Fakultateak egingo du, Kultura sailaren enkarguz.

Bere arazoekin, beste hizkuntzetan horrelakoak lortu badira, gurean ere txukun egingo dugu, ezta?

(Hizkuntza Politikarako Sailburuordetzaren izenean, Koldo Ordozgoiti-k bidalia)

 

Erantzun

Euskara Patronatua
Tel.:943-814518
Faxa: 943-811947
erabili@erabili.eus