EU · EN

Hizkuntzen tipologiak hizkuntzen arteko transferentzian duen eraginaren analisia gertaera-erauzketa atazetan

Hizkuntzen arteko transferentzia bidezko ikasketan hizkuntza-eredu eleanitzak (HEE) erabiltzen dira (Min et al., 2023). Lehenbizi HEE aukeratu eta hizkuntza jakin bateko datuekin entrenatzen da, ondoren beste hizkuntza bateko datuetan erabiltzeko. Hizkuntzen arteko transferentziarako teknika hau oso erabilia da baliabide urriko hizkuntzetan, berari esker baliabide ugariagoak dituzten hizkuntzatan dagoen ezagutza balibide urrietara transferitu daiteke eta.  

Adibidez, ohikoa den bezala, Ingelesez dauden gertaera-erauzketaz anotatutako datu-multzoak erabili daitezke hizkuntza-eredu bat entrenatu eta horrela Ingeleserako gertaera-erauzketa sistema bat eraikitzeko. Hizkuntzen arteko transferentzian entrenatzen den eredua eleanitza da. HEE hori orain baitan duen edozein hizkuntzatan erabili daiteke, adibidez euskarazko gertaera-erauzketa egiteko.

Hizkuntzen arteko transferentziari buruzko ikerlan asko daude, baina oso gutxitan aztertu da bi hizkuntzen arteko tipologiak eduki dezakeen garrantzia transferentzia arrakastatsua izan dadin. Alegia, ingeleseko eta gaztelerazko entrenamendu datuak badauzkagu, zein hizkuntza da egokiena euskarazko (edo, demagun, hindi hizkuntzarako) gertaera-erauzle arrakastatsua eraikitzeko?  

Artikulu honetan hizkuntzen arteko antzekotasun tipologikoek hizkuntzen arteko transferentziaren kalitatean duten eragina aztertu dugu. Zehatzago, hizkuntza batean entrenatu eta beste batean ebaluatzean tipologia horiek duten eragina neurtu dugu. Esperimentuetan, Euskarak inguruko hizkuntzen ezaugarri tipologiko desberdinak dituelako ebaluazio hizkuntza gisa ezarri dugu.  

Esperimentuak informazioaren erauzketako hiru atazetan aplikatu ditugu: entitateen aipamen-detekzioan, gertaeren aipamen-detekzioan eta gertaeren argumentu-erauzketan. Egindako esperimentuek  erakutsi dute arestian aipatutako tipologiek eragina dutela eta atazaren araberakoak direla. 

Lortutako emaitzak hobeto ulertzeko azterketa sakonago bat egin da beste 8 hizkuntza erabiliz (72 hizkuntza pare aztertuz guztira). Bertan agerian geratu da, alde batetik, ataza oro har lexikaletan, hau da, entitateen aipamen-detekzioan eta gertaeren aipamen-detekzioan, alfabeto eta ezaugarri morfologiko komunak izateak kalitate handiagoko transferentzia bat ekartzen duela. Eta bestalde, ataza sintaktikoagoetan hau da, gertaeren argumentu-erauzketan, hitzen hurrenkera mota berdina izateak ekartzen duela transferentzia handiena. Honetaz gain ikusi da entrenamenduaren tamaina handitzean  hizkuntza guztiek ez dutela modu berdinean hobetzen. 

Esperimentuak egin ahal izateko, EusIE sortu dugu, euskarazko lehen gertaera-erauzketarako datu-multzoa, Multilingual Event Extraction (MEE) datu-multzoa zabaltzen duena (Pouran Ben Veyseh et al., 2022). EusIE anotatzeko aditu batek wikipediako esaldi batzuk eskuz etiketatu ditu. Zehazki 300 segmentu (1500 esaldi) anotatu dira, bi multzotan bananduak: garapenekoa eta ebaluaziokoa. Datu-multzoaren kalitatea neurtzeko helburuarekin, bigarren aditu batek segmentu batzuk etiketatu ditu anotatzaileen arteko adostasuna kalkulatzeko; emaitzek erakutsi dute EusIE datu-multzoaren kalitatea altua dela, 0.92 baino handiagoko adostasuna lortuz. EusIE publiko egiteko intentzioa dugu.

Univertsitatea edo erakundea: 
UPV/EHU
Ikerkuntza taldea: 
HiTZ Zentroa - IXA Taldea
Autorea: 
Mikel Zubillaga, Oscar Sainz, Ainara Estarrona, Oier Lopez de Lacalle, Eneko Agirre
Emaila: 
mikel.zubillaga@ehu.eus