EU · EN

Euskara ParlaMint 4.0n: Europako parlamentuetako eztabaiden corpusa

Europako parlamentu ezberdinetan esaten dena eta esateko modua interesgarria izan daiteke hainbat arlotako ikergalderak erantzuteko. Ikergaldera horiek erantzuteko aurretiko lana astuna izan daiteke; izan ere, lehendabizi, Parlamentuan esandakoa transkribatu behar da (egun Parlamentuek lan hori egiten dute), ondoren nork zer eta noiz esan duen kodetu (metadatuak); gero, ehundaka testu aztertzeko tresna eleanitzak behar dira, eta, bukatzeko, egindako galderen erantzunen emaitzak erakusteko baliabideak behar dira. Lan guzti horiek egitea lan astuna eta teknikoa da ikerlarientzat eta baita ikerketa taldeentzat. Lan hori errazteko CLARIN-ERIC azpiegiturak Europako hainbat parlamentutako corpusa biltzeko, corpusak aztertzeko tresnak, datuak erakusteko baliabideak, tutorialak erabilera errazteko eta erabilera kasuak sortu ditu ParlaMint proiektuan. ParlaMint proiektuaren xedea Europako parlamentuetako eztabaiden corpusak osatzea da. Corpus horiek baldintza batzuk bete behar dituzte, hala nola, modu berean etiketatuta egon behar dute eta elkarren artean konparagarriak izan behar dute. ParlaMint 4.0 proiektuaren azken bertsioa da, eta 29 herrialde eta autonomia erkidego biltzen ditu. Bildutako eztabaidak 2015etik 2022aren erdialdera bitartekoak dira, eta corpusek 9 milioitik 126 milioira arteko hitz kopurua dute, eta corpus guztien batura 1,1 bilioi hitz ditu. Euskara, eta Eusko Legebiltzarreko eztabaidak, ParlaMint 4.0n sartu dira eta beste corpusen parekoa da, bai etiketatzeari, baita egituratzeari dagokionez ere. Europako estatuetako parlamentuetako corpusek ezaugarri berberak etiketatuta dituzte: eztabaida bakoitza zer egun eta legegintzaldikoa den; eztabaida ere zer motatakoa den, eta ekoitzi den testuaren egilea ere nor den. Euskarazko corpusaren kasuan, badago ezberdintasun bat Europako beste parlamentuetako corpusekin: Eusko Legebiltzarren euskara eta gaztelania erabil daitezkeenez, corpuseko paragrafo bakoitzaren hizkuntza zein den identifikatu dugu.ParlaMint proiektua, alde batetik, aurretik aipatu ditugun legebiltzarreko eztabaidetako testuek osatzen dute. Beste atala metadatuek osatzen dute. Bertan, parlamentarien inguruko zenbait datu bilduta eta jarrita daude modu egituratuan, hala nola, jaiotza-data eta jaioterria, alderdi politikoetan izan duen afiliazioa (bat baino gehiago posible da), berari buruzko informazioa duen webgunearen esteka (Wikipediakoa eta alderdi politikoaren webgunean azaltzen dena, etab.). Metadatuen atal horretan, alderdi politikoen inguruko zenbait datu ere badaude: noiz sortu eta desagertu zen, alderdiaren webgunea eta ea legegintzaldietan gobernuan edo oposizioan egon den. Bukatzeko, Eusko Legebiltzarreko nahiz beste parlamentuetako corpusaren azaleko azterketa linguistikoa ere egina dago: entitateak identifikatzea, sintaktikoki aztertzea eta rol semantikoak etiketatzea.Eusko Legebiltzarreko eta beste parlamentuetako corpusek dituzten eta aurretik aipatu ditugun datu eta ezaugarriak interesgarriak izan daitezke hainbat azterketa egiteko. Hizketaldiak modu askotan bildu daitezke: alderdi politikoen arabera, adinaren arabera, jaioterriaren arabera, generoaren arabera edota hizkuntzaren arabera, besteak beste. ParlaMint proiektuko sustatzaileek tutorialak eta erabilera kasuak egin dira edozein ikertzailek ParlaMinteko corpusa erabilera errazteko: Tutoriala:
 

 

Voices of the Parliament: A Corpus Approach to Parliamentary Discourse Research, Darja Fišer eta Kristina Pahor de Maiti. Erabilera kasuak: ParlaMint and ParlaMeter: How Standardised Data Formats Empower End Users. Filip Dobranić. ParlaMint -A Resource for Democracy. Dario Del Fante and Virginia Zorzi, 'Who Is the Enemy Now?'. Networks of Power -Gender Analysis in European Parliaments. Jure Skubic, Alexandra Bruncrona, Jan Angermeier, Bojan Evkoski and Larissa Leiminger.Bukatzeko, Eusko Legebiltzarreko corpusa hemen aurkitu daiteke: http://hdl.handle.net/11356/1860 CC BY 4.0 lizentziapean eta baita TEITOKen ere: https://lindat.mff.cuni.cz/services/teitok/parlamint-40/index.php?action....

Univertsitatea edo erakundea: 
Universidad del País Vasco/Euskal Herriko Unibertsitatea (UPV/EHU), University of Copenhagen
Ikerkuntza taldea: 
HiTZ zentroa, Ixa taldea; Department of Nordic Studies and Linguistics (NorS)
Autorea: 
Mikel Iruskieta, Jon Alkorta, Kike Fernandez, Ekain Arrieta, Rodrigo Agerri, Manex Agirrezabal
Emaila: 
{mikel.iruskieta;jon.alkorta;ekain.arrieta;kike.fernandez;rodrigo.agerri;}@ehu.eus; manex.aguirrezabal@hum.ku.dk