EUSKARAZKO LEHEN C1 EBALUATZAILE AUTOMATIKOA
Testuen ebaluazio automatikoa hizkuntzaren prozesamendu esparruan oso landua izan den
ataza multzo bat da. Ataza multzo honek hainbat azpimultzo barne hartzen ditu, horietako
bat hizkuntza maila automatikoki zehaztea Hizkuntzen Erreferentzia Marko Bateratuaren
(HEMB) izanik. Urteetan zehar teknika ezberdinak erabilita hurbilpen ezberdinak egin dira
hainbat datu multzo oinarri hartuta eta ebaluazio marko ezberdinak definitu dira urteetan
zehar (Geertzen et al., 2013. Yannakoudakis et al.,2011). Euskara ardatz hartuta ere
saiakerak egon dira, ezaugarriak eta ikasketa automatikoko teknika tradizionalak erabilita
(Arrieta et al.,2023), emaitza onak lortu zituzten testuen maila HEMBko mailetan
sailkatzean. Lan honetan euskarazko idazlanek C1 maila duten edo ez zehazten duen
ebaluatzaile automatiko bat garatu dugu. Guk dakigunez, ezaugarri hauek dituen sistema
bat garatzen lehenak izan gara. Sistema garatzeko HABEko C1 azterketetara aurkeztu
direnen idazlanak erabili ditugu, zuzentzaileek ezarritako nota kontuan hartuta. Ezaugarri
hauek dituzten 10.000 automatikoki transkribatutako testu eta eskuz transkribatutako 600
inguru eskuratu ditugu, IKERGAITU proiektua eta HABE-HiTZ arteko hitzarmen baten
bitartez. Gure sistema oinarri neuronala duten hizkuntza ereduetan oinarritu da eta garapen
prozesuan hainbat esperimentu egin dira hizkuntza ereduen aukeraketan. HE mota
ezberdinekin esperimentuak burutu ditugu konfigurazio egokiena zein den identifikatzeko:
elebakarra edo eleanitza eta kodetzailea edo deskodetzailea. Ataza konplexua da eta datu
kopurua ez da nahikoa modu egoki batean ebazteko, arazoari aurre egiteko hainbat teknika
erabili ditugu. Datu sintetikoen sorkuntza egin dugu Easy Data Augmentation (Wei et al.,
2019) teknika erabilita. Sailkapen egokiagoak sortzeko, Supervised Contrastive Learning
(Khosla et al., 2020) galera funtzioa erabili dugu entrenamenduan zehar. Azkenik,
entrenamenduko gaindoitzeak eta artefaktuen ikasketa ekiditeko ereduen erregularizazio
landu dugu. Metrika automatiko gisa, asmatze tasa erabili dugu, baina testuen nota
eskuragarri izanik, 3 tartetan banatu dugu ebaluazioa: nota baxuko testuetan, dudako
testuetan eta nota oneko testuetan. Metrika modu ezberdinetan kalkulatuta ereduaren
ahulguneak sakonago aztertzea ahalbideratu digu. Entrenatu ditugun sistemen eta
erabilitako tekniken portaera aztertzeko, metrika automatikoaz gain, bi analisi mota burutu
ditugu. Lehena, ereduen kalibrazioa aztertzea, testuen nota eta sistemak esleitutako
probabilitate arteko korrelazioa neurtzea ereduaren portaera aztertzeko nota ezberdinetako
testuen aurrean. Bigarrena, artefaktuen eragina neurtzea, testuak perturbatu ostean ereduek
testuaren egitura, kohesioa edota koherentzia ikasi duten edo hitz gakoak diren artefaktuak
ikasi dituzten edo ez aztertzeko. Metriken emaitzen arabera, Latxa (Etxaniz et al., 2024)
HEan oinarritutako ereduak izan dira egokienak eta hobekuntza esperimentuetatik
erregularizazioak du pisu gehien sistemaren errendimenduan, eredu onenak %79ko
asmatze tasa orokorra izanik. Asmatze tasa xeheagoak erabilita, nota baxuko eta altuko
testuak %70-90 artean ongi asmatzen dituztela ikusi dugu, baina, zailtasunak erakutsi
dituzte dudako kasuekin, testu hauetan asmatze tasa %50-60 artean kokatzen baita.
Analisien aldetik berriz, Latxa eta kodetzaile elebakarra izan dira kalibratuen dauden
ereduak, nota eta etiketen probabilitate artean 0.67ko Pearson Korrelazioa erakutsiz.
Artefaktuen analisian berriz, gutxien ikasi dituztenak Latxan oinarritutako ereduak izan dira.
Garatutako sistema egokienean oinarrituz, demo bat ere sortu genuen eta honako estekan
dago probatu nahi izanez gero: https://huggingface.co/spaces/HiTZ/C1_sailkapen_demoa.