EU · EN

Testu historikoak wiki-plataformetan, Datu Lotu gisa

Motibazioa

Euskarazko testu historikoen digitalizazioari dagokionez, ahalegin anitz ikusi ditugu azken urteotan; helburu eta metodologia ezberdinak darabiltzaten hainbat ekimen. Proiektu horien emaitza berrienen artean, EHUko Euskara Institutuak kudeatzen duen Corpus Historikoa osatzen duten testu digitalak ditugu, sareko interfaze batean esplora daitezkeenak; IXA taldean garatutako SAHCOBA (Estarrona et al., 2022), anotazio morfosintaktikoez aberastua eta bilaketa finduak interfaze batetik eskaintzen dituena; eta, bestetik, anotazio filologikoak interfaze grafiko bidez eskaintzen dituen testu-edizio digitalak, Lazarragaren eskuizkribuarena (Bilbao et al., 2011) adibide.

Bestalde, euskarazko datu lexikografiko historikoak eta estandarrak Datu Lotu (Linked Data) gisa errepresentatu eta elkarrekin lotzeko esperimentuak aurkeztu ditugu (Lindemann & San Vicente, 2020; Alonso & Lindemann, 2022); lan horietan, Wikisource eta Wikidata plataformetan integratu ditugu erabilitako datu-multzoak. Honezkero, eskuz edo programatikoki, iturri historikoko edukiek egungo ezagutza-grafo librean dituzten loturak azter daitezke.

Helburuak

Manuel Larramendiren euskarazko testuen eta egile beraren Hiztegi Hirukoitzaren argitalpen digitala prestatzen dihardugu. Jatorrizko eskuizkribu edo lehenengo argitalpen inprimatura jo eta edizio digitala eraiki nahi dugu. Goian aipatutako proiektuetako helburu zehatz ezberdinen araberako metodologiak elkartu nahi ditugu proiektu honetan, hau da, ondorengo osagaiak bateratu nahi ditugu elkarrekin lotutako datu-multzoan:

  • corpuseko tokenaren agertokia faksimile digitalean (Wikisource plataforma)
  • corpuseko tokenaren inguruko anotazio morfosintaktikoak (Wikibase)
  • corpuseko tokenaren inguruko anotazio filologikoak (Wikibase)
  • tokenari lotzen zaion hiztegi-lema estandarra, haren adiera, eta haren forma flexionatua (Wikibase)
  • hiztegi-lema estandarrak beste hainbat baliabidetan duen deskribapena (Wikidata)
  • corpuseko tokenak entitate izendun bati egiten dion erreferentzia (Wikibase, Wikidatako entitateak erabilita)

Datu Lotu Irekien irizpideak aintzat hartu eta Wikimediak eskaintzen dituen plataformetan gorde, editatu eta argitaratuko ditugu datuak.

Metodoa

Wikiteka plataforman (euskarazko Wikisource) jatorrizko argitalpenaren edo eskuizkribuaren faksimilea eta haren transkripzioa gordetzen ditugu. Wikibase instantzia batean, MLV Wikibase-an, transkripzioko tokenak deskribatzen ditugu, bakoitzak faksimileko agertokira lotura daramala. Deskribapena errepresentatzeko eredua garatzen ari gara, Linguistic Linked Open Data arloko estandarretan oinarrituta. Testu-tokenak lexema mailan, adiera mailan nahiz forma mailan Wikidatara daramaten loturak errepresentatzeko moduan gaude, bai eta Orotariko Euskal Hiztegian, Egungo Testuen Corpusean, Elhuyar hiztegian eta potentzialki beste hainbat baliabidetan dituen deskribapenetara. Horretaz gain, span bati, hau da, token multzo bati, anotazioak gehi diezazkiokegu, esaterako, entitate izendun baten erreferentzia, edo adituen anotazio filologikoa.

Emaitzak

Datu-eredu bat aurkezten dugu, maila esperimentalean erabiltzen ari garena, eta proiektu osoa garatzeko ebaluatzen ari garena. Datu guztiak Wiki-plataformetan gordetzeak, editatzeak eta argitaratzeak abantaila nabarmenak dakartza. Abantaila horiek azaltzeko eta gure proposamenaren inguruan feedbacka lortzeko asmotan aurkezten dugu poster hau.

Erreferentzia bibliografikoak

  • Alonso, M., & Lindemann, D. (2022). Larramendiren Hiztegi Hirukoitzaren digitalizazioa. Karaktereen ezagutze optikoa eta Wikitekara igotzea. Uztaro. Giza eta gizarte-zientzien aldizkaria, 120, 83–93. https://doi.org/10.26876/uztaro.120.2022.5 
  • Bilbao, G., Gómez, R., Lakarra, J. A., Manterola, J., Monoule, C., & Urgell, B. (2011). Lazarraga eskuizkribuaren edizioa eta azterketa. Lazarraga eskuizkribuaren edizioa eta azterketa, v.1.2, Vitoria Gasteiz: UPV-EHU. https://www.ehu.eus/monumenta/lazarraga/ 
  • Estarrona, A., Etxeberria, I., Soraluze, A., Etxepare, R., & Padilla-Moyano, M. (2022). The first annotated corpus of historical Basque. Digital Scholarship in the Humanities, 37(2), 391–404. https://doi.org/10.1093/llc/fqab066 
  • Lindemann, D., & San Vicente, I. (2020). Baliabide lexikoen sarea: Baldintza filologiko eta tekniko zenbait. In Hitzak sarean: Pello Salabururi esker onez (or. 79–96). UPV/EHU Argitalpen Zerbitzua. http://www.ehu.eus/ehg/salaburu/liburua/HitzakSarean06.pdf
Univertsitatea edo erakundea: 
UPV/EHU
Ikerkuntza taldea: 
Hizkuntzalaritza Diakronikoa, Tipologia eta Euskararen Historia (Letren Fakultatea)
Autorea: 
David Lindemann, Mikel Alonso
Emaila: 
david.lindemann@ehu.eus