EU · EN

Corpusa

Bizkaieraren Bideoteka

Bizkaieraren Bideoteka

Berton, Bizkaiko herrietan egiten dan euskeraren barri izango dozu hainbat modutara: grabazinoak entzunez, testuen transkribapenak eta barriemoilearen datuak ikusiz, eta abar. Material guztia aurkitzeko bilatzaile bat erabiliko dozu, eta bertan testu moeta, herria edo eskualdea aukeratuz, zeuk gura dozun materialea lortuko dozu, hala nola, kantak, ipuinak, esaldiak, narrazinoak, esakuneak. Erabiltzaile aurreratuak bilaketa aurreratuko tresna bat be eukiko dabe.

Bideoteka honen bidez, parebako altxorra dan Bizkaiko euskerea guztion esku itxi gura dogu, gaur egun bizkaiko herrietan egiten dan euskera hori; era berean, jadanik iragana dan bizimodu eta mundu baten erakusgarri izan daiteke Bideoteka honetan aurkituko doguna. Bizkaieraren Bideoteka honen bidez, datozan belaunaldiek Bizkaiko euskerea, guztion euskerea zelakoa dan eta izan dan jakitea gurako genduke, gure hizkuntzaren geroa atzera eta herrira begiratu barik jorratu ez daiten.

BizkaiFon
Inma Hernaez
inma.hernaez@ehu.eus
Online
Hezkuntza

Gizapedia

Gizapedia

Gizapedia giza eta gizarte zientzien arloan kalitatezko artikuluak biltzen dituen entziklopedia irekia da. 2024ko urtarrilean, euskaraz 6.000 artikulu baino gehiago biltzen ditu hainbat alorretan, hala nola, antropologian, soziologian, filosofian, ekonomian, estatistikan, informatikan eta hizkuntzalaritzan.

Gizapedia giza eta gizarte zientzien arloan kalitatezko artikuluak biltzen dituen entziklopedia irekia da.
Josemari Sarasola Ledesma
josemari.sarasola@ehu.eus
Online
Hezkuntza
Gizapedia
Idatzizko testuak

BIM-SAHCOBA

BIM-SAHCOBA

Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa sortzearen helburu nagusia hizkuntzalaritza diakronikoaren, eta batez ere sintaxi diakronikoaren alorreko ikertzaileentzat lagungarri izango diren Hizkuntzaren Prozesamendurako oinarrizko tresnak sortzea da. Corpusak euskarazko lehen testuetatik XVIII. mende erdialdera bitarteko testuak biltzen ditu.

Morfosintaktikoki etiketatutako euskarazko corpus historikoa
Ainara Estarrona Ibarloza
ainara.estarrona@ehu.eus
Online
Hizkuntza
HiTZ zentroa (UPV/EHU) / IKER (CNRS
Ixa taldea
Idatzizko testua

EPEC-KORREF

EPEC-KORREF

EPEC-KORREF aipamen eta korreferentzia-kateak eskuz etiketatuta dituen euskarazko testu-dokumentuez osatutako corpusa da. Dokumentu-bilduma hau euskarazko EPEC corpusaren zati bat da (Aduriz et al., 2006), eta Euskaldunon Egunkariako albisteez osatuta dago. Corpus hau 46.383 hitzekoa da eta 12.792 aipamen aurki daitezke.

Euskararako Korreferentzia Corpusa
Ander Soraluze
ander.soraluze@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EPEC-EuSemcor

EPEC-EuSemcor

EuSemcorren hainbat izenen agerpen eskuz etiketatu dira EusWordNet-eko adierak erabiliaz. Bi baliabideak elkarrekin garatu dira, eta horrek adieren arteko mugak garbiago definitzea ekarri du, eta bi baliabideen arteko integrazio estuagoa.
Garapen-metodologiak edizioa, etiketatzea eta desadostasunen kudeaketa zituen barnean.

EPEC corpuseko izenen agerpenak EusWN-eko adierekin markatuta dituen corpusa
Eneko Agirre
eneko.agirre@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ZT corpusa

ZT corpusa

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia.

Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira.

Zientzia eta Teknologiako testuen corpusa (morfosintaktikoki etiketatua).
clariaheus.hitz@ehu.eus
Online
Hizkuntza
Elhuyar
Idatzizkoa

ETSC-CBST

ETSC-CBST

Euskarazko Testu Sinplifikatuen Corpusa (ETSC) eskuz sinplifikatutako testuekin eta euren jatorrizko bertsioarekin osatu dugun testu-bilduma da. Testuak sinplifikatzean egin diren eragiketak deskribatzeko etiketatze-eskema osatu dugu eta testuak BRAT tresnaren (Stenetorpet al., 2012) bitartez etiketatu ditugu.

Euskarazko Testu Sinplifikatuen Corpusa (ETSC)
Itziar González
itziar.gonzalezd@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

UD treebank for Basque

UD treebank for Basque

Universal Dependencies edo Dependentzia Unibertsalak, hizkuntza desberdinetarako sortuta dauden zuhaitz-bankuak etiketatze estandar batera bihurtzea helburu duen proiektua da, horretarako zenbait gidalerro eskaintzen dituelarik. Guk euskarazko 150.000 hitzeko zuhaitz-bankua bihurtu dugu aurretik aipatutako gidalerroak jarraituz. Bihurtutako zuhaitz-bankuak 121.000 hitz ditu.

Dependentzia Unibertsalak proiektuko gidalerroak jarraituta etiketatutako euskarazko zuhaitz-bankua
Iakes Goenaga
iakes.goenaga@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

EPEC-DEP (BDT)

EPEC-DEP (BDT)

Euskarazko zuhaitz-bankua edo treebank-a (EPEC-DEP) dependentzia-erlazioetan oinarrituta eskuz sintaktikoki etiketatu den Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) da. EPEC corpusa euskara estandarrean idatzitako 300.000 hitzek osatzen duten testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik (www.euskaracorpusa.net) hartu da eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.
EPEC-DEP treebank-ean, 200.000 hitz etiketatu dira eskuz Dependentzia Gramatikaren Teoria (Tesnière, 1959) jarraituz. Teoria honetan, esaldiko hitzak binaka lotuz esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzen da. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen (Aranzabe, 2008) bidez.

Sintaktikoki etiketatutako EPEC corpusa (Basque Dependency Treebank)
Maxux Aranzabe
maxux.aranzabe@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Zuzenbide Corpusa

Zuzenbide Corpusa

Zuzenbide Corpusa Euskara Institutuaren ekimena da, UPV/EHUren Zuzenbide Fakultateko Euskara Juridikoaren Mintegiarekin lankidetzan garatua. Corpus honen helburua da euskara juridikoaren eragile nagusiek sortutako testuak eskuragarri jartzea, euskarazko prosa juridikoa finkatzen laguntzeko. Horretarako, 2000. urteaz geroztik euskaraz emandako lege-testu, eskuliburu eta Zientzia Juridikoen alorreko artikulu akademiko nagusiak kontsulta daitezke corpus honetan. Hainbeste eragileren lana biltzen da hemen: UPV/EHUren Zuzenbide Fakultatea, Eusko Ikaskuntza, Eusko Jaurlaritzaren Justizia Saila, IVAPen Itzulpen Zerbitzu Ofiziala (IZO), Deustuko Unibertsitatea, Eusko Legebiltzarra, Nafarroako Foru Parlamentua, UZEI, Foru Aldundiak, eta abar. Lan horren emaitzaren erakusgarri dira, hain zuzen ere, Zuzenbide Corpusak biltzen dituen lege-testuak eta testu akademikoak.

Corpusean jasotako lege-testuak eskuragarri daude, formatu elektronikoan, nahiz ez hemen bezala bere osotasunean, beste toki batzuetan ere: Euskara Juridikoaren Atarian, UPV/EHUren Euskara eta Eleaniztasuneko Errektoreordetzaren Legeak-Leyes bildumaren atarian, Eusko Legebiltzarraren Legeen datu-basean, Nafarroako Foru Erkidegoaren Aldizkari Ofizialean (NAO), Eusko Jaurlaritzaren Justizia Sailaren Lege-testu Elebidunen Liburutegian, IVAPeko Itzulpen Zerbitzu Ofizialaren (IZO) Legeria Euskaraz atarian eta Deustuko Unibertsitatearen Liburutegi Juridiko Elebidunean. Zuzenbidearen alorreko testu akademikoak, berriz, UPV/EHUren Euskara Institutuaren Sareko Argitalpenen Testubiltegian eta Eusko Ikaskuntzaren ELERIA aldizkariaren web-orrian eskura daitezke osorik formatu elektronikoan.

Zuzenbide Corpusa urtez urte eguneratuko da, azken urtealdian argitaratutako lege-testu eta testu akademiko esanguratsuenak jaso ondoren. Etorkizunean beste testu-mota batzuk ere jasoko dira: jurisprudentzia, inprimaki juridikoak, notariotzaren alorreko dokumentuak, eta abar. Beti ere, gutxieneko testu-masa adierazgarria eskuratzen denean. Bitartean ere, hona hemen Zuzenbide Corpusaren datu batzuk:

Argitaratze-data: 2012-05-02
Dokumentu-kopurua: 719
Lege-testuak: 678
Testu akademikoak: 141
Hitz-kopuru osoa: 8,8 milioi
Lege-testuak: 6,0 milioi
Testu akademikoak: 2,8 milioi

Euskara juridikoaren eragile nagusiek sortutako testuak eskuragarri jartzen ditu
Zuzenbidea

Pages