EU · EN

Tresna/zerbitzua

BASYQUE

BASYQUE

BASYQUE Euskararen sintaxiaren datu-basea da. Hizkuntzaren ahozko aldaera desberdinak mapetan agerian emateko egiten dira hizkuntza atlasak. Hortaz, Euskararen Herri Hizkeren Atlasak (EHHA) ahozko euskararen aldaerak mapetan jasotzea du helburu. Euskaltzaindiak 1983an onartu zuen egitasmo hau. BASYQUE proiektu honen informazio-iturrri nagusia da.

Euskararen sintaxiaren aldaketak aztertzeko aplikazioa
Ainara Estarrona
ainara.estarrona@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

BertsolariXa

BertsolariXa

Bukaera bat emanda, hitz errimatuak aurkitzen ditu. Lemak ez ezik, BertsolarIXA gai da hitz deklinatuak eta aditz-formak ere eskaintzeko. Arloka iragaz daitezke emaitzak. Arau fonetikoak aplikatzeko aukera ere ematen du.

Errimak bilatzeko tresna.
CLARIAH-EUS
clariaheus.hitz@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

e-ROLda

e-ROLda

e-ROLda BVI lexikoian eta EPEC-RolSem corpusean dagoen informazioa arakatzea ahalbideratzen digun tresna da1. Sisteman sartzen garenean, informazio orokorra eta horren gainean bilaketak egiteko aukera ematen zaigu. Bilaketa zenbait ezaugarri orokorren arabera egin daiteke: i) euskal aditza, ii) euskal aditzaren adiera jakin bat edota iii) PB-VNeko aditz-adiera. Corpusean bilaketa zehatzagoak egiteko aukera ere eskaintzen digu tresnak, hala nola, argumentu zenbakia edo balentzia (Arg0, Arg1, ...), PB-VNeko rol semantikoa, EADBko (Euskal Aditzen Datu Basea) rol semantikoa, deklinabide-kasua edota hautapen-murriztapena. Tresnak atal pribatu bat du baimendutako hizkuntzalariak BVI lexikoia editatzeko aukera ematen duena.

    Aditz-sarrera bakoitzak duen informazio bi eremutan banatzen da:

  1. 1- Aditz bakoitzaren egitura sintaktiko-semantikoak (BVI)
  2. 2- Estekak PropBank (PB), FrameNet (FN) eta EuskalWordNetera (BWN)
  3. 3- Corpuseko aditzaren agerpenak (EPEC-RolSem)

 

Beraz, tresna honi esker, BVI lexikoian gordetzen den euskal aditzaren informazio sintaktiko-semantikoa eta aditz-adiera horiek beste baliabide semantikoetara dituzten loturak ikusteaz gain, aditzak EPEC-RolSem corpusean dituen agerpenak ere ikus ditzakegu.

Euskarazko predikatuak aztertzeko ingurunea
Ainara Estarrona
ainara.estarrona@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
idatzizkoa

Xuxen

Xuxen

Euskararako zuzentzaile ortografikoa hainbat aplikazioetarako deskargatu daiteke Microsoft Word, OpenOffice/LibreOffice, Explorer, Chrome, Firefox, Adobe InDesign, Hunspell, MAC OS X, eta mugikorretan.

Euskarazko zuzentzaile ortografiko eta gramatikala
Klara Ceberio
xuxen@elhuyar.eus
Online
Deskarga
Hizkuntza
Idatzizkoa

Eustagger

Eustagger

Eustagger analizatzaile morfosintaktiko sendo eta estaldura zabalekoa da. Analizatzailea bi mailatako formalismoan oinarritzen da eta modu inkrementalean diseinatua izan da, hiru modulu nagusirekin: analizatzaile estandarra, aldaera linguistikoen analizatzailea, eta lexiko gabeko analizatzailea, hitz-formak hauteman ditzakeena lexikoan izan gabe. Transduktore lexikoak erabiliz gure analizatzailearen sistemaren osagai ezberdinen errendimendua eta deskripzioa bera hobetu ditugu. Lema posibleak, PoS eta bestelako informazio morfologikoa ere eskaintzen du. Era berean, data/denbora adierazpenak eta zenbakiak ezagutzen ditu. Desanbiguazioan erabili ditugun metodoak, Murriztapen Gramatika (MG) formalismoa eta HMMan oinarritutako analizatzailea dira. MGko erregelak ezaugarri morfologiko guztiak kontuan hartuz sortu dira eta prozesu honek testuen anbiguotasun morfologikoa gutxitzen du. Azkenik, tresna estokastikoa erabiltzen dugu ematen dituen etiketa-aukeretatik bat hautatzeko. Metodo estokastikoa bakarrik erabiliz, errore-tasa % 14 ingurukoa da, baina lexikoa hitz ezezagunekin aberastuz doitasuna % 2 inguru handitu daiteke. Bi metodoak konbinatzen direnean, prozesu osoaren errore-tasa % 3,5 da.

Euskararako etiketatzaile morfosintaktikoa
Nerea Ezeiza
nerea.ezeiza@ehu.eus
Eskaera bidez
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Maltixa

Maltixa

Euskarazko testu bat emanda, esaldi bakoitza lerro batean, esaldi horien analisiak lortuko ditu. Hau da, mendekotasun-zuhaitza lortuko da

Analizatzaile sintaktiko-estatistikoa
Koldo Gojenola
koldo.gojenola@ehu.eus
Eskaera bidez
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

ixaKat

ixaKat

Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modular honen ezaugarri nagusiena honakoa da: lehenengo tresnak analisi morfosintaktiko sakona burutzen du, eta morfologikoki aberatsak diren anotazio hauek erabiltzen dituzte katean atzetik datozen prozesatzaile linguistikoek. Katearen inplementazioa diseinu modularrean oinarritzen da, eta prozesatzaileak erabilerrazak dira. Tresnak eskuragarri daude, eta erabiltzeko prest gainera.

Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modularra
Arantxa Otegi
arantxa.otegi@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Ixa pipes

Ixa pipes

Tokenizatzaile, POS tagger, Lematizatzaile, entitate izendunak saikatzaile, iritzien gaiak erauzteko tresna, zatiak, parserra

Hizkuntzaren Prozesamendurako tresna eleanitzak
Rodrigo Agerri
rodrigo.agerri@ehu.eus
Deskarga
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

WSD-IXA

WSD-IXA

Hitz-Adieren Desanbiguatze (HAD) sistema Support Vectors Machine (SVM) algoritmo ezagunean dago oinarritua. Sistema EuSemCor corpusaren gainean entrenatu da, hori baita euskal corpus bakarra semantikoki etiketuta dagoena. Corpusaren tamaina mugatua dela eta, HAD sistema 402 izen polisemikoekin entrenatu da.

Euskarazko Adiera-Desanbiguazioa
Eneko Agirre
eneko.agirre@ehu.eus
Online
Demo
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
Idatzizkoa

Analhitza

Analhitza

ANALHITZAk euskarazko, gaztelaniako edo ingeleseko testu batetik ondorengo informazio linguistikoa erauzten lagunduko dizu:

- izenak, adjektiboak, aditzak, adberbioak...
- pertsona-izenak, leku-izenak...
- binakako, hirunakako eta launakako hitz-sekuentziak
- ... eta gehiago!

Testua fitxategi batean duzuna, hemen bertan kopiatuko duzuna edo web-orri batekoa izan daiteke, baina UTF8 kodeketan egon beharko du.
ANALHITZA erabiltzeko, sartu aztertu nahi duzun testua azpiko 3 aukera hauetakoren bat erabiliz, eta jarraian, testuaren hizkuntza aukeratu (euskara, gaztelania edo ingelesa). Apur bat itxaron ondoren, emaitzak Excel fitxategi batean jasoko dituzu. Horrela, emaitzak modu errazean moldatu ahal izango dituzu zure beharretara.

ANALHITZAk testua automatikoki prozesatzen du ixaKat (euskararako) eta Ixa pipes (gaztelania eta ingeleserako) hizkuntza prozesatzaileen kate modularrak erabiliz.
ANALHITZA, hizkuntza-teknologiak baliatuz, humanitateetako eta giza zientzietako ikertzaileei datu linguistiko fidagarriak eta erraz manipula daitezkeenak eskaintzeko helburuarekin diseinatu da. Hauetako arloren batean zure ikergaia definituta baduzu, testu-multzo bat eskura baduzu eta ANALHITZArekin aztertzeko interesa baduzu, idatzi eta lagunduko dizugu: mikel.iruskieta@ehu.eus
ANALHITZA erabiltzen baduzu zure ikerketaren batean, ondorengo lan honen aipamena egin zure lan akademikoan mesedez:
Otegi, A. Imaz, O. Díaz de Ilarraza, A. Iruskieta, M. Uria, L. 2017 ANALHITZA: a tool to extract linguistic information from large corpora in Humanities research. Procesamiento del Lenguaje Natural 58: 77-84.

Euskarazko, gaztelaniako edo ingeleseko testu batetik informazio linguistikoa erauzten lagunduko dizu
Mikel Iruskieta
mikel.iruskieta@ehu.eus
Online
Hizkuntza
UPV/EHU
HiTZ zentroa - Ixa taldea
idatzizkoa