Borrar
Las diez noticias de la jornada
AlDia

Elhuyar eta IXA-k 'Zientzia eta Teknologiaren Corpusa' sortu dute

Euskarazko lehen corpus espezializatua da eta dagoeneko sarean kontsulta daiteke

PPLL

Viernes, 15 de diciembre 2006, 02:49

DONOSTIA. DV. Elhuyar Fundazioak eta Euskal Herriko Unibertsitateko IXA taldeak zien-tzia eta teknologiaren alorreko euskara ikertzeko hizkuntza- -baliabide bat garatu dute: Zientzia eta Teknologiaren Corpusa. Euskarazko lehen corpus berezi edo espezializatua da.

Corpusa elikatzeko, 1990-2002 bitartean argitaratuko zientzia eta teknologiaren alorreko obrak hartu dira kontuan. Corpus egituratua eta linguistikoki etiketatua da, automatikoki prozesatua, eta 8 milioi hitz ditu, horietatik 1,6 milioi eskuz berrikusita eta zuzenduta daudela. Corpusa www.ztcorpusa.net web gunean kontsultagai dago.

Elhuyar Fundazioak eta EHUko IXA taldeak sortutako euskarazko lehen corpus espezializatu hau sarean dago dagoeneko. Zientzia eta teknologiaren alorreko euskarazko testuen bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia.

Corpusa etiketatuta dago, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki, eta testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatuta dira. Corpusaren lehen bertsio honetan, 8 milioi hitz daude, eta horietatik, 1,6 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira. Bera kontsulta- tzeko interfaze ahaltsua antolatu da, eta erabiltzaileak era askotako bilaketa bakunak eta konplexuak egiteko aukera izango du, horretarako parametro-multzo zabala erabiliz: lema, testu-forma, kategoria, eremua, generoa eta corpus-atala (eskuz zuzendua/corpus osoa), besteak beste.

2007tik aurrera ELDAren (Hizkuntza Baliabideen Ebaluazio eta Banaketarako Agentzia Europarra) baliabideen artean egongo da corpusa, ustiapen komertzialerako eskuragarri, lizentzia bidez.

Hizking21 ikerketa estrategikoko proiektuaren barnean hasi zen egiten corpusa. Hizking21 proiektuak honako laguntza hauek jaso ditu: Eusko Jaurlaritzaren Industria Sailaren Etortek programa (2002-2004) eta Gipuzkoako Foru Aldundiaren Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea programa (2004).

Esta funcionalidad es exclusiva para suscriptores.

Reporta un error en esta noticia

* Campos obligatorios

diariovasco Elhuyar eta IXA-k 'Zientzia eta Teknologiaren Corpusa' sortu dute