NLTK-eu
Deskribapen laburra:
Hizkuntzaren prozesamendua irakasteko NLTK paketerako euskarazko eta espainerarako baliabideak
Egileak (ixakideak):
Egileak (ixakideak ez direnak):
Iker Manterola
Esteka (orokorra):
Esteka (deskarga):
Esteka (beste batzuk):
Harremanetarako:
kepa.sarasola[abildua/at]ehu.es
Deskribapena:
Ixa Taldeak corpus eta ariketa egokitu berriak sortu ditu NLTK paketeko hainbat tresnetan euskara ere erabili ahal izateko.
Natural Language Tool Kit (NLTK) lengoaia naturalaren prozesamendua irakasteko eta garatzeko paketea da. Modulu horiekin PLNko hainbat tresna landu daitezke, dozenaka ariketa dauzka. Bere barruan hiru motako osagaiak biltzen ditu: Python moduluak, datu linguistikoak eta dokumentazioa.
NLTK paketea Windows, Mac OSX eta Linuxerako banaketak eskaintzen da. Programak, datu linguistikoak eta dokumentazioa (LNP irakasteko liburu oso bat barne) libre hartu daitezke NLTKko web gunean: http://www.nltk.org
Natural Language Tool Kit (NLTK) lengoaia naturalaren prozesamendua irakasteko eta garatzeko paketea da. Modulu horiekin PLNko hainbat tresna landu daitezke, dozenaka ariketa dauzka. Bere barruan hiru motako osagaiak biltzen ditu: Python moduluak, datu linguistikoak eta dokumentazioa.
NLTK paketea Windows, Mac OSX eta Linuxerako banaketak eskaintzen da. Programak, datu linguistikoak eta dokumentazioa (LNP irakasteko liburu oso bat barne) libre hartu daitezke NLTKko web gunean: http://www.nltk.org
Funtzionalitatea:
NLTK paketean euskara lantzeko Corpusak eta GramatikakFitxategi hauek 'data' karpetan, eta 'corpora' edo 'grammars' azpilkarpetetan kokatuta daude, beste hizkuntzetako corpus eta gramatikekin.
Corpusak honako hauek dira:
NLTK paketean euskara lantzeko LNP zereginetarako 51 modulu Fitxategiak (nltk_eu_es/Listing_eu_es karpeta) zeregin horietako erabilera-adibideak dira. Bi azpikarpeta daude:
Fitxategi horietan Python kodea eta beren exekuzioen adibideak aurkezten dira, NLTKko liburuan egiten den modura http://clic.ub.edu/ancora/
51 modulu horien egokitzapenaren kalitatea beti ez da izan egileok nahi genuen bezain ona, batzuetan arazoak izan baititugu hitzen lematizazioa kontuan hartzen ez zelako, eta noski,hori euskararako testuak lantzeko arazo izan daiteke.
Corpusak honako hauek dira:
CONLL_07_eu euskararako (NLTKko webgune ofizialeko 'eus.test' eta 'eus.train' atalak) CONLL_07_es espainierarako (NLTKko webgune ofizialeko 'esp.test' eta 'esp.train' atalak) CESS_eu euskararako. NLTK barruan eskaintzen den CESS _es eta CESS _cat antzekoa da. http://clic.ub.edu/ancora/ web gunean kontsulta daitekeena.
Corpus | Hitz kopurua | Perpaus kopurua |
CESS_eu | 27.521 | 2.428 |
CONLL_07_eu | 50.128 | 3.175 |
CONLL_07_es | 95.028 | 3.512 |
NLTK paketean euskara lantzeko LNP zereginetarako 51 modulu Fitxategiak (nltk_eu_es/Listing_eu_es karpeta) zeregin horietako erabilera-adibideak dira. Bi azpikarpeta daude:
Espainerarako ariketak:
(nltk_eu_es/Listing_eu_es/Herramientas_lingüísticas_castellano)Euskararako ariketak
(nltk_eu_es/Listing_eu_es/Tresna_linguistikoak_euskara).
Fitxategi horietan Python kodea eta beren exekuzioen adibideak aurkezten dira, NLTKko liburuan egiten den modura http://clic.ub.edu/ancora/
51 modulu horien egokitzapenaren kalitatea beti ez da izan egileok nahi genuen bezain ona, batzuetan arazoak izan baititugu hitzen lematizazioa kontuan hartzen ez zelako, eta noski,hori euskararako testuak lantzeko arazo izan daiteke.
Argitalpenak (artikuluak):
Lizentzia:
CC-Attribution-NonCommercial-NoDerivativeWorks Copyright : Euskal Herriko Unibertsitatea (EHU) / The University of the Basque Country