Thesis

Aditza+izena Unitate Fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala // Verb+Noun Multiword Expressions: A linguistic analysis for identification and translation

Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen

Hizkuntza-ulermenari ekarpenak: n-gramen arteko atentzio eta lerrokatzeak antzekotasun eta inferentzia interpretagarrirako

Hizkuntzaren Prozesamenduaren bitartez hezkuntzaren alorreko sistema adi-
mendunak hobetzea posible da, ikasleen eta irakasleen lan-karga nabarmenki
arinduz. Tesi honetan esaldi-mailako hizkuntza-ulermena aztertu eta propo-
samen berrien bitartez sistema adimendunen hizkuntza-ulermena areagotzen
dugu, sistemei erabiltzailearen esaldiak modu zehatzagoan interpretatzeko
gaitasuna emanez. Esaldiak modu finean interpretatzeko gaitasunak feed-
back a modu automatikoan sortzeko aukera ematen baitu.

Tesi hau garatzeko hizkuntza-ulermenean sakondu dugu antzekotasun seman-
tikoari eta inferentzia logikoari dagokien ezaugarriak eta sistemak aztertuz.
Bereziki, esaldi barneko hitzak multzotan egituratuz eta lerrokatuz esaldiak
hobeto modelatu daitezkeela erakutsi dugu. Horretarako, hitz solteak lerro-
katzen dituen aurrekarien egoerako neurona-sare sistema bat inplementatu
eta n-grama arbitrarioak lerrokatzeko moldaketak egin ditugu. Hitzen arte-
ko lerrokatzea aspalditik ezaguna bada ere, tesi honek, lehen aldiz, n-grama
arbitrarioak atentzio-mekanismo baten bitartez lerrokatzeko propo-
samenak plazaratzen ditu.

Gainera, esaldien arteko antzekotasunak eta desberdintasunak modu zeha-
tzean identifikatzeko, esaldien interpretagarritasuna areagotzeko eta ikasleei
feedback zehatza emateko geruza berri bat sortu dugu: iSTS. Antzekota-
sun semantikoa eta inferentzia logikoa biltzen dituen geruza horrekin
chunk ak lerrokatu ditugu, eta ikasleei feedback zehatza emateko gai izan
garela frogatu dugu hezkuntzaren testuinguruko bi ebaluazio-eszenariotan.

Tesi honekin batera hainbat sistema eta datu-multzo argitaratu dira etorki-
zunean komunitate zientifikoak ikertzen jarrai dezan.

Euskarazko denbora-egituren azterketa eta corpusaren sorrera / Analysis of Basque temporal constructions and the creation of a corpus

Ikerketa-lan honetan euskarazko denbora-informazioaren prozesamenduan lehen urratsak egin ditugu. Horretarako, beste hizkuntzetan egin diren lanetan eta euskarazko denbora-egituren analisi linguistikoan oinarritu gara. Informazio hori baliatuta, euskarazko denbora-egiturak automatikoki tratatzeko ezaugarri linguistiko esanguratsuenak identifikatu ditugu eta horiek kodetzeko EusTimeML markaketa-lengoaia sortu dugu. Era berean, EusTimeMLri jarraituta denbora-informazioa eskuz etiketatuta duen EusTimeBank corpusa sortu dugu.

Using Annotated Discourse Information of a RST Spanish-Chinese Treebank for Translation and Language Learning Tasks

As one of the essential elements for Natural Language Processing (NLP), discourse has called much attention during recent years. Many studies explore the role of how discourse elements affect in different NLP research areas, such as parsing, sentiment analysis, machine translation evaluation, among others. Besides, along with the discourse analysis development, different treebanks annotated with discourse information for different languages form a great contribution for advancing the NLP researches.

Pages

Subscribe to RSS - Thesis