Mostrar el registro sencillo

dc.contributor.advisorTirnauca, Cristina 
dc.contributor.authorCano Cos, Alejandro 
dc.contributor.otherUniversidad de Cantabriaes_ES
dc.date.accessioned2021-01-25T18:46:54Z
dc.date.available2021-01-25T18:46:54Z
dc.date.issued2020-09
dc.identifier.urihttp://hdl.handle.net/10902/20542
dc.description.abstractRESUMEN: Hoy en día, los seres humanos utilizamos dispositivos informáticos prácticamente en cada acción que llevamos a cabo; por ello, se hace cada vez más importante facilitar y agilizar la ‘comunicación’ entre las personas y las máquinas. El campo encargado del estudio de la interacción entre las máquinas y el lenguaje humano es el Natural Language Processing (NLP). El NLP trata de conseguir la mejor interpretación posible de la lengua, para lo que se recurre a la modelización del lenguaje, asignando probabilidades a secuencias de palabras mediante algoritmos. En este trabajo se estudian los word embeddings, un tipo de modelado del lenguaje que representa las palabras de un vocabulario como vectores de números reales, lo que permite puntuar la similitud de un par de palabras o mostrar el grado de relación entre ellas. Asimismo, se pueden realizar operaciones entre vectores donde se respetan las analogías entre las palabras. En particular, se estudiarán algoritmos de generación de estos vectores como Word2vec, Node2vec y Wan2vec. Estos algoritmos, pese a tener los mismos objetivos, utilizan diferentes fuentes para la obtención de los datos: Word2vec utiliza grandes conjuntos de textos escritos, Node2vec utiliza grafos y Wan2vec utiliza normas de asociación de palabras. Los objetivos de este trabajo de fin de grado son: el estudio de estos Word embeddings junto con sus principales algoritmos de generación y la implementación del algoritmo Wan2vec con el dataset Edinburgh Associative Thesaurus (EAT) introduciendo también el uso de la ontología Wordnet.es_ES
dc.description.abstractABSTRACT: Nowadays, we use electronic devices practically in each action we carry out. This is why it is increasingly important to ease and speed up the ‘communication’ between people and machines. The field in charge of studying the interaction between machines and the human language is called Natural Language Processing (NLP). The NLP seeks to get the best interpretation possible of the languaje. To this end, it resorts to language modelling, assigning probabilities to sequences of words using algorithms. In this research work, word embeddings are investigated. They are a type of language modeling that represent words of a vocabulary with vectors of real numbers. These vectors are able to assign a punctuation to the similarity of a pair of words or to show the relation degree between the words studied. Also, vector operations, where word analogies are observed, can be made. In particular, vector generation algorithms such as Word2vec, Node2vec and Wan2vec will be studied. These algorithms, although they share objectives, use di↵erent sources to obtain the data: Word2vec uses big sets of written texts, Node2vec uses graphs and Wan2vec uses word association norms. The goals of this final degree project are: the study of word embeddings along with their main generation algorithms, and the implementation of the Wan2vec algorithm with the Edinburgh Associative Thesaurus(EAT) dataset, also introducing the use of Wordnet.es_ES
dc.format.extent48es_ES
dc.language.isospaes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 Españaes_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subject.otherProcesamiento del lenguaje naturales_ES
dc.subject.otherVectores de característicases_ES
dc.subject.otherAprendizaje automáticoes_ES
dc.subject.otherRedes neuronaleses_ES
dc.subject.otherNatural Language Processinges_ES
dc.subject.otherWord embedingses_ES
dc.subject.otherMachine learninges_ES
dc.subject.otherNeuronal networkses_ES
dc.titleAprendiendo vectores de palabras a partir de normas de asociaciónes_ES
dc.title.alternativeLearning word embeddings from word association normses_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsopenAccesses_ES
dc.description.degreeGrado en Ingeniería Informáticaes_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo

Atribución-NoComercial-SinDerivadas 3.0 EspañaExcepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España