Aprendiendo vectores de palabras a partir de normas de asociación
Learning word embeddings from word association norms
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/20542Registro completo
Mostrar el registro completo DCAutoría
Cano Cos, Alejandro
Fecha
2020-09Director/es
Derechos
Atribución-NoComercial-SinDerivadas 3.0 España
Palabras clave
Procesamiento del lenguaje natural
Vectores de características
Aprendizaje automático
Redes neuronales
Natural Language Processing
Word embedings
Machine learning
Neuronal networks
Resumen/Abstract
RESUMEN: Hoy en día, los seres humanos utilizamos dispositivos informáticos prácticamente en cada acción que llevamos a cabo; por ello, se hace cada vez más importante facilitar y agilizar la ‘comunicación’ entre las personas y las máquinas. El campo encargado del estudio de la interacción entre las máquinas y el lenguaje humano es el Natural Language Processing (NLP). El NLP trata de conseguir la mejor interpretación posible de la lengua, para lo que se recurre a la modelización del lenguaje, asignando probabilidades a secuencias de palabras mediante algoritmos.
En este trabajo se estudian los word embeddings, un tipo de modelado del lenguaje que representa las palabras de un vocabulario como vectores de números reales, lo que permite puntuar la similitud de un par de palabras o mostrar el grado de relación entre ellas. Asimismo, se pueden realizar operaciones entre vectores donde se respetan las analogías entre las palabras.
En particular, se estudiarán algoritmos de generación de estos vectores como Word2vec, Node2vec y Wan2vec. Estos algoritmos, pese a tener los mismos objetivos, utilizan diferentes fuentes para la obtención de los datos: Word2vec utiliza grandes conjuntos de textos escritos, Node2vec utiliza grafos y Wan2vec utiliza normas de asociación de palabras.
Los objetivos de este trabajo de fin de grado son: el estudio de estos Word embeddings junto con sus principales algoritmos de generación y la implementación del algoritmo Wan2vec con el dataset Edinburgh Associative Thesaurus (EAT) introduciendo también el uso de la ontología Wordnet.
ABSTRACT: Nowadays, we use electronic devices practically in each action we carry out. This is why it is increasingly important to ease and speed up the ‘communication’ between people and machines. The field in charge of studying the interaction between machines and the human language is called Natural Language Processing (NLP). The NLP seeks to get the best interpretation possible of the languaje. To this end, it resorts to language modelling, assigning probabilities to sequences of words using algorithms.
In this research work, word embeddings are investigated. They are a type of language modeling that represent words of a vocabulary with vectors of real numbers. These vectors are able to assign a punctuation to the similarity of a pair of words or to show the relation degree between the words studied. Also, vector operations, where word analogies are observed, can be made.
In particular, vector generation algorithms such as Word2vec, Node2vec and Wan2vec will be studied. These algorithms, although they share objectives, use di↵erent sources to obtain the data: Word2vec uses big sets of written texts, Node2vec uses graphs and Wan2vec uses word association norms.
The goals of this final degree project are: the study of word embeddings along with their main generation algorithms, and the implementation of the Wan2vec algorithm with the Edinburgh Associative Thesaurus(EAT) dataset, also introducing the use of Wordnet.