Herramienta de Text Mining aplicado a textos cortos y redes sociales

Callejo González, Javier

dc.contributor.advisor	Zorrilla Pantaleón, Marta E.
dc.contributor.advisor	Navarro Matesanz, Roberto
dc.contributor.author	Callejo González, Javier
dc.contributor.other	Universidad de Cantabria	es_ES
dc.date.accessioned	2017-03-27T10:31:29Z
dc.date.available	2017-03-27T10:31:29Z
dc.date.issued	2016-11
dc.identifier.uri	http://hdl.handle.net/10902/10706
dc.description.abstract	RESUMEN: A diario se genera información textual tanto en entornos públicos, bien sea de webs, blogs o redes sociales; como en entornos privados, como puede ser la documentación generada por las empresas; y que contiene una información, a priori, oculta. Para descubrir la riqueza de estos textos, la información ha de ser procesada y analiza computacionalmente; y por ello, la empresa Atos WordlGrid S.L. consciente de la falta de análisis en este terreno está desarrollando un proyecto de I+D+i cuyo objetivo es proporcionar a las empresas del sector energético una herramienta de detección de fraude usando técnicas de Big Data y Aprendizaje automático. El proyecto que aquí se presenta es un módulo de este proyecto que tiene como objetivo el diseño e implementación de un sistema que implemente técnicas para procesar, analizar y clasificar textos, lo que se conoce como un módulo Text Mining. El sistema utiliza las últimas tecnologías que ofrece el ecosistema Apache Hadoop, principalmente Spark 2.0 y Mlib, que permiten construir un sistema distribuido y paralelizable con el fin de aprovechar las capacidades computacionales que nos ofrecen los entornos Big Data.	es_ES
dc.description.abstract	ABSTRACT: Textual information it has been daily generated in public environment, such as the web, blogs or social networks, but also in private environments, such as the documentation generated by the companies themselves. In order to find out the riches of texts, information has to be processed and computationally analysed. Therefor, Atos WordlGrid S.L enterprise, which is aware of the lack of analysis in this field, it is developing an R+D+I project, whose objective is to provide to utilities a fraud detection tool using Big Data and Machine Learning techniques. In the project presented here is a module of this project that aims to design and implement a system that use techniques to process, analyse and classify texts, that is known as a Text Mining module. The system uses the latest technologies offered by the Apache Hadoop ecosystem, mainly Spark 2.0 and Mlib, which allow to build a distributed and parallelized system, with the porpoise of take advantage of the computational capabilities offered by Big Data environments.	es_ES
dc.format.extent	51 p.	es_ES
dc.language.iso	spa	es_ES
dc.rights	Atribución-NoComercial-SinDerivadas 3.0 España	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	*
dc.subject.other	Minería de textos	es_ES
dc.subject.other	Procesado de lenguaje natural	es_ES
dc.subject.other	Spark	es_ES
dc.subject.other	Big Data	es_ES
dc.subject.other	Text mining	es_ES
dc.subject.other	Natural Language Processing	es_ES
dc.title	Herramienta de Text Mining aplicado a textos cortos y redes sociales	es_ES
dc.title.alternative	Text mining tool for short texts and social networks	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	openAccess	es_ES
dc.description.degree	Grado en Ingeniería Informática	es_ES