@misc{10902/10706, year = {2016}, month = {11}, url = {http://hdl.handle.net/10902/10706}, abstract = {RESUMEN: A diario se genera información textual tanto en entornos públicos, bien sea de webs, blogs o redes sociales; como en entornos privados, como puede ser la documentación generada por las empresas; y que contiene una información, a priori, oculta. Para descubrir la riqueza de estos textos, la información ha de ser procesada y analiza computacionalmente; y por ello, la empresa Atos WordlGrid S.L. consciente de la falta de análisis en este terreno está desarrollando un proyecto de I+D+i cuyo objetivo es proporcionar a las empresas del sector energético una herramienta de detección de fraude usando técnicas de Big Data y Aprendizaje automático. El proyecto que aquí se presenta es un módulo de este proyecto que tiene como objetivo el diseño e implementación de un sistema que implemente técnicas para procesar, analizar y clasificar textos, lo que se conoce como un módulo Text Mining. El sistema utiliza las últimas tecnologías que ofrece el ecosistema Apache Hadoop, principalmente Spark 2.0 y Mlib, que permiten construir un sistema distribuido y paralelizable con el fin de aprovechar las capacidades computacionales que nos ofrecen los entornos Big Data.}, abstract = {ABSTRACT: Textual information it has been daily generated in public environment, such as the web, blogs or social networks, but also in private environments, such as the documentation generated by the companies themselves. In order to find out the riches of texts, information has to be processed and computationally analysed. Therefor, Atos WordlGrid S.L enterprise, which is aware of the lack of analysis in this field, it is developing an R+D+I project, whose objective is to provide to utilities a fraud detection tool using Big Data and Machine Learning techniques. In the project presented here is a module of this project that aims to design and implement a system that use techniques to process, analyse and classify texts, that is known as a Text Mining module. The system uses the latest technologies offered by the Apache Hadoop ecosystem, mainly Spark 2.0 and Mlib, which allow to build a distributed and parallelized system, with the porpoise of take advantage of the computational capabilities offered by Big Data environments.}, title = {Herramienta de Text Mining aplicado a textos cortos y redes sociales}, author = {Callejo González, Javier}, }