Análisis de sentimiento de textos cortos enriquecidos con información visual de seguimiento ocular

Juncal Blanco, Aitor

Fecha

2025-09-03

Director/es

Palazuelos Calderón, Camilo

Duque Medina, Rafael

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Disponible después de

2027-09-03

Palabras clave

Rastreo ocular

Mapas de calor

Sentimiento

Modelo

Predicción

Eye-tracking

Heatmaps

Sentiment

Model

Prediction

Resumen/Abstract

El análisis de sentimiento (también conocido como minería de opinión) consiste en detectar información subjetiva en textos e imágenes mediante modelos de aprendizaje automático y procesamiento del lenguaje natural. Una de las tareas clásicas del análisis de sentimiento es identificar la polaridad de un texto, clasificándolo en al menos dos categorías: positiva o negativa. En los últimos años, con el auge de los grandes modelos de lenguaje preentrenados, las propuestas de análisis de sentimiento han tendido hacia enfoques de caja negra con escasa o nula interpretabilidad. Como respuesta, han surgido modelos más transparentes que priorizan la representación semántica del texto para ponderar la importancia de cada palabra o frase en la clasificación. Sin embargo, estos modelos suelen limitarse a procesar únicamente texto y, en menor medida, información visual como imágenes. En este trabajo, proponemos un modelo basado en dos principios fundamentales. Primero, que sea sencillo e interpretable, lo que permitirá una mayor rapidez en las ejecuciones y facilitará la comprensión de su funcionamiento. Segundo, que sea más completo en cuanto a las fuentes de información, combinando texto con datos derivados de imágenes en forma de mapas de calor, los cuales reflejan la interacción visual del usuario con el contenido a analizar. Dicha información será medida mediante técnicas de rastreo ocular, con la que se puede definir que áreas han suscitado más o menos atención al usuario. Para llevar a cabo el trabajo, recopilamos una serie de tweets junto con vídeos de usuarios que respondían a ellos en tiempo real. De cada vídeo se extrajeron fotogramas que muestran el tweet y la respuesta escrita, asociando a cada uno un mapa de calor que refleja la atención visual del usuario. Posteriormente, mediante técnicas de extracción de texto en imágenes, construimos un conjunto de datos textual enriquecido con información visual, dividido en entrenamiento y test. Sobre el conjunto de entrenamiento generamos dos grafos de polaridad (positivo y negativo) y entrenamos un modelo capaz de calcular métricas de similitud entre nuevos textos y dichos grafos. Finalmente, aplicamos el modelo al conjunto de test para predecir la polaridad de textos desconocidos y evaluar así su precisión y capacidad de generalización.

Sentiment analysis (also known as opinion mining) consists of detecting subjective information in texts and images through machine learning models and natural language processing. One of the classical tasks of sentiment analysis is identifying the polarity of a text, classifying it into at least two categories: positive or negative. In recent years, with the rise of large pretrained language models, sentiment análisis approaches have tended to rely on black-box methods with little or no interpretability. In response, more transparent models have emerged, prioritizing the semantic representation of text in order to weigh the importance of each word or phrase in classification. However, these models usually limit themselves to processing only text and, to a lesser extent, visual information such as images. In this work, we propose a model based on two fundamental principles. First, it should be simple and interpretable, which allows for faster executions and facilitates understanding of its functioning. Second, it should be more comprehensive regarding sources of information, combining text with data derived from images in the form of heatmaps, which reflect the user’s visual interaction with the content under analysis. Such information will be measured through eye-tracking techniques, which make it possible to define which areas attracted more or less attention from the user. To achieve this work, we collected a series of tweets along with videos of users responding to them in real time. From each video, we extracted frames showing the tweet and the written response, associating each one with a heatmap that reflects the user’s visual attention. Using image-based text extraction techniques, we then built a textual dataset enriched with visual information, which was divided into training and test sets. On the training set, we generated two polarity graphs (positive and negative) and trained a model capable of computing similarity metrics between new texts and these graphs. Finally, we applied the model to the test set to predict the polarity of unseen texts and thus evaluate its accuracy and generalization capacity.

Colecciones a las que pertenece

M4638 Trabajos académicos [39]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International