Clasificación de emociones en maullidos de gato mediante redes neuronales convolucionales
Emotion classification in cat meows using convolutional neural networks
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/36612Registro completo
Mostrar el registro completo DCAutoría
Gil Lima, EnriqueFecha
2025-06-26Director/es
Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Disponible después de
2030-06-26
Palabras clave
Inteligencia Artificial
redes neuronales
vocalizaciones felinas
espectrograma
aprendizaje automático
análisis de la actividad animal
Artificial Intelligence
neural networks
feline vocalizations
spectrogram
machine learning
animal activity analysis
Resumen/Abstract
El objetivo principal de este Trabajo de Fin de Grado es estudiar, diseñar, entrenar y analizar los resultados de un sistema capaz de clasificar maullidos de gato en categorías que reflejan sus emociones, utilizando para ello redes neuronales convolucionales (CNN). Para ello, se parte de un conjunto de datos etiquetado de dominio público, que incluye vocalizaciones de gatos que reflejan 10 clases de emociones. A partir de los ficheros de audio, se generan espectrogramas en escala Mel, que son utilizados como entrada por los modelos de IA seleccionados. En este trabajo se han utilizado 3 modelos prentrenados: YAMNet, MicroNet y VGGish. Los modelos han sido seleccionados por su arquitectura, capacidad de generalización, eficiencia y aplicabilidad a distintos entornos. A lo largo del proyecto, se investigan características clave del problema como el rango de frecuencia óptimo, el tamaño de los modelos o la configuración de los hiperparámetros para el entrenamiento. El objetivo final es determinar qué modelo ofrece la mejor combinación entre rendimiento y eficiencia computacional, valorando también la posibilidad de implementación en dispositivos con capacidad de cómputo reducida, como teléfonos móviles.
The main objective of this Final Degree Project is to study, design, train and analyze the results of a system capable of classifying cat meows into categories that reflect their emotions, using convolutional neural networks (CNN). To do so, we start from a public domain labeled dataset, which includes cat vocalizations reflecting 10 classes of emotions. From the audio files, Mel-scale spectrograms are generated, which are used as input by the selected AI models. In this work, 3 pre-trained models have been used: YAMNet, MicroNet and VGGish. The models have been selected for their architecture, generalizability, efficiency and applicability to different environments. Throughout the project, key features of the problem are investigated such as the optimal frequency range, the size of the models or the hyperparameter settings for training. The ultimate goal is to determine which model offers the best combination of performance and computational efficiency, also evaluating the possibility of implementation in devices with reduced computational capacity, such as cell phones.