Evaluación, optimización e implementación de modelos convolucionales de visión artificial en dispositivos con recursos limitados

Revuelta Burgos, Álvaro

Fecha

2025-09-17

Director/es

Sánchez Espeso, Pablo Pedro

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Resumen/Abstract

Este Trabajo de Fin de Grado se centra en la evaluación comparativa de dos modelos de detección de objetos de la familia YOLO, YOLOX y YOLOv8, aplicados a tareas de detección de objetos mediante visión artificial. El objetivo principal es analizar el rendimiento y la eficiencia de dichas redes convolucionales en entornos de cómputo con recursos limitados. El estudio compara la implementación de los modelos en dos populares frameworks o entornos de desarrollo: PyTorch y TensorFlow. En dicha comparación se incluye un análisis del rendimiento de los modelos en cada entorno. Además, se analiza cómo el número de parámetros, tamaño de las imágenes y uso de cuantización INT8 afectan a la precisión de detección y a los tiempos de inferencia. Como parte del estudio, se presenta una metodología de conversión de modelos de Pytorch a TensorFlow, resolviendo incompatibilidades estructurales mediante transformaciones específicas en los grafos de cómputo, al tiempo que se incluyen optimizaciones de operadores que facilitan la compatibilidad del modelo resultante con TensorFlow Lite. Por último, se ha desarrollado una implementación funcional que permite verificar los modelos optimizados en una Raspberry Pi 4, equipada con una CPU ARMv7l de 32 bits, lo que ha permitido obtener resultados no solo de tiempo de ejecución, sino también métricas de precisión, sensibilidad y latencia. Este enfoque demuestra la viabilidad del uso de modelos avanzados de detección en escenarios de baja capacidad de computo, abriendo camino a futuras aplicaciones embebidas de visión artificial en tiempo real en el borde (“edge computing”).

This proyect focuses on the comparative evaluation of two object detection models from the YOLO family: YOLOX and YOLOv8, applied to computer vision tasks for object detection. The main objective is to analyze the performance and efficiency of both architectures in computing environments with limited resources. The study includes a comparison between the models using two popular development frameworks: PyTorch and TensorFlow, incorporating an analysis of performance differences within each environment. It also explores how the number of parameters, the input image size, and the use of INT8 quantization impact detection accuracy and inference time. As part of the process, a model conversion methodology between frameworks is presented, addressing structural incompatibilities through custom graph transformations and operator optimization for compatibility with TensorFlow Lite. The project concludes with the practical implementation and testing of the optimized models on a Raspberry Pi 4 equipped with a 32-bit ARMv7l CPU, evaluating accuracy, sensitivity, and latency metrics. This approach demonstrates the feasibility of deploying advanced detection models in low-power scenarios, paving the way for future real-time embedded computer vision applications.

Colecciones a las que pertenece

G2450 Trabajos académicos [458]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International