Monitorización de animales con inteligencia artificial integrada en cámaras trampa

Montes Real, Pablo

Fecha

2024-09-19

Director/es

Sánchez Espeso, Pablo Pedro

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Disponible después de

2028-09-19

Resumen/Abstract

El objetivo principal del proyecto es la implementación en el borde de un algoritmo de detección de objetos en tiempo real. Con este fin, se realizó una transferencia de aprendizaje a un modelo de la quinta versión de Yolo. La arquitectura de esta misma se basa en una red neuronal convolucional profunda, que divide la imagen en una cuadrícula y predice simultáneamente las clases de objetos y su posición en cada una de las celdas. De esta forma es posible reducir el tiempo de procesado, facilitando su uso en aplicaciones que demandan tiempos de inferencia reducidos, como es el caso del video. Uno de los desafíos clave del proyecto fue la adecuación de los conjuntos de datos (datasets) existentes a las necesidades específicas del caso de uso. Los datasets disponibles no estaban preparados para la detección de una amplia variedad de especies animales en sus hábitats naturales. Por ello fue necesario anotar, generado nuevas etiquetas, imágenes procesadas por el modelo “MegaDetector”, desarrollado por Microsoft, el cual incluye animales como una de sus clases. El hardware utilizado en las pruebas reales fue proporcionado por Seeed Studio, seleccionado por cumplir con los requisitos técnicos necesarios para el correcto funcionamiento del modelo al tiempo que satisface los requisitos de bajo consumo y coste. Los resultados muestran la complejidad de utilizar dispositivos de bajo consumo en el borde para tareas tan complejas como la detección de objetos en video. Los problemas surgidos durante el desarrollo se debieron a que, pese los algoritmos que proporcionan buenos resultados, son pesados y al tener recursos limitados cualquier decisión para reducir el coste de la implementación puede tener impacto negativo en las prestaciones de la inferencia.

The main objective of the project is the implementation of a real-time object detection algorithm on edge devices. To achieve this, data transfer was performed to a model based on the fifth version of YOLO. Its architecture relies on a deep convolutional neural network that divides the image into a grid and simultaneously predicts bounding boxes and object classes in each cell, thereby reducing processing time and ensuring effectiveness in video detection. One of the key challenges of the project was adapting the existing datasets to the specific needs of the use case. The available datasets were not designed to detect a wide variety of animal species in their natural habitats. Therefore, it was necessary to generate new image labels using the “MegaDetector” model, developed by Microsoft, which categorizes animals into one of its three classes. The hardware used for real-world testing was provided by Seeed Studio, selected for meeting the technical requirements necessary for the proper functioning of the model. The results, though not as expected, highlight the complexity of real-world implementation. This is since algorithms providing superior results tend to be resource-intensive, and in environments with limited resources, any unexpected issue can lead to malfunction.

Colecciones a las que pertenece

G2450 Trabajos académicos [458]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International