DeepScan4Failure
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/30238Registro completo
Mostrar el registro completo DCFecha
2023-06Director/es
Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Resumen/Abstract
Los principales objetivos de este trabajo fueron el desarrollo de una herramienta útil de detección de anomalías aplicando un autoencoder en Python, utilizando la librería Pytorch y ejecutando su validación en un conjunto de datos, teniendo en cuenta todos los pasos de un ciclo de vida de los datos que involucra un estudio riguroso.
Considerando los requisitos de una tarea de detección de anomalías real, se seleccionaron los datos de la competición VSB Line Fault Detection de Kaggle, para el análisis de datos y validación de la herramienta. Este es un conjunto de datos no balanceado y ruidoso, a la que la solución de aprendizaje semi-supervisada del autoencoder, se ajusta.
El importante número de estudios previos sobre este conjunto de datos ha ayudado a escribir la sección de análisis preliminar, curación y varias partes del Data Management Plan (DMP) como aquellas relacionadas con los equipos de medida o las condiciones de gestión de los datos.
El código para la curación de la competición ha sido modificado y ejecutado para obtener un grupo de variables de cada serie temporal, teniendo en cuenta la eliminación de ruido y otros pasos de pretratamiento. Esto tomó similar cantidad de tiempo que la construcción de la herramienta del escáner incluyendo el código del modelo de autoencoder y las herramientas complementarias.
Dos ciclos de ajuste de hiperparámetros fueron ejecutados después de construir la herramienta, aunque la limitada velocidad de entrenamiento permitió la prueba con sólo una pequeña cantidad de combinaciones de parámetros y tomó más de 15 días de búsqueda bayesiana alcanzar una respuesta relativa.
Sin embargo, ambas, la herramienta de detección de anomalías y su validación, han sido ejecutadas y están disponibles como resultado de este trabajo.
The main goals of this work were the development of a useful tool to detect anomalies by applying an autoencoder built in python, by using the Pytorch library, and by performing its validation on a dataset, taking into account all the data life cycle steps involved in a rigorous study.
Considering a real time series anomaly detection task requirements, VSB Line Fault Detection competition data from Kaggle, was selected for the data analysis and tool validation. It is a heavily imbalanced and noisy dataset where the semi-supervised learning approach of the autoencoder tool fits.
The important number of previous studies on this dataset has helped in the writing of the preliminary analysis section, curation and several Data Management Plan (DMP) parts such as those regarding the measuring equipment or the data management conditions.
Curation code from the competition was modified and run to get a group of variables from each time series taking into account denoising and other pretreatment steps. This took a similar amount of time than the building of the scanner tool including the autoencoder model code and the complementary tools.
Two hyperparameter tunning cycles were performed after the building of the tool, though the limited training speed allowed the trial of only a small number of parameter combinations and It took more than 15 days of bayesian search to reach a relative answer.
Nevertheless, both the anomaly detection tool development and its validation have been performed, and they are available as a result of this work.