Creación de librería para predicción de series temporales de señales industriales
Library for forecasting time series data from industrial sources
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/24930Registro completo
Mostrar el registro completo DCAutoría
Murillo González, MiguelFecha
2021-07-15Derechos
Atribución-NoComercial-SinDerivadas 3.0 España
Palabras clave
Series Temporales
Predicción
Aprendizaje automático
AutoML
Time Series
Forecasting
Machine Learning
AutoML
Resumen/Abstract
RESUMEN: En los últimos años la demanda por parte del campo de la industria y la manufactura de servicios de ciencia de datos no ha hecho más que crecer. Entre los objetivos principales que tiene este sector destacan la eficiencia energética y la optimización de demandas y procesos. En la mayoría de los casos esto depende de sistemas ya instalados, los cuales tienen limitaciones en cuanto a la variedad de datos de salida. Los datos de entrada de los problemas industriales suelen ser series de datos temporales, contando únicamente con la variable del momento en el que se toman los datos, y el dato en cuestión. Una de las limitaciones o barreras de entrada a que las empresas y usuarios puedan generar modelos usando los datos correspondientes a sus procesos de manufactura es la curva de aprendizaje. La ciencia de datos es una disciplina que requiere bastante conocimiento previo, lo cual puede traducirse en el desistimiento por parte de usuarios inexpertos en el tema. La predicción de series temporales (time series forecasting) es un problema muy común en ciencia de datos, para el cual no se dispone todavía de herramientas que faciliten la aplicación de aprendizaje automático o Machine Learning (ML). Es por ello que en este trabajo se va a elaborar una librería, desarrollada en el lenguaje de programación Python 3 y basada en herramientas disponibles de otras librerías ya establecidas, como Sci-kit Learn o Keras, para el análisis mediante Automated Machine Learning (AutoML) de series temporales. El objetivo principal es limitar los parámetros que se solicitan al usuario, el cual puede no contar con conocimientos especializados de ciencia de datos para realizar las predicciones, sino que solo deberá ejecutar un comando en Python, en el que incluirá las características básicas de su consulta, como por ejemplo el horizonte de predicción, o el tiempo en el futuro al que se quiere conocer el dato, y la velocidad de procesamiento de la predicción. Este trabajo, una colaboración entre Consulting Informático de Cantabria (CIC) y la Universidad de Cantabria (UC), tiene como motivación mejorar la accesibilidad de los métodos más comunes de predicción de series temporales, tanto para la industria en general, en el marco de la mejora de eficiencia y la promoción de la innovación sostenible (Objetivo de Desarrollo Sostenible (ODS) de la Organización de las Naciones Unidas (ONU) número 9), como para la divulgación científica, al poder aportar una puerta de entrada a la ciencia de datos para personas inexpertas en el tema.
ABSTRACT: In recent years, demand for Data Science applied to industry and manufacturing has only increased. The main goals expected from the integration of data science methods are improvement of energy efficiency and intelligent process and supply chain management. The main barrier to overcome when working in an industrial setting is the reliance on often legacy and outdated hardware for taking measurements and gathering data. These systems present limitations especially in the variety of data they can output. Input data in industrial problems often consists on uni-variate time series, having only available the raw measurements and the timestamps associated to it. Another limitation, or barrier of entry for users or companies to add data science to their workflow regarding their manufacturing lines is the learning curve. Data science is a complex discipline that requires a lot of prior knowledge to apply, which can often make novice companies or users give up prematurely. Time series forecasting is therefore a very common problem in data science, especially in the private sector, and one in which developement is still in early stages for the most part. Most solutions require advanced knowledge and lack ease-of-use. The goal of this work is to, using the Python 3 programming language, develop a library focused on auttomated time series forecasting. This library is based on others like Scikit-Learn and Keras, and aims to be user-friendly. The main objective of the package is to limit the parameters specified by the user, so that previous training in data science is not needed to work it. The user will only need to execute a command in Python with their query, specifying the forecasting horizon for the predition and the desired processing time, which will in turn determine the confidence of the prediction. This work is a colaboration between Consulting Informático de Cantabria (CIC) and Universidad de Cantabria (UC), and has as a motivation to improve accessibility to the most commonly used Machine Learning algorithms for time series prediction, both for Industrial applications, following the United Nations (UN) Sustainable Developement Goal (SDG) number 9, pertaining to sustainable industrialization and innovation. It also has a presence in the Scientific dissemination space, allowing for easy entry into time series prediction tasks, that can in turn be an entry into other Machine Learning problems.