Aprendizaje automático aplicado al análisis de grandes datos en rayos X
Machine Learning applied to the analysis of big data in X-rays
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/34133Registro completo
Mostrar el registro completo DCAutoría
Cerón Fernández, AlejandroFecha
2024-07Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Astronomía
Rayos X
XMM-Newton
Ciencia de datos
Aprendizaje automático supervisado
Astronomy
X-rays
Data science
Supervised machine learning
Resumen/Abstract
En este trabajo se han estudiado distintas técnicas de aprendizaje automático supervisado como posible aplicación al análisis de los datos generados por el observatorio espacial XMM-Newton (ESA). En concreto, se han utilizado dos tipos de productos: espectros de rayos X e imágenes directas. Por un lado, se han entrenado varios modelos de clasificación para separar los espectros de fuentes astronómicas en cuatro clases diferentes según la calidad con la que figuran sus detecciones en el catálogo. Random forest ha resultado ser el algoritmo más eficaz, alcanzando una exactitud (accuracy) del 44% en la muestra empleada, notablemente mayor que la de un clasificador aleatorio. Paralelamente, con una muestra de imágenes en la banda de 0.2−12 keV, se han entrenado redes neuronales de YOLOv8 para reconocer y delimitar automáticamente en ellas artefactos o zonas problemáticas susceptibles de comprometer la calidad de las observaciones. En este caso se han obtenido valores promedio de IoU (Intersection Over Union, una medida de la eficacia de los modelos) superiores al 60 %, lo que convierte esta técnica en un método útil para la revisión de imágenes de XMM-Newton.
In this work, various supervised machine learning techniques have been studied as a potential application for analyzing data generated by the XMM-Newton space observatory (ESA). Specifically, two types of products have been used: X-ray spectra and direct images. On the one hand, several classification models have been trained to separate the spectra of astronomical sources into four distinct classes based on the quality with which their detections are flagged in the catalog. Random forest proved to be the most effective algorithm, achieving a balanced accuracy of 44% in the used sample, significantly higher than that of a random classifier. Simultaneously, with a sample of images in the 0.2 − 12 keV band, YOLOv8 neural networks have been trained to automatically recognize and delimit artifacts or problematic areas that could compromise the quality of the observations. In this case, average IoU (Intersection Over Union, a measure of model performance) values exceeding 60% have been obtained, suggesting this is a useful method for screening the XMM-Newton images.