Uso de técnicas de inteligencia artificial para identificar galaxias activas

Pascual Borruel, Carlos

Fecha

2023-11

Director/es

Carrera Troyano, Francisco Jesús

Tuccillo, Diego

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Palabras clave

Galaxias

AGN

Machine learning

Clasificación

Decision tree

Random forest

Galaxies

Clasification

Resumen/Abstract

En los próximos años se publicarán los datos recopilados por las misiones Euclid y LSST, que son los proyectos de cartografiado de galaxias, en el óptico e infrarrojo cercano, más importantes de la actualidad. En este trabajo nos ha parecido interesante comprobar el potencial de estos grandes muestreos para facilitar la identificación de Núcleos Galácticos Activos (AGN) entre la enorme cantidad de galaxias observadas. Para ello, se ha decidido romper con los métodos tradicionales de clasificación de galaxias, aprovechando la potencia de las novedosas técnicas de Machine Learning en tareas de clasificación. Concretamente se han implementado dos algoritmos de aprendizaje supervisado, Decision Tree y Random Forest, en datos simulados de los cartografiados mencionados, los cuales consisten en dos catálogos de galaxias de distinta profundidad: DEEP y WIDE. Para la preparación de estos datos, se utilizaron herramientas profesionales de manipulación de tablas astronómicas, como TOPCAT y STILTS, con las que se seleccionaron aquellas fuentes pertenecientes a las áreas comunes de ambos cartografiados y se filtraron las que no iban a ser detectadas por los observatorios reales. Además, se utilizaron distintas librerías de python para etiquetar las muestras y seleccionar únicamente las magnitudes de los filtros de cada proyecto. Finalmente, se ha observado que las magnitudes de LSST deben ser descartadas, ya que al no incluir ruido presentan unos patrones internos que evidencian la clasificación de fuentes, de modo que se tuvo que continuar solo con las magnitudes de Euclid. Esta pérdida de información ha podido provocar un descenso importante en el rendimientos de los modelos. No obstante, se ha descubierto que agregando columnas de colores a las magnitudes de Euclid, mejoran notablemente los resultados de la clasificación. Por otra parte, se ha observado que los algoritmos de Random Forest no ofrecen mejoras significativas en el rendimiento de las métricas respecto a los modelos de Decision Tree, destacándose la profunidad máxima de los árboles como el hiperparámetros más influyente en ambos casos. Con todo, los mejores modelos de clasificación que se han desarrollado en este trabajo alcanzan una precisión de 0.57 y una sensibilidad de 0.70 para el conjunto DEEP, y una precisión de 0.75 y una sensibilidad de 0.84 para el conjunto WIDE. De esta forma, se abre un camino para mejorar la eficiencia y la precisión en la detección de AGNs.

In the coming years, data collected by the Euclid and LSST missions, which are the most significant current galaxy mapping projects in the optical and near-infrared spectrum, will be published. This work aims to explore the potential of these extensive surveys to facilitate the identification of Active Galactic Nuclei (AGN) among the vast number of observed galaxies. To achieve this, we have decided to move away from traditional galaxy classification methods, harnessing the power of innovative Machine Learning techniques in classification tasks. Specifically, two supervised learning algorithms, Decision Tree and Random Forest, have been implemented on simulated data from the mentioned surveys, consisting of two galaxy catalogs of different depths: DEEP and WIDE. For data preparation, professional astronomical table manipulation tools such as TOPCAT and STILTS were used. These tools helped in selecting sources belonging to the common areas of both surveys and filtering out those that would not be detected by real observatories. Furthermore, various Python libraries were utilized for labeling the samples and selecting only the magnitudes of the filters from each project. Ultimately, it was observed that the magnitudes from LSST should be discarded, as they do not include noise and present internal patterns that bias the source classification. This required the continuation with only Euclid magnitudes. This loss of information may have led to a significant decrease in the models’ performance. However, it was discovered that adding color columns to the Euclid magnitudes notably improves the classification results. On the other hand, it was observed that Random Forest algorithms do not provide significant improvements in metric performance compared to Decision Tree models, with the maximum depth of the trees being the most influential hyperparameter in both cases. Nevertheless, the best classification models developed in this work achieve a precision of 0.57 and a sensitivity of 0.70 for the DEEP set, and a precision of 0.75 and a sensitivity of 0.84 for the WIDE set. This opens a path to improving efficiency and precision in the detection of AGNs.

Colecciones a las que pertenece

G0906 Trabajos académicos [407]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International