Mitigación del efecto de errores sistemáticos en clasificación de colisiones de partículas mediante aprendizaje automático
Mitigating the Effect of Systematic Uncertainties in Particle Collision Classification using Machine Learning
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/25470Registro completo
Mostrar el registro completo DCAutoría
Bolívar Gómez, SergioFecha
2022-06Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Aprendizaje automático
Redes neuronales
Errores sistemáticos
Data augmentation
Materia oscura
Machine learning
Neural networks
Systematic uncertainties
Data augmentation
Dark matter
Resumen/Abstract
Los métodos multivariantes son un gran aliado para llevar a cabo tareas de clasificación cuando la dimensión del conjunto de datos es elevada. En particular, estas técnicas son muy utilizadas en física de partículas cuando se desea extraer una señal de interés de un fondo que es mucho más dominante. En general, estos métodos multivariantes ignoran el efecto de los errores sistemáticos en la fase de entrenamiento, resultando en modelos que quizá no se ajusten tanto a la realidad como se piensa. En este trabajo de fin de grado se exploran diversos métodos para incluir los efectos de los errores sistemáticos en la fase de entrenamiento de estos algoritmos. En particular, se propone un método reducido de data augmentation. Se ha encontrado que este método proporciona resultados bastante aceptables en ejemplos sintéticos, razón por la cual se ha comprobado su efectividad en un estudio real de búsqueda de materia oscura. En concreto, se ha aplicado para mitigar los errores sistemáticos que afectan a la energía de escala de los jets y a la energía transversa faltante. Se ha obtenido que, en algunos puntos de interés, el método propuesto es capaz de reducir más del 70% el efecto de los errores sistemáticos. Más aún, se ha comprobado que para ciertos puntos de eficiencia permite disminuir la proporción de eventos de fondo mal clasificados como señal hasta en un 4 %, lo que supone un gran avance teniendo en cuenta que en el caso realista estudiado la señal queda enmascarada por un fondo varios ´ordenes de magnitud superior.
Multivariate methods are a great ally in performing classification tasks when the dimension of the data set is high. In particular, these techniques are widely used in particle physics when one wants to extract a signal of interest from a much more dominant background. In general, these multivariate methods ignore the effects of systematic uncertainties in the training phase, which means that the resulting models will not fit reality as well as one might expect. In this final project, several methods are explored to account for the effects of systematic uncertainties in the training phase of these algorithms. Among them, a reduced data augmentation method is proposed. This method has been shown to give quite acceptable results for synthetic examples, so its effectiveness has been tested in a real dark matter search study. In particular, it has been applied to reduce the systematic uncertainties in the jet energy scale and in the missing transverse energy. It has been shown that the proposed method can reduce the effects of the systematic uncertainties by more than 70% at some points of interest. In addition, it has been found that in some other working points it can reduce the fraction of background events misclassified as signal by up to 4 %, which is a great advance considering that in the realistic case studied the signal is masked by a background several orders of magnitude larger.