Análisis del rendimiento de modelos de aprendizaje automático sobre datos anonimizados
Analyzing the performance of machine learning models on anonymized data
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/30293Registro completo
Mostrar el registro completo DCFecha
2023-07Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Anonimización
Aprendizaje automático
Análisis de rendimiento
Privacidad
k-anonimato
Anonymization
Performance analysis
Privacy
k-anonymity
Resumen/Abstract
La gran cantidad de datos abiertos disponibles hace necesario el estudio y desarrollo de técnicas que garanticen la seguridad de dichos datos para su posterior tratamiento y análisis. En concreto, el estudio de las técnicas de anonimizarían se centra en el análisis de la distribución de los cuasi-identificadores y atributos sensibles en una base de datos. Existen muchas técnicas que pueden aplicarse, cada una de ellas pueden evitar distintos tipos de ataques.
En este estudio se exploran tres técnicas de anonimización clásicas, su bases teóricas y diferentes tipos de ataques que previenen: k-anonimato, l-diversidad y t-cercanía. Además, se utilizan diferentes herramientas para garantizar la fiabilidad de estas técnicas, que son aplicadas a diferentes niveles sobre dos conjuntos de datos en abierto, tras pre definir diferentes jerarquías sobre los cuasi-identificadores.
A continuación, se estudiará el rendimiento de una batería de modelos de Machine Learning aplicado en los datos anonimizados presentados anteriormente. Se generarán un amplio rango de resultados experimentales, variando la técnica de anonimizarían empleada, así como el nivel establecido.
Todo el código es desarrollado en Python, y distribuido mediante un repositorio de datos en abierto. Además, los datasets han sido anonimizados utilizando el Software ARX.
The large amount of open data available makes it necessary to study and develop techniques that guarantee its security for processing and analysis. Specifically, the study of anonymization techniques focuses on analyzing the distribution of the quasi-identifiers and sensitive attributes in a database. There are numerous techniques that can be applied, each of which can prevent different types of attacks.
The present study explores three classical anonymity techniques, their theoretical basis and the kind of attacks they prevent: k-anonymity, ℓ-diversity and t-closeness. Specifically, different tools are used to ensure the reliability of these techniques which are applied at various levels on two open-access datasets, after pre-defining different hierarchies for the quasi-identifiers.
Next, the performance of a battery of machine learning models applied on the anonymized data is studied. A wide range of experimental results is carried out, varying the anonymization technique employed, as well as the level established.
All the code developed is written in Python and is distributed through an open source repository. In addition, the datasets were anonymized using the ARX Software.