Construyendo una libreria de Python para anonimizar datos sensibles

Madrazo Quintana, Esmeralda

Fecha

2023-09

Director/es

López García, Álvaro

Sáinz-Pardo Díaz, Judith

Derechos

Attribution-NonCommercial-NoDerivatives 4.0 International

Palabras clave

k-anonymity

l-diversity

t-closeness

Python library

Privacy

Sensitive data

k-anonimato

l-diversidad

Librería de Python

Privacidad

Datos sensibles

Resumen/Abstract

Technologies that handle large amounts of data have experienced rapid growth in recent years, thanks mainly to the easy availability of large volumes of data (big data). Problems arise when trying to maintain the balance between privacy and preserving as much information as possible. The dilemma of privacy preservation is further intensified when handling databases containing, for example, clinical patient data. The objective of this master’s thesis is to address privacy issues in data science by exploring and implementing the most common anonymization techniques. More specifically, we intend to implement a Python library with the most popular anonymization models, more specifically k-anonymity, l-diversity and t-closeness, as well as offer some performance analysis techniques for its optimal implementation.

Las tecnologías encargadas de manejar grandes cantidades de datos han experimentado un crecimiento rápido en los últimos años, mayoritariamente gracias a lo fácilmente accesible que se han vuelto los grandes volúmenes de datos (big data). Por ello han surgido problemas a la hora de tratar de mantener un equilibrio entre la privacidad y la preservación de tanta información como sea posible. Este dilema se ve intensificado cuando tratamos con bases de datos que contienen, por ejemplo, datos médicos de un paciente. El objetivo de este trabajo de fin de Master es tratar de ofrecer una solución mediante la implementación de algunas de las técnicas más comunes de anonimización. Mas específicamente, nuestra intención es implementar una librería de Python que contenga algunos de los modelos de anonimización más populares, concretamente k-anonymity, l-diversity y t-closeness, así como ofrecer una serie de métricas de análisis para su optima implementación.

Colecciones a las que pertenece

M6323 Trabajos académicos [97]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International