Construyendo una libreria de Python para anonimizar datos sensibles
Building a Python library for anonymizing sensitive data
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/30791Registro completo
Mostrar el registro completo DCAutoría
Madrazo Quintana, EsmeraldaFecha
2023-09Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
k-anonymity
l-diversity
t-closeness
Python library
Privacy
Sensitive data
k-anonimato
l-diversidad
Librería de Python
Privacidad
Datos sensibles
Resumen/Abstract
Technologies that handle large amounts of data have experienced rapid growth in recent years, thanks mainly to the easy availability of large volumes of data (big data). Problems arise when trying to maintain the balance between privacy and preserving as much information as possible. The dilemma of privacy preservation is further intensified when handling databases containing, for example, clinical patient data. The objective of this master’s thesis is to address privacy issues in data science by exploring and implementing the most common anonymization techniques. More specifically, we intend to implement a Python library with the most popular anonymization models, more specifically k-anonymity, l-diversity and t-closeness, as well as offer some performance analysis techniques for its optimal implementation.
Las tecnologías encargadas de manejar grandes cantidades de datos han experimentado un crecimiento rápido en los últimos años, mayoritariamente gracias a lo fácilmente accesible que se han vuelto los grandes volúmenes de datos (big data). Por ello han surgido problemas a la hora de tratar de mantener un equilibrio entre la privacidad y la preservación de tanta información como sea posible. Este dilema se ve intensificado cuando tratamos con bases de datos que contienen, por ejemplo, datos médicos de un paciente. El objetivo de este trabajo de fin de Master es tratar de ofrecer una solución mediante la implementación de algunas de las técnicas más comunes de anonimización. Mas específicamente, nuestra intención es implementar una librería de Python que contenga algunos de los modelos de anonimización más populares, concretamente k-anonymity, l-diversity y t-closeness, así como ofrecer una serie de métricas de análisis para su optima implementación.