Comparación de técnicas distribuidas de aprendizaje automático aplicadas a datos médicos disponibles en abierto
Comparison of distributed machine learning techniques applied to openly available medical data
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/35359Registro completo
Mostrar el registro completo DCAutoría
Melgarejo Aragón, Marco AntonioFecha
2024-02Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Machine learning
Distributed learning
Federated learning
Medical data
Privacy
Aprendizaje automático
Aprendizaje distribuido
Aprendizaje federado
Datos médicos
Privacidad
Resumen/Abstract
Distributed machine/deep learning refers to algorithms and systems designed to enhance performance, preserve privacy, and scale to larger training data and models. The aim of this study is to compare the performance of different distributed machine learning techniques, such as federated learning, gossip learning, or ring all-reduce architecture. To achieve this, their application is proposed using artificial neural networks on an openly available medical dataset. Various metrics will be evaluated based on the architecture configuration and the number of rounds carried out. The implementation of the three architectures using Python is proposed in a scenario where data distribution is simulated. All implemented code can be openly accessed.
El aprendizaje automático/profundo distribuido se refiere a algoritmos y sistemas de aprendizaje automático/profundo diseñados para mejorar el rendimiento, preservar la privacidad y escalar a datos de entrenamiento y modelos más grandes. El objetivo de este trabajo es comparar el rendimiento de diferentes técnicas de aprendizaje automático distribuido, como el aprendizaje federado, el aprendizaje “por rumores” o la arquitectura de reducción total en anillo. Para ello, se propone su aplicación utilizando redes neuronales artificiales a un conjunto de datos médicos en abierto. Se evaluarán distintas métricas en función de la configuración de la arquitectura y el número de rondas llevadas a cabo. Se propone la implementación de las tres arquitecturas utilizando Python en un escenario donde se simula distribución de los datos. Todo el código implementado se puede consultar en abierto.