Entorno de evaluación del impacto de la red para aplicaciones de Machine Learning
Network impact assessment environment for Machine Learning applications
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/34345Registro completo
Mostrar el registro completo DCAutoría
Palacios Mediavilla, JaimeFecha
2024-07Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Disponible después de
2029-07-08
Palabras clave
TPU v4
Lattice graphs
Paralelización de DNNs
Anillos hamiltonianos edge disjuntos
Llamadas colectivas
DNN parallelization
ERdge-disjoint hamiltonian rings
Collective operations
Resumen/Abstract
Este trabajo de fin de máster comprende el desarrollo y estudio de un entorno de evaluación del impacto de la red para aplicaciones de Machine Learning. Una de las máquinas más utilizadas para entrenar redes neuronales es el TPU v4 de Google, que emplea la topología lattice graph, propuesta por mi codirector de este trabajo. Debido a esto, se ha despertado el interés por estudiar el efecto de estas topologías bajo diferentes patrones de tráfico típicos de aplicaciones de inteligencia artificial (IA). Para ello, se ha utilizado como base del trabajo el simulador de redes CAMINOS. Como parte del trabajo desarrollado se ha aprendido tanto el uso del simulador CAMINOS, como el lenguaje en el que está programado, Rust. También se han estudiado los conocimientos básicos sobre redes neuronales y los diferentes tipos de paralelización. Por último, se ha implementado todo lo necesario para poder evaluar el impacto de las topologías lattice graphs en aplicaciones de IA. Esto es, integrar la topología en el simulador, adecuar el enrutamiento e implementar las diferentes variantes de tráfico. Tras el estudio, se ha visto que el uso de los lattice graphs tiene un gran potencial en el ámbito de las aplicaciones de IA, no solo por sus cualidades topológicas, sino también por, en su mayoría y posiblemente totalidad, contener anillos Hamiltonianos edge disjuntos. Todo ello hace que tengan una gran versatilidad a la hora de adecuarse a las comunicaciones de tipo anillo, como las fases all-reduce que típicamente se realizan en este tipo de aplicaciones.
This master’s project comprises the development and study of an evaluation framework for assessing network impact in Machine Learning applications. One of the most widely used machines for training neural networks is Google’s TPU v4, which employs the lattice graph topology, proposed by my codirector for this project. Consequently, there has been interest in studying the effect of these topologies on different traffic patterns typical of artificial intelligence (AI) applications. For this purpose, the network simulator CAMINOS has been employed as the basis for this work. As part of the developed work, proficiency has been gained in the use of the CAMINOS simulator and the Rust programming language in which it is implemented. Additionally, basic knowledge on neural networks and various types of parallelization has been studied. Finally, all necessary components have been implemented to evaluate the impact of lattice graphs topologies on AI applications. This includes integrating the topology into the simulator, adjusting routing, and implementing different traffic variants. Following the study, it has been observed that the use of lattice graphs holds significant potential in the field of AI applications, not only due to their topological qualities but also because they mostly, and possibly entirely, contain edge-disjoint Hamiltonian rings. This versatility enables them to adapt well to ring-type communications, such as the all-reduce phases typically performed in these applications.