Análisis de flexibilidad de los modelos LLM cuantizados
Flexibility analysis of quantized LLM models
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/36180Registro completo
Mostrar el registro completo DCAutoría
González San José, PabloFecha
2025-02Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Resumen/Abstract
Los Large Language Models (LLM) utilizados en tareas de procesado de lenguaje, como GPT, Gemini o Llama, han representado un punto de inflexión en el potencial impacto de la Inteligencia Artificial (IA) en nuestra vida diaria. Los requierimientos computacionales derivados del tamaño de estos modelos han favorecido la utilización de mecanismos de optimización como la cuantización de los pesos y funciones de activación. En este contexto, el proyecto trabajará analizando si es posible la aplicación directa de técnicas de mejora sencillas, tanto desde un punto de vista hardware (reducción del coste computacional) como software (mejora de la precisión del modelo). Haciendo uso de los modelos derivados del LLM de Meta (de nombre Llama), analizaremos la viabilidad de dos técnicas: la compresión de modelo basado en la presencia de valores recurrentes y la refactorización de pesos en función de la distribución de valores de los mismos.
Large Language Models (LLM) used in language processing tasks, such as GPT, Gemini or Llama, have become a turning point in the potential impact of Artificial Intelligence (AI) on our daily lives. Computational requirements derived from the size of these models have favoured the use of optimization mechanisms, such as weight and activarion functions quantization. In this context, the project will work on analizing if the straightforward approach of simple improvement techniques is possible, both from a hardware point of view (reduced computational cost) and software (improved model precission). Making use of the models derived from Meta’s LLM (named Llama), the viability of two techniques will be analized: the compression of the model based on the pressence of recurring values and the refactorization of the weights based on the distribution of their values.