@misc{10902/37131, year = {2025}, month = {6}, url = {https://hdl.handle.net/10902/37131}, abstract = {Este trabajo presenta el diseño, implementación y evaluación de un asistente virtual basado en inteligencia artificial generativa con técnicas de generación aumentada por recuperación, orientado a suplir la falta de información de los modelos de lenguaje en dominios privados. El sistema responde a la necesidad de brindar asistencia técnica especializada a usuarios no técnicos que deben consultar documentación extensa sin acceso inmediato a soporte humano. La investigación adopta un enfoque integral que equilibra la solidez teórica con la aplicación práctica de un caso real. Explora en profundidad la arquitectura Transformer de los modelos GPT tipo decoderonly, la representación vectorial de palabras en espacios de alta dimensionalidad y la identificación de hiperparámetros clave para optimizar el rendimiento. Además, se realiza una evaluación comparativa de distintos frameworks y modelos de lenguaje, definiendo criterios de selección y metodologías de integración según el caso de uso. La metodología propuesta contempla tanto la calidad de recuperación como la calidad de generación de respuestas. Los resultados experimentales, obtenidos mediante un dataset de 27 preguntas representativas elaborado en colaboración con expertos del dominio, demuestran mejoras significativas, mostrando incrementos de 8.8 puntos en la métrica BLEU y 25.4 puntos en ROUGE-L comparado con configuraciones sin generación aumentada por recuperación. La evaluación revela que el sistema alcanza un 81 % de capacidad de respuesta efectiva sin presencia de alucinaciones, con un 54.5 % de respuestas clasificadas como excelentes o buenas cuando dispone de contexto relevante. En particular, el análisis de configuraciones paramétricas identifica puntos óptimos: temperatura de 0.6 para equilibrar precisión y naturalidad, fragmentos textuales de 2000–3000 caracteres para maximizar cobertura contextual, y búsqueda por similitud tradicional sobre algoritmos de máxima relevancia marginal en dominios especializados. Se evidencian múltiples trade-offs inherentes entre diversidad de recuperación y precisión de respuestas, cantidad de contexto y capacidad de integración semántica. Como contribución adicional, se desarrolla ragbot, una herramienta de terminal que permite la experimentación sistemática con configuraciones de parámetros para diferentes casos de uso, facilitando la evaluación automatizada mediante métricas cuantitativas (BLEU, ROUGE-L, similitud semántica) y cualitativas (relevancia contextual, relevancia de respuesta y fidelidad factual).}, abstract = {This work presents the design, implementation, and evaluation of a virtual assistant based on generative artificial intelligence with retrieval-augmented generation techniques, aimed at addressing the lack of information in language models within private domains. The system responds to the need to provide specialized technical assistance to non-technical users who must consult extensive documentation without immediate access to human support. The research adopts a comprehensive approach that balances theoretical robustness with the practical application of a real-world case. It explores in depth the Transformer architecture of decoderonly GPT models, the vector representation of words in high-dimensional spaces, and the identification of key hyperparameters to optimize performance. In addition, it conducts a comparative evaluation of different frameworks and language models, defining selection criteria and integration methodologies according to the use case. The proposed methodology considers both retrieval quality and response generation quality. The experimental results, obtained using a dataset of 27 representative questions developed in collaboration with domain experts, demonstrate significant improvements, showing increases of 8.8 points in the BLEU metric and 25.4 points in ROUGE-L compared to configurations without retrievalaugmented generation. The evaluation reveals that the system achieves 81 % effective response capability without hallucinations, with 54.5 % of responses rated as excellent or good when relevant context is available. In particular, the analysis of parametric configurations identifies optimal points: a temperatura of 0.6 to balance accuracy and naturalness, text fragments of 2000–3000 characters to maximize contextual coverage, and traditional similarity search over maximal marginal relevance algorithms in specialized domains. Multiple inherent trade-offs are evident between retrieval diversity and response accuracy, amount of context and semantic integration capability. As an additional contribution, ragbot is developed—a terminal tool that enables systematic experimentation with parameter configurations for different use cases, facilitating automated evaluation through quantitative metrics (BLEU, ROUGE-L, semantic similarity) and qualitative ones (contextual relevance, response relevance, and factual fidelity).}, title = {Desarrollo de un asistente virtual logístico basado en inteligencia artificial generativa}, author = {Martínez Amodia, Rubén}, }