Extracción automatizada de variables desde historias clínicas en lenguaje natural para el soporte diagnóstico mediante modelos LLMs y AutoML models
Automated extraction of variables from natural language clinical records for diagnostic support using LLMs and AutoML models
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/37752Registro completo
Mostrar el registro completo DCAutoría
González Nava, ÁlvaroFecha
2025-09-05Derechos
© Álvaro González Nava
Disponible después de
2028-09-05
Palabras clave
Modelos de lenguaje (LLMs)
Procesamiento de lenguaje natural
AutoML
Textos médicos
Language Models (LLMs)
Natural Language Processing
Clinical texts
Resumen/Abstract
En la práctica clínica, una gran parte de la información relevante se encuentra en notas médicas y documentos no estructurados, lo que dificulta su aprovechamiento en análisis computacionales. Este trabajo explora la aplicación conjunta de modelos de lenguaje de gran tamaño (LLMs) y aprendizaje automático automatizado (AutoML) para abordar este problema en el contexto de pacientes trasplantados de pulmón.
Se diseñaron prompts orientados a la extracción automática de variables clínicas (medicación, dosis, síntomas, estado general, entre otras) a partir de textos médicos, utilizando distintos LLMs de código abierto. Posteriormente, estas variables se integraron con datos clínicos estructurados y se entrenaron modelos predictivos mediante AutoGluon, con el objetivo de predecir el FEV1 (%), indicador clave de la función pulmonar y del riesgo de desarrollar CLAD (Chronic Lung Allograft Dysfunction).
Los resultados muestran que los LLMs permiten estructurar de manera fiable parte de la información contenida en texto libre y que la inclusión de dichas variables mejora el rendimiento de los modelos predictivos. Asimismo, se observa que modelos intermedios en cuanto a número de parámetros ofrecen un equilibrio adecuado entre precisión y coste computacional, facilitando su uso en entornos locales sin depender de infraestructuras externas.
Este estudio demuestra que la integración de LLMs y AutoML constituye una estrategia viable y prometedora para transformar datos clínicos no estructurados en conocimiento útil, abriendo la puerta a sistemas de apoyo a la decisión clínica más completos y personalizados en el ámbito del trasplante pulmonar.
In clinical practice, a large amount of relevant information is contained in medical notes and unstructured documents, which makes it difficult to use in computational analyses. This work explores the joint application of large language models (LLMs) and automated machine learning (AutoML) to address this problem in the context of lung transplant patients.
Prompts were designed to automatically extract clinical variables (such as medication, dosage, symptoms, and general condition) from medical texts using different open-source LLMs. These variables were then integrated with structured clinical data and predictive models were trained with AutoGluon, aiming to predict FEV1 (%), a key indicator of lung function and of the risk of developing CLAD (Chronic Lung Allograft Dysfunction).
The results show that LLMs can reliably structure part of the information contained in free text, and that the inclusion of these variables improves the performance of predictive models. Moreover, intermediate-sized models in terms of parameters provide a suitable balance between accuracy and computational cost, making them feasible for local use without depending on external infrastructures.
This study demonstrates that integrating LLMs and AutoML is a viable and promising strategy to transform unstructured clinical data into useful knowledge, paving the way for more comprehensive and personalized clinical decision support systems in the field of lung transplantation.







