• Mi UCrea
    Ver ítem 
    •   UCrea
    • UCrea Académico
    • Facultad de Ciencias
    • Grado en Ingeniería Informática
    • G2454 Trabajos académicos
    • Ver ítem
    •   UCrea
    • UCrea Académico
    • Facultad de Ciencias
    • Grado en Ingeniería Informática
    • G2454 Trabajos académicos
    • Ver ítem
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Extracción automatizada de variables desde historias clínicas en lenguaje natural para el soporte diagnóstico mediante modelos LLMs y AutoML models

    Automated extraction of variables from natural language clinical records for diagnostic support using LLMs and AutoML models

    Ver/Abrir
    GonzalezNavaAlvaro.pdf (1.925Mb)
    Identificadores
    URI: https://hdl.handle.net/10902/37752
    Compartir
    RefworksMendeleyBibtexBase
    Estadísticas
    Ver Estadísticas
    Google Scholar
    Registro completo
    Mostrar el registro completo DC
    Autoría
    González Nava, Álvaro
    Fecha
    2025-09-05
    Director/es
    Duque Medina, RafaelAutoridad Unican
    Rivero Zazo, IvánAutoridad Unican
    Derechos
    © Álvaro González Nava
    Disponible después de
    2028-09-05
    Palabras clave
    Modelos de lenguaje (LLMs)
    Procesamiento de lenguaje natural
    AutoML
    Textos médicos
    Language Models (LLMs)
    Natural Language Processing
    Clinical texts
    Resumen/Abstract
    En la práctica clínica, una gran parte de la información relevante se encuentra en notas médicas y documentos no estructurados, lo que dificulta su aprovechamiento en análisis computacionales. Este trabajo explora la aplicación conjunta de modelos de lenguaje de gran tamaño (LLMs) y aprendizaje automático automatizado (AutoML) para abordar este problema en el contexto de pacientes trasplantados de pulmón. Se diseñaron prompts orientados a la extracción automática de variables clínicas (medicación, dosis, síntomas, estado general, entre otras) a partir de textos médicos, utilizando distintos LLMs de código abierto. Posteriormente, estas variables se integraron con datos clínicos estructurados y se entrenaron modelos predictivos mediante AutoGluon, con el objetivo de predecir el FEV1 (%), indicador clave de la función pulmonar y del riesgo de desarrollar CLAD (Chronic Lung Allograft Dysfunction). Los resultados muestran que los LLMs permiten estructurar de manera fiable parte de la información contenida en texto libre y que la inclusión de dichas variables mejora el rendimiento de los modelos predictivos. Asimismo, se observa que modelos intermedios en cuanto a número de parámetros ofrecen un equilibrio adecuado entre precisión y coste computacional, facilitando su uso en entornos locales sin depender de infraestructuras externas. Este estudio demuestra que la integración de LLMs y AutoML constituye una estrategia viable y prometedora para transformar datos clínicos no estructurados en conocimiento útil, abriendo la puerta a sistemas de apoyo a la decisión clínica más completos y personalizados en el ámbito del trasplante pulmonar.
     
    In clinical practice, a large amount of relevant information is contained in medical notes and unstructured documents, which makes it difficult to use in computational analyses. This work explores the joint application of large language models (LLMs) and automated machine learning (AutoML) to address this problem in the context of lung transplant patients. Prompts were designed to automatically extract clinical variables (such as medication, dosage, symptoms, and general condition) from medical texts using different open-source LLMs. These variables were then integrated with structured clinical data and predictive models were trained with AutoGluon, aiming to predict FEV1 (%), a key indicator of lung function and of the risk of developing CLAD (Chronic Lung Allograft Dysfunction). The results show that LLMs can reliably structure part of the information contained in free text, and that the inclusion of these variables improves the performance of predictive models. Moreover, intermediate-sized models in terms of parameters provide a suitable balance between accuracy and computational cost, making them feasible for local use without depending on external infrastructures. This study demonstrates that integrating LLMs and AutoML is a viable and promising strategy to transform unstructured clinical data into useful knowledge, paving the way for more comprehensive and personalized clinical decision support systems in the field of lung transplantation.
    Colecciones a las que pertenece
    • G2454 Trabajos académicos [375]

    UNIVERSIDAD DE CANTABRIA

    Repositorio realizado por la Biblioteca Universitaria utilizando DSpace software
    Contacto | Sugerencias
    Metadatos sujetos a:licencia de Creative Commons Reconocimiento 4.0 España
     

     

    Listar

    Todo UCreaComunidades y coleccionesFecha de publicaciónAutoresTítulosTemasEsta colecciónFecha de publicaciónAutoresTítulosTemas

    Mi cuenta

    AccederRegistrar

    Estadísticas

    Ver Estadísticas
    Sobre UCrea
    Qué es UcreaGuía de autoarchivoArchivar tesisAcceso abiertoGuía de derechos de autorPolítica institucional
    Piensa en abierto
    Piensa en abierto
    Compartir

    UNIVERSIDAD DE CANTABRIA

    Repositorio realizado por la Biblioteca Universitaria utilizando DSpace software
    Contacto | Sugerencias
    Metadatos sujetos a:licencia de Creative Commons Reconocimiento 4.0 España