Training a large language model for Standard name generation in climate and Forecast metadata
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/36758Registro completo
Mostrar el registro completo DCAutoría
Díez Fernández, MarioFecha
2025-06-13Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Large language models
Climate and forecast conventions
Standard names
Ciencia de datos
Inteligencia artificial
Resumen/Abstract
El objetivo de este proyecto radica en la creación de un modelo de lenguaje (Large Language Model, LLM) para la generación automática de nombres estándar (standard names) empleados en las Climate and Forecast Conventions (CF), que son utilizados en el ámbito de las geociencias para estandarizar los metadatos y así mejorar la interoperabilidad y el intercambio de datos. Estos standard names son etiquetas que definen las variables dentro de un conjunto de datos.
El objetivo de estos modelos del lenguaje es automatizar la creación de standard names, minimizando errores humanos, y permitiendo ampliar tanto la especificidad como la cobertura del vocabulario disponible. Este proyecto estudia adaptar un modelo de lenguaje preentrenado para que sea capaz de generar standard names a partir de descripciones de parámetros o variables físicas, altamente especializadas, en las que diferencias sutiles en la terminología pueden implicar una semántica física significativamente distinta.
The objective of this project is the development of a Large Language Model (LLM) for the automatic generation of standard names used in the Climate and Forecast Conventions (CF). These conventions are widely employed in geosciences to standardize metadata in order to improve interoperability and data exchange. Standard names serve as labels that precisely define the variables within a dataset.
This language model aims to minimize human error in the creation of standard names and to expand both the specificity and coverage of the existing vocabulary. The project explores the adaptation of a pretrained language model—originally designed for programming language tasks—to generate standard names from highly specialized physical descriptions, where subtle differences in terminology may correspond to significantly different physical meanings.