INFORMACIÓN GENERAL ------------------- 1. Título del conjunto de datos: Inventario léxico del corpus PRESEEA-Santander 2. Contacto Información de contacto del investigador principal Nombre: Inmaculada Martínez-Martínez Institución: Universidad de Cantabria Correo electrónico: inmaculada.martinez@unican.es ORCIDO: https://orcid.org/0000-0003-4760-0903 3. Descripción del proyecto PRESEEA es un proyecto para la creación de un corpus de lengua española hablada representativo del mundo hispánico en su variedad geográfica y social. Esos materiales se reúnen atendiendo a la diversidad sociolingüística de las comunidades de habla hispanohablantes. PRESEEA agrupa a cerca de 50 equipos de investigación sociolingüística. Es el fruto del trabajo coordinado de investigadores comprometidos con una metodología común para reunir un banco de materiales coherente que posibilite su aplicación con fines educativos y tecnológicos. (https://preseea.uah.es/) 4. Descripción del conjunto de datos Este conjunto de datos está elaborado a partir de los datos completos constituidos por las 54 entrevistas semidirigidas que integran el corpus PRESEEA-Santander. Estos datos están preestratificados en torno a las variables de sexo, edad y nivel educativo, conforme a las directrices marcadas en el Proyecto para el Estudio Sociolingüístico del Español de España y América (PRESEEA) (Moreno Fernández 2021). El objetivo de este inventario es reunir el léxico extraído de las entrevistas orales, grabadas y transcritas, del núcleo urbano de una ciudad española, como parte del proyecto arriba mencionado. Un inventario léxico constituye un recurso de primer orden para abordar el estudio del vocabulario desde parámetros tanto cualitativos como cuantitativos. Su finalidad estriba en poner a disposición de la comunidad científica internacional una estructura que facilite la localización de palabras y su uso investigador en estudios lingüísticos y aplicados, como los propios de la sociolingüística y la lexicometría, entre otros. El proceso de lematización lo han llevado a cabo los profesores Hiroto Ueda, de la Universidad de Tokio, e Inmaculada Martínez-Martínez, de la Universidad de Cantabria. El primero se ha encargado de los procedimientos automatizados con R (R Core Team 2023), mientras la segunda ha realizado la supervisión lingüística que todo lemario requiere por parte de un nativo experto en Lingüística, con el fin de depurar incorrecciones. 5. Notas Este inventario léxico lematizado del habla oral contemporánea de la ciudad de Santander (España) está integrado por los siguientes subconjuntos de datos: Volumen 1. Lema, categoría mayor, forma y flexión Volumen 2. Lema, categoría menor, forma y flexión Volumen 3. Categoría mayor, lema, forma y flexión Volumen 4. Categoría menor, lema, forma y flexión Volumen 5. Lema, categoría mayor y variables sociales Volumen 6. Lema, categoría menor y variables sociales Volumen 7. Lema en orden inverso Volumen 8. Forma en orden inverso 6. Fecha de depósito 31 de julio de 2025 7. Fecha 8. Idioma: español -------------------------- INFORMACIÓN DEL AUTOR -------------------------- 1. Autor 1 Nombre: Inmaculada Apellido: Martínez-Martínez Institución: Universidad de Cantabria (España) Correo electrónico: inmaculada.martinez@unican.es ORCIDO: https://orcid.org/0000-0003-4760-0903 2. Autor 2 Nombre: Hiroto Apellido: Ueda Institución: Universidad de Tokio (Japón) Correo electrónico: hiroto.ueda.tokio@gmail.com ORCIDO: https://orcid.org/0000-0003-3204-609X -------------------------- METODOLOGÍA -------------------------- 1. Metodología El Diccionario de la Lengua Española (DLE) de la Real Academia Española define 'lema' como "m. Ling. Palabra que encabeza un artículo de un diccionario o de una enciclopedia". En nuestro caso, en lugar de aplicarlo a cada entrada en un diccionario o en una enciclopedia, lo aplicamos al conjunto de formas variables. Es preciso señalar aquí que, para obtener la palabra que encabeza un conjunto de formas variables, hay que establecer determinados criterios lingüísticos que aparecen explicados con detenimiento en el volumen dedicado a la metodología dentro de este mismo conjunto de datos. 2. Software Los procedimientos automatizados han sido llevados a cabo con el software R (R Core Team 2023). -------------------------- PALABRAS CLAVE -------------------------- 1. Palabras clave Corpus oral; variación sociolingüística; lematización; lexicometría -------------------------- INFORMACIÓN DE PATROCINIO E ID DE SUBVENCIONES -------------------------- 1. Información de la subvención Este trabajo ha sido posible gracias a la financiación recibida por el Ministerio de Ciencia, Innovación y Universidades para el proyecto "Estudio de los condicionantes sociales del espan?ol actual en el centro y norte de Espan?a: nuevas identidades, nuevos retos, nuevas soluciones (ECOS -C/N)"(PID2023-148371NB-C42). -------------------------- PUBLICACIONES RELACIONADAS -------------------------- 1. Publicación relacionada Martínez-Martínez, I. y M.Gancedo. 2025. La lengua hablada en Santander. Corpus PRESEEA-Santander. Alcalá de Henares: ediciones Universidad de Alcalá. 2. Conjunto de datos relacionados Inventario morfológico PRESEEA-Santander (Muestra). Inventario léxico PRESEEA-Santander (Introducción). Inventario léxico PRESEEA-Santander (Metodología). Inventario léxico PRESEEA-Santander (Muestra). -------------------------- INFORMACIÓN GEOGRÁFICA -------------------------- 1. Cobertura espacial Internacional -------------------------- INFORMACIÓN TEMPORAL -------------------------- 1. Cobertura del período de tiempo Sin límite -------------------------- ARCHIVOS -------------------------- 1. Archivos Este inventario léxico lematizado del habla oral contemporánea de la ciudad de Santander (España) está integrado por los siguientes archivos: Volumen 1. Lema, categoría mayor, forma y flexión Volumen 2. Lema, categoría menor, forma y flexión Volumen 3. Categoría mayor, lema, forma y flexión Volumen 4. Categoría menor, lema, forma y flexión Volumen 5. Lema, categoría mayor y variables sociales Volumen 6. Lema, categoría menor y variables sociales Volumen 7. Lema en orden inverso Volumen 8. Forma en orden inverso Está elaborado a partir de los datos completos constituidos por las 54 entrevistas semidirigidas que integran el corps PRESEEA-Santander. Estos datos están peestratificados en torno a las variables de sexo, edad y nivel educativo, conforme a las directrices marcadas en el Proyecto para el Estudio Sociolingüístico del Español de España y América (PRESEEA)(Moreno Fernández 2021). -------------------------- LICENCIAS Y PRIVACIDAD -------------------------- 1. Licencias Creative Commons Attribution. The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more 2. Privacidad -------------------------- OTROS -------------------------- 1. Diccionario de datos El objetivo de este inventario es reunir el léxico extraído de las entrevistas orales, grabadas y transcritas, del núcleo urbano de una ciudad española, como parte del proyecto arriba mencionado. Un inventario léxico constituye un recurso de primer orden para abordar el estudio del vocabulario desde parámetros tanto cualitativos como cuantitativos. Su finalidad estriba en poner a disposición de la comunidad científica internacional una estructura que facilite la localización de palabras y su uso investigador en estudios lingüísticos y aplicados, como los propios de la sociolingüística y la lexicometría, entre otros.