Longitud léxica y frecuencia de uso en el español contemporáneo: un análisis estadístico de corpus

Martínez Martínez, Inmaculada; Ueda, Hiroto

doi:10.14198/ELUA.26993

Ver/Abrir

LongitudLéxicaFrecue ... (347.1Kb)

Identificadores

URI: https://hdl.handle.net/10902/35467

DOI: 10.14198/ELUA.26993

ISSN: 2171-6692

ISSN: 0212-7636

Fecha

2025

Derechos

Attribution-NonCommercial-ShareAlike 4.0 International

Publicado en

Estudios de Lingüística, 2025, 43, 161-181

Editorial

Universidad de Alicante

Enlace a la publicación

https://doi.org/10.14198/ELUA.26993

Palabras clave

Longitud léxica

Frecuencia de uso

Formación de palabras

Análisis estadístico

Español contemporáneo

Longitud lingüística

Lexical length

Frequency of use

Formation processes

Statistical analysis

Contemporary Spanish

Linguistic length

Resumen/Abstract

En esta investigación se aborda la relación inversa que se produce en español entre la longitud léxica y la frecuencia de uso considerando los procesos de formación de palabras. Este objetivo central se aborda al tener en cuenta la estructura (derivación) de las palabras, para lo cual se analiza cuantitativamente la relación entre la longitud de las palabras, la frecuencia de uso, la formación de palabras y el estilo de escritura. Se revisan los análisis previos, basados exclusivamente en el cómputo de caracteres (Takefuta 1981; Yoshioka 1996), y también aquellos estudios que consideran la sílaba como unidad de medida de longitud (Herdan 1956; Gómez Guinovart 1999). En ambos casos se muestran sus carencias a través del análisis estadístico. Cuando la longitud de la palabra se mide utilizando el número de sílabas, el primer término de la distribución de frecuencia, las palabras de una sílaba, se convierten en un grupo que incluye palabras de distinto número de fonemas. De esta forma, el uso de unidades de medida aproximadas, como las sílabas, da como resultado observaciones aproximadas que no proporcionan una imagen precisa de la situación. Los resultados apuntan a que la longitud de las formas debe observarse desde una perspectiva no física, sino lingüística. Se considera en este estudio que la longitud lingüística de una palabra debe medirse desde la perspectiva de la morfología derivacional teórica y práctica, es decir, mediante prefijos y sufijos, que son unidades de morfología derivada. Lo que hace posible este tipo de análisis es, en definitiva, el estudio de frecuencia de los afijos. La metodología que se sigue es la correspondiente al análisis estadístico con medidas básicas como la distribución de frecuencia, la desviación estándar y otras fórmulas de creación propia en el programa R (R Core Team 2021). Asimismo, empleamos ggplot2 (Wickham 2016) para crear gráficos. Los textos sometidos a análisis forman parte de un corpus del español contemporáneo hablado y escrito reunido ad hoc para el estudio. Esta selección pretende aportar una solución general a una variedad de materiales y no una visión particular de un único material, lo que da como resultado una conclusión no definitiva, pero sí más fiable.

This research addresses the inverse relationship that occurs in Spanish between lexical length and frequency of use, considering the word formation processes. This central objective is addressed by taking into account the structure (derivation) of words, for which the relationship between word length, frequency of use, word formation and writing style is quantitatively analyzed. Previous analyzes are reviewed, based exclusively on the counting of characters (Takefuta 1981; Yoshioka 1996) and also those studies that consider the syllable as a unit of length measurement (Herdan 1956; Gómez Guinovart 1999). In both cases their shortcomings are shown through statistical analysis. When word length is measured using the number of syllables, the first term of the frequency distribution, one-syllable words, becomes a group that includes words of various numbers of phonemes. In this way, the use of approximate units of measurement, such as syllables, results in approximate observations that do not provide an accurate picture of the situation. The results suggest that the length of the shapes should be observed from a linguistic but not a physical perspective. In this study, it is considered that the linguistic length of a word should be measured from the perspective of theoretical and practical derivational morphology, that is, through prefixes and suffixes, which are units of derivational morphology. What makes this type of analysis possible is, ultimately, the study of the frequency of affixes. The methodology followed is that corresponding to statistical analysis with basic measures such as frequency distribution, standard deviation, and other self-created formulas in the R program (R Core Team 2021), such as concentration analysis. Likewise, we used ggplot2 (Wickham 2016) to create graphs. The texts subjected to analysis are part of a corpus of contemporary spoken and written Spanish assembled ad hoc for the study. This selection is intended to provide a general solution to a variety of materials and not a particular vision of a single material, which results in a conclusion that is not definitive, but more reliable.

Colecciones a las que pertenece

D13 Artículos [245]

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-ShareAlike 4.0 International