Longitud léxica y frecuencia de uso en el español contemporáneo: un análisis estadístico de corpus
Lexical length and frequency of use in contemporary Spanish: a statistical corpus analysis
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/35467DOI: 10.14198/ELUA.26993
ISSN: 2171-6692
ISSN: 0212-7636
Registro completo
Mostrar el registro completo DCFecha
2025Derechos
Attribution-NonCommercial-ShareAlike 4.0 International
Publicado en
Estudios de Lingüística, 2025, 43, 161-181
Editorial
Universidad de Alicante
Enlace a la publicación
Palabras clave
Longitud léxica
Frecuencia de uso
Formación de palabras
Análisis estadístico
Español contemporáneo
Longitud lingüística
Lexical length
Frequency of use
Formation processes
Statistical analysis
Contemporary Spanish
Linguistic length
Resumen/Abstract
En esta investigación se aborda la relación inversa que se produce en español entre la longitud léxica y la frecuencia de uso considerando los procesos de formación de palabras. Este objetivo central se aborda al tener en cuenta la estructura (derivación) de las palabras, para lo cual se analiza cuantitativamente la relación entre la longitud de las palabras, la frecuencia de uso, la formación de palabras y el estilo de escritura. Se revisan los análisis previos, basados exclusivamente en el cómputo de caracteres (Takefuta 1981; Yoshioka 1996), y también aquellos estudios que consideran la sílaba como unidad de medida de longitud (Herdan 1956; Gómez Guinovart 1999). En ambos casos se muestran sus carencias a través del análisis estadístico. Cuando la longitud de la palabra se mide utilizando el número de sílabas, el primer término de la distribución de frecuencia, las palabras de una sílaba, se convierten en un grupo que incluye palabras de distinto número de fonemas. De esta forma, el uso de unidades de medida aproximadas, como las sílabas, da como resultado observaciones aproximadas que no proporcionan una imagen precisa de la situación. Los resultados apuntan a que la longitud de las formas debe observarse desde una perspectiva no física, sino lingüística. Se considera en este estudio que la longitud lingüística de una palabra debe medirse desde la perspectiva de la morfología derivacional teórica y práctica, es decir, mediante prefijos y sufijos, que son unidades de morfología derivada. Lo que hace posible este tipo de análisis es, en definitiva, el estudio de frecuencia de los afijos. La metodología que se sigue es la correspondiente al análisis estadístico con medidas básicas como la distribución de frecuencia, la desviación estándar y otras fórmulas de creación propia en el programa R (R Core Team 2021). Asimismo, empleamos ggplot2 (Wickham 2016) para crear gráficos. Los textos sometidos a análisis forman parte de un corpus del español contemporáneo hablado y escrito reunido ad hoc para el estudio. Esta selección pretende aportar una solución general a una variedad de materiales y no una visión particular de un único material, lo que da como resultado una conclusión no definitiva, pero sí más fiable.
This research addresses the inverse relationship that occurs in Spanish between lexical length and
frequency of use, considering the word formation processes. This central objective is addressed by
taking into account the structure (derivation) of words, for which the relationship between word
length, frequency of use, word formation and writing style is quantitatively analyzed. Previous
analyzes are reviewed, based exclusively on the counting of characters (Takefuta 1981; Yoshioka
1996) and also those studies that consider the syllable as a unit of length measurement (Herdan 1956;
Gómez Guinovart 1999). In both cases their shortcomings are shown through statistical analysis. When
word length is measured using the number of syllables, the first term of the frequency distribution,
one-syllable words, becomes a group that includes words of various numbers of phonemes. In
this way, the use of approximate units of measurement, such as syllables, results in approximate
observations that do not provide an accurate picture of the situation. The results suggest that the
length of the shapes should be observed from a linguistic but not a physical perspective. In this
study, it is considered that the linguistic length of a word should be measured from the perspective
of theoretical and practical derivational morphology, that is, through prefixes and suffixes, which are
units of derivational morphology. What makes this type of analysis possible is, ultimately, the study of
the frequency of affixes. The methodology followed is that corresponding to statistical analysis with
basic measures such as frequency distribution, standard deviation, and other self-created formulas
in the R program (R Core Team 2021), such as concentration analysis. Likewise, we used ggplot2
(Wickham 2016) to create graphs. The texts subjected to analysis are part of a corpus of contemporary
spoken and written Spanish assembled ad hoc for the study. This selection is intended to provide a
general solution to a variety of materials and not a particular vision of a single material, which results
in a conclusion that is not definitive, but more reliable.
Colecciones a las que pertenece
- D13 Artículos [219]