Análisis clúster: semejanzas socioeconómicas de las CCAA en el año 2014
Cluster analysis: socio-economic similarities of the Autonomous Communities during 2014
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/11070Registro completo
Mostrar el registro completo DCAutoría
Herrero Gutiérrez, IsabelFecha
2016-09Director/es
Derechos
©Isabel Herrero Gutiérrez
Palabras clave
Análisis clúster
Semejanza
Comunidades autónomas
Método jerárquico
Método no jerárquico
Cluster analysis
Similarity
Autonomous communities
Hierarchical method
Non-hierarchical method
Resumen/Abstract
RESUMEN: El análisis clúster o análisis de conglomerados es un método que permite realizar divisiones de los elementos de una población en grupos, denominados clusters o conglomerados.
Se trata de una técnica del análisis multivariante empleada con carácter únicamente descriptivo. Es por eso que, hoy en día, muchas áreas de estudio (economía, biología, medicina…) estén aumentando su uso.
La creación de los grupos se efectúa de acuerdo a un criterio de semejanza (en nuestro caso la distancia euclídea al cuadrado). Es decir, los individuos que sean similares (cuando la distancia entre ellos sea mínima) se van a agrupar formando un mismo clúster.
Por lo tanto, el interés de este análisis radica en la creación de grupos que a nivel interno sean muy similares y entre sí sean lo más dispares posibles.
De este modo, se consigue una clasificación útil a la hora de identificar, por ejemplo, diferencias y semejanzas entre individuos o patrones de comportamiento dentro de la población.
Se pueden distinguir dos métodos a la hora de realizar el análisis: el método jerárquico (devuelve relaciones anidadas entre los individuos) y el método no jerárquico (distribuye a los individuos en un número K de conglomerados independientes determinados inicialmente).
A lo largo del trabajo se realiza una exposición teórica de los criterios de semejanza (medidas de distancia y algoritmos de agrupación) a emplear en el análisis para garantizar que se mantenga el criterio de homogeneidad intra-grupo y de heterogeneidad inter-grupo.
La elección del método y de la medida de semejanza a emplear será de gran importancia a la hora de realizar el análisis, puesto que los resultados varían en función de la elección realizada. Por ello, en nuestro trabajo se llevan a cabo diversas pruebas mediante el uso de múltiples algoritmos, tanto a nivel jerárquico como no jerárquico.
El objetivo de nuestro estudio es, empleando el análisis clúster o de conglomerados a una serie de indicadores sociales y económicos que caracterizan a las comunidades autónomas, visualizar aquellas que presentan ciertas semejanzas y lograr agruparlas para, finalmente, realizar una identificación de aquellos factores que caracterizan dichas agrupaciones y que son reflejo de sus similitudes.
ABSTRACT: The cluster analysis is a method that allow us to make divisions of the individuals of a population. These divisions or groups are called clusters.
This kind of analysis is considered a multivariate analysis technique that it is only use with one aim: give us a descriptive analysis of the population's individuals. That’s why, nowadays, many study areas (like economic, biology or medicine) are increasing it uses.
The creation of groups is performed according to a similarity criteria (in our case, it is the squared Euclidean distance). That is, individuals who are similar (that happens when the distance between them is minimal) are to be grouped forming a same cluster.
Therefore, the interest of this analysis resides on the creation of groups that are internally as similar as possible and whose differences (between clusters) are maximum.
In this way, groups that have been formed as result of employing the cluster analysis can be use, for example, to identify similarities between individuals or to obtain a pattern of behavior within the population.
We can distinguish between two different methods: the hierarchical method (which returns nested relations between individuals) and non-hierarchical method (which distributes individuals in a K number of independent clusters that has to be determined at an initial moment).
Throughout this work, it is performed a theoretical exposure of similarity criteria (dis-tance measurements and group algorithms) that is to be used in the analysis to guarantee that the criterion of intragroup homogeneity and inter-group heterogeneity is maintained.
The choice of the method and the measurement of similarity that is employed when you are performing the analysis will be of great importance, considering that results vary according to the choice that has been made previously. For that reason, on the study we have made various tests using different algorithms, both hierarchical as non-hierarchical level.
The aim of our study is, using the cluster analysis into a series of social and economic indicators that characterize the autonomous communities, verify those who are similar and, after that, put them together, making an identification of those factors that characterize these groups and reflect their similarities.