Implementación y evaluación de algoritmos de clustering de datos mixtos
Implementation and evaluation of mixed data clustering algorithms
Ver/ Abrir
Identificadores
URI: https://hdl.handle.net/10902/31088Registro completo
Mostrar el registro completo DCAutoría
Sáenz Villaverde, FernandoFecha
2023-11Director/es
Derechos
Attribution-NonCommercial-NoDerivatives 4.0 International
Palabras clave
Distancia de Gower
Clúster
Regresión logística
Predicción
Curva ROC
Gower distance
Clustering
Logistic regression
Prediction
ROC curve
Resumen/Abstract
Este documento contiene información sobre el desarrollo de un código para la implementación y evaluación de algoritmos de clustering para un conjunto de datos mixto.
Normalmente, los algoritmos de clustering utilizan cierta métrica por la que considerar si dos datos cualesquiera son lo suficientemente similares como para agruparlos. Estas métricas usualmente son la distancia euclídea en el caso de datos de tipo numérico y el índice de Jaccard en el caso de datos categóricos. Sin embargo, en este caso se trabaja con un conjunto de datos mixtos, con datos tanto numéricos como categóricos, por lo que la métrica seleccionada es la distancia de Gower.
El objetivo principal del trabajo es implementar un algoritmo de clustering de datos mixtos, evaluando su desempeño con algoritmos de clustering de datos numéricos o categóricos exclusivamente.
Para la realización de este proyecto se ha utilizado un conjunto de datos mixtos proveniente del proyecto ARCEUS (Universidad de Cantabria e Instituto de Investigación Marqués de Valdecilla).
This document contains information about the development of a code for the implementation and evaluation of clustering algorithms for a mixed dataset.
Usually, clustering algorithms use a certain metric to determine if two data points are sufficiently similar to be grouped together. These metrics are typically Euclidean distance for numerical data and the Jaccard index for categorical data. However, a mixed dataset, that contains both numerical and categorical data, it is used in this project, so the selected metric is Gower’s distance.
The main objective of the project is the implementation of a clustering algorithm for mixed data and evaluate its performance against clustering algorithms designed for exclusively numerical or categorical data.
To carry out this project, a mixed data from the ARCEUS project (Universidad de Cantabria and Instituto de Investigation Marqués de Valcecilla) has been used.