Clasificación automática de contratos del sector público
Automatic classification of public procurement contracts
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/17854Registro completo
Mostrar el registro completo DCAutoría
Ruiz Salmón, JuliaFecha
2019-09-09Director/es
Derechos
Atribución-NoComercial-SinDerivadas 3.0 España
Palabras clave
Preprocesado
Contrato público
Tf-idf
Stemming
Algoritmo
Clasificación
Data preprocessing
Public procurement contract
Algorithm
Classification
Resumen/Abstract
RESUMEN: Este proyecto tiene como objetivo el desarrollo de un producto software que permita realizar una clasificación automática, con la máxima precisión posible, del mayor número de contratos públicos del Gobierno de Cantabria, en relación a unas dimensiones predefinidas: Naturaleza del gasto y Objeto de administración.
La fuente de datos contiene una serie de textos descriptivos de los contratos de los años 2014-2015 y la clase correspondiente a la que pertenece el contrato según la dimensión. Los textos constan de diferente vocabulario que describe las solicitudes de contrato. Gran parte de este vocabulario, e incluso simbología, carece de significado a la hora de clasificar los contratos en las diferentes clases.
Por lo tanto, el propósito de este proyecto es aplicar diversas técnicas de preprocesado de los datos de entrada para eliminar el vocabulario irrelevante de los textos y conseguir que contengan únicamente el vocabulario necesario y relevante con respecto a la categoría de clasificación.
El tamaño variable y la estructura sin formato de los textos no son procesables por los algoritmos de clasificación. Así, el siguiente paso es convertir los textos en vectores de características numéricas a través del cálculo del term frequency-inverse document frequency (tf-idf).
Por último, se aplican diferentes algoritmos de clasificación pertenecientes al aprendizaje supervisado: regresión logística, máquinas de vector soporte (SVM), árboles de decision, Random Forest y el clasificador Naive Bayes.
Los resultados se analizan a través de tres métricas diferentes (accuracy, matriz de confusión, precision y recall), que muestran diversas conclusiones para cada uno de los clasificadores empleados.
ABSTRACT: The aim of this project is to develop a software product that is able to classify automatically, with the highest possible accuracy, the largest number of public procurement contracts from the Government of Cantabria, in relation to predefined dimensions: Naturaleza del gasto y Objeto de administración.
Available data contains a text collection describing public procurement contracts from 2014 and 2015, and the corresponding category to which the contract belongs according to the dimension. Texts consist of different vocabulary that describes the contract. Most of words and symbology do not provide relevant information to classify the contracts into different categories.
Therefore, the purpose of this project is to apply several data preprocesssing techniques to take out irrelevant vocabulary from the texts and to exclusively obtain the necessary and important words regarding the category of classification.
The variable size and unformatted structure of the texts are not actionable by the algorithms. Thus, the next step is to convert the texts into numerical characteristics vectors through the term frequency-inverse document frequency (tf-idf).
Finally, some supervised learning algorithms are applied: logistic regression, support vector machines (SVM), decision trees, Random Forest and Naive Bayes classifier.
Results are analysed using three metrics (accuracy, confusion matrix, precision and recall), showing relevant conclusions for each of the classifiers employed.