Regresión logística penalizada
Penalized logistic regression
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/12842Registro completo
Mostrar el registro completo DCAutoría
Sancibrián Lana, VíctorFecha
2017-06Director/es
Derechos
Atribución-NoComercial-SinDerivadas 3.0 España
Palabras clave
LASSO
Regresión en cresta
Regularización
IRLS
Regresión logística
Ridge regression
Penalization
Logistic regression
Resumen/Abstract
RESUMEN: En este Trabajo de Fin de Grado presentamos un algoritmo para la estimación de modelos de regresión logística penalizados mediante la técnica de regresión en cresta. La disponibilidad de bases de datos masivas ha provocado que muchos modelos de regresión padezcan sobreajuste. Así, Tibshirani (1996) introdujo el ‘Least Absolute Shrinkage and Selection Operator’ (LASSO), un método de estimación que ayudaba a controlar el sobreajuste introduciendo restricciones al tamaño de los coeficientes estimados, de forma que son contraídos hacia cero en función de un parámetro de restricción. Desafortunadamente, es más complicado encontrar trabajos en la literatura donde este tipo de regularización se extienda a modelos econométricos donde la variable dependiente es limitada. Dado que dichos problemas son de interés en economía, este trabajo se centra en la aplicación de estas técnicas de regularización al caso particular de modelos de elección binaria. Para ello, revisamos la literatura existente sobre los Modelos Lineales Generalizados y funciones de verosimilitud penalizadas. Así, se pone de manifiesto que algunos de los resultados nos permiten desarrollar un algoritmo para estimar modelos de regresión logística penalizada. Adicionalmente, realizamos un ejercicio de simulación para comparar los estimadores obtenidos mediante las técnicas de regresión LASSO y regresión en cresta. Además, también estudiamos el rol que juega el parámetro de contracción en la estimación de estos modelos penalizados.
ABSTRACT: In this dissertation we present a new algorithm to estimate penalized (ridge) logistic regression. With the availability of huge data sets, it is now frequent the curse of overfitting in regression models. For the standard linear regression model, in Tibshirani (1996) it was introduced the Least Absolute Shrinkage and Selection Operator (LASSO). This estimation technique guarded against overfitting by introducing a penalty term that somehow shrinkages some subset of parameter estimates towards some zero pre-specified values. Unfortunately, it is much more difficult to find papers where the LASSO approach is extended to regression models where the dependent variable is limited. As in economic analysis is rather frequent to find this type of problem, this dissertation is devoted to the study of how to apply the LASSO approach to the particular case of binary discrete choice models. In order to do so, we first revise the literature of Generalized Linear Models and penalized likelihood approaches. It turns out that some standard results of these fields provide us with tools to develop an algorithm to fit penalized logistic regression models. As an extension we compare through a simulation exercise the results obtained with our estimator against the corresponding LASSO estimators. We study also the crucial role that plays in the fitting of these models the so-called shrinkage parameter.