Métodos de re-muestreo para muestras aleatorias con pesos
Resampling methods for random samples with weights
Ver/ Abrir
Identificadores
URI: http://hdl.handle.net/10902/13344Registro completo
Mostrar el registro completo DCAutoría
Ortega del Campo, LucíaFecha
2018-02-26Director/es
Derechos
© Lucía Ortega del Campo
Resumen/Abstract
RESUMEN: En ocasiones no es posible analizar todos los elementos de una población, por ello se selecciona una muestra, entendiendo por muestra una parte representativa de la población. El muestreo es una herramienta de la investigación científica, cuya función básica es determinar que parte de la población debe examinarse, con la finalidad de hacer inferencias sobre dicha población.
En este trabajo hemos desarrollado diferentes métodos de re-muestreo para optimizar la generación de muestras aleatorias a partir de modelos conocidos, que, como es común en estadística cada uno de los elementos de la muestra llevan asignados un peso o probabilidad. En algunos casos, los pesos asociados a los elementos pueden ser negativos, lo cual nos lleva a tener algunos problemas dado que los pesos negativos ya no podemos asociarlos a probabilidades porque como bien sabemos una probabilidad no puede ser negativa. Dicha optimización se basa en partir de muestras cuyos elementos tienen asignados pesos más uno y pesos menos uno y, a través de los métodos conseguir una muestra equivalente a la inicial que solamente tenga pesos más uno. El primer método desarrollado se basa en la realización de histogramas y lo hemos denominado “Método de Histograma”, el segundo método se basa en eliminar los pares de elementos positivos y negativos más cercanos y lo hemos denominado “Método de Eliminación” y el tercer método se basa en re-muestreo con probabilidad basada en kernel y lo hemos llamado “Método de Re-muestreo”. Los tres métodos han sido implementados con la ayuda del paquete estadístico R. Además, para estudiar qué método es el más eficaz hemos basado nuestro estudio en estimadores como la media, varianza, desviación típica, curtosis, skewness y el test no paramétrico de Kolmogorov-Smirnov. Llegando a la conclusión de que tras la optimización de los distintos métodos se ha evaluado su respuesta en distintas condiciones, observando, en general, que el método de eliminación da mejores resultados, pudiendo representar de una forma bastante aproximada la distribución de probabilidad original.
ABSTRACT: Sometimes, it is not possible to see all elements of a population, so a sample is selected, meaning a representative sample of the population. The sampling is a tool of scientific research, whose basic function is to determine what part of the population should be examined, in order to make inferences about that population.
In this project, different analysis methods have been developed to optimize the generation of random samples of known models, which, as is common in statistics, each of the elements of the sample are assigned to a weight or probability. In some cases, the weights associated with the elements can be negative, which leads us to have some problems given that negative weights can no longer be associated with probabilities because as we know a probability can not be negative. Said optimization is based on starting from samples whose elements are assigned weights plus one and weights minus one and, through the methods, obtain a sample equivalent to the initial one that only has weights plus one. The first method is based on making histograms and we have called it "Histogram method", the second method is based on eliminating the pairs of closest positive and negative elements and we have called it "Elimination method" and the third method is based on re-sampling with kernel-based probability and we have called it "Re-sampling method". The three methods have been implemented with the help of the statistical package R. In addition, to study which method is the most effective, we have based our study on estimators such as mean, variance, standard deviation, kurtosis, skewness and the non-parametric Kolmogorov-Smirnov test. Concluding that after the optimization of the different methods, their response has been evaluated in different conditions, observing, in general, that the method of elimination of the best results, being able to present an approximate distribution of the original probability.