Uno de los avances importantes de la estadística no paramétrica en las últimas décadas es el método bootstrap, introducido formalmente por B. Efron en1979. Este método permite estimar las varianzas, los errores típicos y los intervalos de confianza, entre otros parámetros, en situaciones complicadas en las que resulta difícil o imposible utilizar enfoques paramétricos (1).
¿Cómo elegir el número de submuestreos?
Cuando se utiliza el método bootstrap, la elección del número de submuestreos (B) depende del estadístico en estudio y de la complejidad de la situación. B. Efron y R. Ibshirani (1993) ofrecen algunas reglas generales basadas en su experiencia. Por lo general, se considera que utilizar alrededor de 200 réplicas es suficiente para estimar un error estándar, pero para obtener intervalos de confianza se suelen requerir valores mucho mayores de B, como 1000 o 2000 (1).
Código en R:
A continuación se muestra el código en R para la determinación de la varianza, sesgo e intervalos de confianza para la mediana utilizando Bootstrapping:
### Paquetes ### library(nortest) ### Datos ### datos <- c(13.0,10.8,12.7,14.2,10.5,11.3,15.7,19.8,16.2,20.3,9.9,21.4) ### Bootstrap ### n <- length(datos) k <- 100 NOMBRES=NULL i=1 while(i<=k) { NOMBRES=c(NOMBRES,paste("M",i,sep="")) i=i+1 } NOMBRES TABLA=NULL i=1 while(i<=k) { vtemp=sample(datos,n,replace=TRUE) vtemp=c(vtemp,median(vtemp)) TABLA=rbind(TABLA,vtemp) i=i+1 } colnames(TABLA)[ncol(TABLA)]="Mediana" rownames(TABLA)=NOMBRES TABLA mediana <- TABLA[,13] hist(mediana, main="HISTOGRAMA DE LA MEDIANA", freq=FALSE) lines(density(mediana), col="red", lwd=2) ### Evaluación de normalidad ### lillie.test(mediana) Lilliefors (Kolmogorov-Smirnov) normality test data: mediana D = 0.11985, p-value = 0.001207
#Se determina que la mediana no tiene una distribución normal sesgo= mean(mediana)-median(datos) sesgo
[1] 0.4985
varianza=var(mediana)*(k-1)/k varianza
[1] 3.088585
# IC usando las cuantilas muestrales ICinf=c(quantile(mediana, probs=0.025))
> ICinf 2.5% 11.51375
ICsup=c(quantile(mediana, probs=0.975))
> ICsup 97.5% 17.525
hist(mediana, main="HISTOGRAMA DE LA MEDIANA", freq=FALSE, xlim=c(7, 20)) lines(density(mediana), col="red", lwd=2) abline(v=ICinf, col="green", lwd=2, lty = 2) abline(v=ICsup, col="green", lwd=2, lty = 2)
Una limitación del método bootstrap es que aún cuando dos personas diferentes apliquen el método bootstrap, así sea con los mismos datos, no obtendrán la misma estimación de la desviación estándar, varianza o intervalo de confianza. Esto contradice lo que Gleser (1996) denomina "la primera ley de la estadística aplicada", que establece que "dos individuos que utilicen el mismo método estadístico con los mismos datos deberían llegar a la misma conclusión". Por lo tanto, en este caso, el lector no podrá guiarse de los resultados acá obtenidos, ya que obtendrá otros, aún cuando utilice los mismos datos (1).
Referencias
(1) HOLLANDER M., WOLFE D. A. y otro. Nonparametric Statistical Methods. Tercera edición. Wiley Series in Probability and Statistics. Páginas 420 - 427