Sección : Intervalos de confianza
Previo : Modelo lineal
Siguiente : Ejercicios


Normalidad asintótica


Para la construcción de intervalos de confianza se necesita conocer la ley de los estimadores a partir de los cuales ellos se construyen. Aparte del caso de las muestras gaussianas, esto no es siempre posible. Además es frecuente que el cálculo de las leyes, que es posible realizar efectivamente para muestras pequeñas, sea irrealizable para muestras de gran tamaño. Por tanto buscamos reemplazar la ley del estimador por una aproximación más simple, que permite construir intervalos de confianza cuyo nivel no se garantiza más que para muestras de gran tamaño.

Definición 3.5   Sea $ (X_1,\ldots,X_n)$ una muestra de la ley $ P_\theta$. Para todo $ n$, sean $ T_{1,n}\leq T_{2,n}$ dos estadígrafos, funciones de la muestra $ (X_1,\ldots,X_n)$.
Decimos que $ [T_{1,n}\,,\,T_{2,n}]$ es un intervalo de confianza, de nivel asintótico $ 1\!-\!\alpha$ para $ \theta$, si:

$\displaystyle \lim_{n\rightarrow\infty}\mathbb {P}[ \theta \in [T_{1,n}\,,\,T_{2,n}]\,]=1-\alpha\;.
$


Lo más frecuente es que esta noción se emplea cuando se dispone de un estimador consistente de $ \theta$ cuya ley es asintóticamente normal, lo que resulta, en general, como consecuencia del Teorema del Límite Centrado. Vamos a ver inmediatamente el caso de la estimación de la esperanza.

Teorema 3.6   Sea $ (X_1,\ldots,X_n)$ una muestra de una ley de probabilidad de esperanza $ \mu$ y de varianza $ \sigma^2$. Sean $ \overline{X}_n$ su media empírica y $ S^2_n$ su varianza empírica. Pongamos:

$\displaystyle Z_n =
\sqrt{\frac{n}{\sigma^2}}(\overline{X}_n-\mu)$   y$\displaystyle \quad
Z'_n = \sqrt{\frac{n}{S^2_n}}(\overline{X}_n-\mu)\;.
$

Entonces las leyes de las variables aleatorias $ Z_n$ y $ Z'_n$ convergen a la ley normal $ {\cal
N}(0,1)$.


Este resultado, que es una reformulación del Teorema del Límite Centrado clásico, permite definir intervalos de dispersión aproximados para $ Z_n$ y $ Z'_n$. Fijemos el nivel $ 1\!-\!\alpha$, y denotemos por $ [-z_\alpha\,,\,z_\alpha]$ al intervalo de dispersión optimal de la ley $ {\cal
N}(0,1)$. Entonces:

$\displaystyle \lim_{n\rightarrow\infty} \mathbb {P}[\, Z_n\in [-z_\alpha\,,\,z_...
...rrow\infty} \mathbb {P}[\, Z'_n\in [-z_\alpha\,,\,z_\alpha]\, ]
=1-\alpha\;.
$


Se deducen inmediatamente dos intervalos de confianza de nivel asintótico $ 1\!-\!\alpha$ para $ \mu$:

$\displaystyle \left[\,\overline{X}_n-z_\alpha\sqrt{\frac{\sigma^2}{n}}\,,\,
\overline{X}_n+z_\alpha\sqrt{\frac{\sigma^2}{n}}\,\right]$   y$\displaystyle \quad
\left[\,\overline{X}_n-z_\alpha\sqrt{\frac{S^2_n}{n}}\,,\,
\overline{X}_n+z_\alpha\sqrt{\frac{S^2_n}{n}}\,\right]\;.
$



El uso de la normalidad asintótica va mucho más allá de la estimación de medias. Como ejemplo, vamos a ver a continuación la estimación de cuantiles de una ley continua. Consideremos una muestra $ (X_1,\ldots,X_n)$ de una ley continua. Denotaremos por $ f$ su densidad, $ F$ su función de distribución y $ Q$ su función cuantil. Dado un número real $ u\in]0,1[$, el problema consiste en estimar $ Q(u)$ (por ejemplo, si $ u=0.5$, $ Q(u)$ es la mediana). A la muestra $ (X_1,\ldots,X_n)$ está asociada una función cuantil empírica. Su valor en $ u$ es el $ i$-ésimo estadígrafo de orden $ X_{(i)}$, donde $ i$ es el entero tal que $ i\!-\!1<nu\leq i$. Denotaremos por $ T_n$ a esta variable aleatoria. Es un estimador consistente de $ Q(u)$. Se puede escribir explícitamente su densidad en función de $ f$ y $ F$:

$\displaystyle f_{T_n}(x) = \frac{n!}{(i-1)!(n-i)!}F^{i-1}(x)(1-F(x))^{n-i}f(x)\;.
$

Sin embargo, en general, no existe una expresión explícita para la función de distribución ni para la función cuantil de $ T_n$ y el cálculo numérico de los intervalos de dispersión puede ser problemático para valores grandes de $ n$. Se demuestra que la ley de $ T_n$ es asintóticamente normal.

Teorema 3.7   Denotemos:

$\displaystyle Z_n = f(Q(u))\sqrt{\frac{n}{u(1-u)}}(T_n-Q(u))\;.
$

La ley de $ Z_n$ converge a la ley normal $ {\cal
N}(0,1)$.


Como ejemplo de aplicación, volvamos a la ley uniforme $ {\cal U}(0,\theta)$ (ver 1.3). Sea $ (X_1,\ldots,X_n)$ una muestra de esta ley y $ T_n$ el cuantil empírico de orden $ u$; este es un estimador consistente de $ Q(u)=\theta u$. De acuerdo con el teorema 3.7, la variable aleatoria

$\displaystyle Z_n = \sqrt{\frac{n}{u(1-u)}}\left(\frac{T_n}{\theta}-u\right)\;,
$

converge a la ley normal $ {\cal
N}(0,1)$. De aquí se deduce el siguiente intervalo de confianza, de nivel asintótico $ 1\!-\!\alpha$ para $ \theta$.

$\displaystyle \left[\,T_n\left(u+z_\alpha\sqrt{\frac{u(1-u)}{n}}\right)^{-1}\,,\,
T_n\left(u-z_\alpha\sqrt{\frac{u(1-u)}{n}}\right)^{-1}\,\right]\;.
$



En la práctica, el tamaño de la muestra, aunque sea grande, es siempre un número fijo. Al emplear la normalidad asintótica, evidentemente nos cuestionamos la calidad de la aproximación normal para un $ n$ fijo. ¿A partir de que valor de $ n$ es legítimo reemplazar una ley exacta por su aproximación normal para el cálculo de un intervalo de confianza? Es imposible dar cotas válidas para todas las situaciones. A modo de ejemplo, consideremos tres familias de leyes asintóticamente normales, las leyes binomiales, las leyes de Poisson y las leyes gamma (que incluyen a las leyes de chi-cuadrado como caso particular). La ley $ {\cal B}(n,p)$, la ley $ {\cal P}(n)$ y la ley $ {\cal
G}(n,\lambda)$ están cerca de la ley normal de la misma esperanza y la misma varianza, cuando $ n$ es grande. La tabla siguiente da las distancias de Kolmogorov-Smirnov entre algunas de estas leyes y sus aproximaciones normales (la distancia de Kolmogorov-Smirnov es la diferencia maximal absoluta entre las funciones de distribución).

Ley
$ {\cal B}(10,0.5)$ $ {\cal B}(10,0.2)$ $ {\cal
B}(100,0.2)$ $ {\cal P}(30)$ $ {\cal P}(100)$ $ {\cal P}(200)$
$ D_{KS}$ $ 0.0027$ $ 0.0295$ $ 0.0099$ $ 0.0121$ $ 0.0066$ $ 0.0047$
Ley
$ {\cal G}(10,1)$ $ {\cal G}(50,1)$ $ {\cal
G}(100,1)$ $ {\cal X}^2(30)$ $ {\cal X}^2(50)$ $ {\cal X}^2(100)$
$ D_{KS}$ $ 0.0421$ $ 0.0188$ $ 0.0133$ $ 0.0344$ $ 0.0266$ $ 0.0188$

Los logiciales son capaces de realizar cálculos precisos de cualquier cuantil para todas las leyes usuales. Como regla general, debe evitarse emplear la normalidad asintótica cuando es posible realizar un cálculo exacto.



Sección : Intervalos de confianza
Previo : Modelo lineal
Siguiente : Ejercicios