Sección : Intervalos de confianza
Previo : Intervalos de confianza
Siguiente : Muestras gaussianas


Definiciones


En la Estadística, al igual que en la Física, la Química o la Biología, dar un resultado sin indicar su precisión tiene poco interés, porque no es reproducible. Retomemos el ejemplo de lanzar una moneda alterada, para la cual la probabilidad $ p$ de salir ''cara'' es desconocida. La frecuencia empírica de ''cara'' es el estimador natural de $ p$. Si en $ 100$ lances obtenemos $ 60$ veces ''cara'', la estimación (puntual) propuesta para $ p$ es $ 0.60$. Pero este resultado no se puede reproducir. Si volvemos a realizar los $ 100$ lances, probablemente obtendremos una estimación diferente. En lugar de dar una estimación puntual, propondremos un intervalo, seleccionado de manera de controlar por un nivel de confianza, las probabilidades que el resultado tendría de ser confirmado si se repitiera el experimento. Buscamos distinguir los valores del parámetro para los cuales la observación ($ 60$ ''caras'' en $ 100$ lances) es plausible, de los valores para los cuales es muy poco verosímil. Denotemos por $ F$ la frecuencia empírica y sea $ n$ el número de lances. La variable aleatoria $ nF$ sigue la ley binomial $ {\cal B}(n,p)$. Un cálculo numérico da los siguientes valores.

$\displaystyle Q_{{\cal B}(100,0.523)}(0.95) = 60$   y$\displaystyle \quad
Q_{{\cal B}(100,0.682)}(0.05) = 60\;.
$


Para todo valor de $ p$ inferior a $ 0.523$, la probabilidad de observar en 100 lances una frecuencia superior a $ 0.60$ es inferior a $ 0.05$. Para todo valor de $ p$ superior a $ 0.682$, la probabilidad de observar en 100 lances una frecuencia inferior a $ 0.60$ es inferior a $ 0.05$. En otras palabras, para todo $ p$ en el intervalo $ [0.523,0.682]$, tenemos:

$\displaystyle 60\in [\,Q_{{\cal B}(100,p)}(0.05)\,,\,Q_{{\cal B}(100,p)}(0.95)\,]\;,
$


es decir que $ 60$ está en el intervalo de dispersión simétrico de nivel $ 0.9$ para la ley $ {\cal B}(100,p)$. Por tanto es razonable proponer $ [0.523,0.682]$ como intervalo de estimación para el valor de $ p$. La definición de un intervalo de confianza es la siguiente.

Definición 3.1   Sea $ (X_1,\ldots,X_n)$ una muestra de la ley $ P_\theta$. Llamamos intervalo de confianza de nivel $ 1\!-\!\alpha$ un intervalo aleatorio $ [T_1,T_2]$, donde $ T_1\leq T_2$ son dos estadígrafos, funciones de la muestra, tales que:

$\displaystyle \mathbb {P}[\, \theta\in[T_1\,,\, T_2]\,]= 1-\alpha\;.
$


Si se realizan $ n$ simulaciones independientes de la ley $ P_\theta$, las variables aleatorias $ T_1$ y $ T_2$ tomarán valores particulares $ t_1$ y $ t_2$. La expresión $ \theta\in [t_1,t_2]$ será entonces verdadera o falsa. Para $ \alpha =0.05$, si se repite $ 100$ veces la serie de $ n$ experimentos para obtener $ 100$ intervalos, podemos esperar que cinco de ellos no contengan a $ \theta$.

En general, los intervalos de confianza se construyen a partir de intervalos de dispersión de un estimador. Sea $ T$ un estimador de $ \theta$. Entre los intervalos de dispersión de $ T$, debemos realizar una selección coherente (la misma para todos los valores de $ \theta$). Lo más fácil es considerar el intervalo de dispersión simétrico:

$\displaystyle [Q_T(\alpha/2)\,,\,Q_T(1-\alpha/2)]\;.
$


Excepto en el caso en que la ley de $ T$ sea simétrica (los intervalos simétricos son entonces optimales), se obtendrán resultados más precisos calculando los intervalos de dispersión optimales (aquellos cuya longitud es mínima). Habiendo hecha esta selección, fijemos el nivel $ 1\!-\!\alpha$ y denotemos por $ [\underline{q}(\theta)\,,\,\overline{q}(\theta)]$ el intervalo de dispersión para la ley de $ T$. Para todo valor de $ \theta$, tenemos:

$\displaystyle \mathbb {P}[\,T\in[\underline{q}(\theta)\,,\, \overline{q}(\theta)]\,] =
1-\alpha\;.
$


Si $ T$ es un estimador consistente de $ \theta$ y el tamaño de la muestra es bastante grande, hemos visto (proposición 1.10) que $ \underline{q}(\theta)$ y $ \overline{q}(\theta)$ están cerca de $ \theta$. En la práctica, si $ P_\theta$ es una ley continua, son funciones estrictamente crecientes de $ \theta$ y podemos definir sus inversos $ \underline{q}^{-1}(t)$ y $ \overline{q}^{-1}(t)$.

Proposición 3.2   Si $ \underline{q}$ y $ \overline{q}$ son estrictamente crecientes, el intervalo $ [\overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)]$ es un intervalo de confianza de nivel $ 1\!-\!\alpha$ para $ \theta$.


Demostración: Como la función $ \underline{q}(\theta)$ es creciente tenemos:

$\displaystyle \theta\leq \underline{q}^{-1}(T) \;\Longleftrightarrow\;
T\geq \underline{q}(\theta)\;,
$

y de forma similar:

$\displaystyle \theta\geq \overline{q}^{-1}(T) \;\Longleftrightarrow\;
T\leq \overline{q}(\theta)\;,
$

o sea:

$\displaystyle \theta\in [ \overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)]
\;\Longleftrightarrow\;
T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\;.
$


Como estos dos eventos son equivalentes, su probabilidad es la misma, $ 1\!-\!\alpha$, por definición del intervalo de dispersión $ [\underline{q}(\theta)\,,\,\overline{q}(\theta)]$. $ \square$

Ejemplo: ley uniforme sobre $ [0,\theta]$.

Consideremos una muestra $ (X_1,\ldots,X_n)$ de la ley $ {\cal U}(0,\theta)$ y el estimador consistente $ T=\max\{X_1,\ldots,X_n\}$. Hemos visto que el intervalo de dispersión optimal de nivel $ 1\!-\!\alpha$ es el intervalo unilateral $ [\theta\alpha^{1/n},\theta]$. Por lo tanto tenemos:

$\displaystyle \underline{q}(\theta) = \theta \alpha^{1/n}$   y$\displaystyle \quad
\overline{q}(\theta)=\theta\;.
$


Estas funciones son estrictamente crecientes y por lo tanto inversibles:

$\displaystyle \overline{q}^{-1}(t) = t$   y$\displaystyle \quad
\underline{q}^{-1}(t)=t\alpha^{-1/n}\;.
$


El intervalo $ [T,T\alpha^{-1/n}]$ es un intervalo de confianza de nivel $ 1\!-\!\alpha$ para $ \theta$. Observemos que la longitud del intervalo disminuye (la precisión aumenta) si $ n$ y $ \alpha$ aumentan (el nivel de confianza disminuye). Supongamos por ejemplo que para $ 100$ realizaciones de la ley $ {\cal U}(0,\theta)$, el máximo $ T$ haya tomado el valor $ 1.23$. Para $ \alpha =0.05$, el valor numérico del extremo superior es:

$\displaystyle 1.23\,(0.05)^{-1/100} = 1.267405\;.
$


Es inútil dar más cifras significativas que las que tiene la estimación. Los redondeos deben ir siempre en el sentido de la garantía del nivel de confianza (aumento del intervalo). Los límites inferiores serán por tanto redondeados por defecto y los límites superiores por exceso. Aquí daremos $ [1.23,1.27]$ como intervalo de confianza para $ \theta$ al nivel $ 0.95$.

Cuando la ley $ P_\theta$ es discreta, la muestra $ (X_1,\ldots,X_n)$ y por tanto el estimador $ T$ no pueden tomar más que ciertos valores particulares. En este caso, la función cuantil de $ T$ es una función en escalera y las funciones $ \underline{q}(\theta)$ y $ \overline{q}(\theta)$ no son estrictamente crecientes. Para una ley discreta, el nivel de los intervalos de dispersión no es exacto. Solamente podemos garantizar que:

$\displaystyle \mathbb {P}[\,T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\,]\geq
1-\alpha\;.
$


Cuando hay ambigüedad sobre el valor que toma un intervalo de confianza, la selección que se haga deberá ser siempre en el sentido de garantizar el nivel de confianza. El procedimiento de cálculo deberá ser tal que:

$\displaystyle \mathbb {P}[\, \theta\in[T_1\,,\, T_2]\,] \geq 1-\alpha.
$


La figura 4 ilustra este procedimiento en la situación dada como ejemplo al inicio del parrafo. Los intervalos de dispersión optimales para una frecuencia empírica sobre una muestra de tamaño $ 100$, están representados en función de $ p$. Si la frecuencia de $ 1$ en la muestra es $ 0.6$, el intervalo de confianza que se obtiene será el de la figura, que corresponde a las abscisas donde la recta horizontal de ordenada $ 0.6$ corta a $ \overline{q}(p)$ y $ \underline{q}(p)$.

Gráfico 4: Intervalos de dispersión optimales e intervalo de confianza de nivel $ \geq 0.9$ para la ley binomial $ {\cal B}(100,p)$.



Sección : Intervalos de confianza
Previo : Intervalos de confianza
Siguiente : Muestras gaussianas