Definiciones

En la Estadística, al igual que en la Física, la Química o la Biología, dar un resultado sin indicar su precisión tiene poco interés, porque no es reproducible. Retomemos el ejemplo de lanzar una moneda alterada, para la cual la probabilidad

de salir ''cara'' es desconocida. La frecuencia empírica de ''cara'' es el estimador natural de

. Si en

lances obtenemos

veces ''cara'', la estimación (puntual) propuesta para

. Pero este resultado no se puede reproducir. Si volvemos a realizar los

lances, probablemente obtendremos una estimación diferente. En lugar de dar una estimación puntual, propondremos un intervalo, seleccionado de manera de controlar por un nivel de confianza, las probabilidades que el resultado tendría de ser confirmado si se repitiera el experimento. Buscamos distinguir los valores del parámetro para los cuales la observación (

''caras'' en

lances) es plausible, de los valores para los cuales es muy poco verosímil. Denotemos por

la frecuencia empírica y sea

el número de lances. La variable aleatoria

sigue la ley binomial ${\cal B}(n,p)$ . Un cálculo numérico da los siguientes valores.

$\displaystyle Q_{{\cal B}(100,0.523)}(0.95) = 60$ y $\displaystyle \quad Q_{{\cal B}(100,0.682)}(0.05) = 60\;.$

Para todo valor de

inferior a

, la probabilidad de observar en 100 lances una frecuencia superior a

es inferior a

. Para todo valor de

superior a

, la probabilidad de observar en 100 lances una frecuencia inferior a

es inferior a

. En otras palabras, para todo

en el intervalo

, tenemos:

$\displaystyle 60\in [\,Q_{{\cal B}(100,p)}(0.05)\,,\,Q_{{\cal B}(100,p)}(0.95)\,]\;,$

es decir que

está en el intervalo de dispersión simétrico de nivel

para la ley ${\cal B}(100,p)$ . Por tanto es razonable proponer

como intervalo de estimación para el valor de

. La definición de un intervalo de confianza es la siguiente.

Definición 3.1 Sea $(X_1,\ldots,X_n)$ una muestra de la ley $P_\theta$ . Llamamos intervalo de confianza de nivel $1\!-\!\alpha$ un intervalo aleatorio

, donde $T_1\leq T_2$ son dos estadígrafos, funciones de la muestra, tales que:

$\displaystyle \mathbb {P}[\, \theta\in[T_1\,,\, T_2]\,]= 1-\alpha\;.$

Si se realizan

simulaciones independientes de la ley $P_\theta$ , las variables aleatorias

tomarán valores particulares

. La expresión $\theta\in [t_1,t_2]$ será entonces verdadera o falsa. Para $\alpha =0.05$ , si se repite

veces la serie de

experimentos para obtener

intervalos, podemos esperar que cinco de ellos no contengan a $\theta$ .

En general, los intervalos de confianza se construyen a partir de intervalos de dispersión de un estimador. Sea

un estimador de $\theta$ . Entre los intervalos de dispersión de

, debemos realizar una selección coherente (la misma para todos los valores de $\theta$ ). Lo más fácil es considerar el intervalo de dispersión simétrico:

Excepto en el caso en que la ley de

sea simétrica (los intervalos simétricos son entonces optimales), se obtendrán resultados más precisos calculando los intervalos de dispersión optimales (aquellos cuya longitud es mínima). Habiendo hecha esta selección, fijemos el nivel $1\!-\!\alpha$ y denotemos por $[\underline{q}(\theta)\,,\,\overline{q}(\theta)]$ el intervalo de dispersión para la ley de

. Para todo valor de $\theta$ , tenemos:

$\displaystyle \mathbb {P}[\,T\in[\underline{q}(\theta)\,,\, \overline{q}(\theta)]\,] = 1-\alpha\;.$

es un estimador consistente de $\theta$ y el tamaño de la muestra es bastante grande, hemos visto (proposición 1.10) que $\underline{q}(\theta)$ y $\overline{q}(\theta)$ están cerca de $\theta$ . En la práctica, si $P_\theta$ es una ley continua, son funciones estrictamente crecientes de $\theta$ y podemos definir sus inversos $\underline{q}^{-1}(t)$ y $\overline{q}^{-1}(t)$ .

Proposición 3.2 Si $\underline{q}$ y $\overline{q}$ son estrictamente crecientes, el intervalo $[\overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)]$ es un intervalo de confianza de nivel $1\!-\!\alpha$ para $\theta$ .

Demostración: Como la función $\underline{q}(\theta)$ es creciente tenemos:

$\displaystyle \theta\leq \underline{q}^{-1}(T) \;\Longleftrightarrow\; T\geq \underline{q}(\theta)\;,$

$\displaystyle \theta\geq \overline{q}^{-1}(T) \;\Longleftrightarrow\; T\leq \overline{q}(\theta)\;,$

$\displaystyle \theta\in [ \overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)] \;\Longleftrightarrow\; T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\;.$

Como estos dos eventos son equivalentes, su probabilidad es la misma, $1\!-\!\alpha$ , por definición del intervalo de dispersión $[\underline{q}(\theta)\,,\,\overline{q}(\theta)]$ . $\square$

Consideremos una muestra $(X_1,\ldots,X_n)$ de la ley ${\cal U}(0,\theta)$ y el estimador consistente $T=\max\{X_1,\ldots,X_n\}$ . Hemos visto que el intervalo de dispersión optimal de nivel $1\!-\!\alpha$ es el intervalo unilateral $[\theta\alpha^{1/n},\theta]$ . Por lo tanto tenemos:

$\displaystyle \underline{q}(\theta) = \theta \alpha^{1/n}$ y $\displaystyle \quad \overline{q}(\theta)=\theta\;.$

$\displaystyle \overline{q}^{-1}(t) = t$ y $\displaystyle \quad \underline{q}^{-1}(t)=t\alpha^{-1/n}\;.$

El intervalo $[T,T\alpha^{-1/n}]$ es un intervalo de confianza de nivel $1\!-\!\alpha$ para $\theta$ . Observemos que la longitud del intervalo disminuye (la precisión aumenta) si

y $\alpha$ aumentan (el nivel de confianza disminuye). Supongamos por ejemplo que para

realizaciones de la ley ${\cal U}(0,\theta)$ , el máximo

haya tomado el valor

. Para $\alpha =0.05$ , el valor numérico del extremo superior es:

Es inútil dar más cifras significativas que las que tiene la estimación. Los redondeos deben ir siempre en el sentido de la garantía del nivel de confianza (aumento del intervalo). Los límites inferiores serán por tanto redondeados por defecto y los límites superiores por exceso. Aquí daremos

como intervalo de confianza para $\theta$ al nivel

Cuando la ley $P_\theta$ es discreta, la muestra $(X_1,\ldots,X_n)$ y por tanto el estimador

no pueden tomar más que ciertos valores particulares. En este caso, la función cuantil de

es una función en escalera y las funciones $\underline{q}(\theta)$ y $\overline{q}(\theta)$ no son estrictamente crecientes. Para una ley discreta, el nivel de los intervalos de dispersión no es exacto. Solamente podemos garantizar que:

$\displaystyle \mathbb {P}[\,T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\,]\geq 1-\alpha\;.$

Cuando hay ambigüedad sobre el valor que toma un intervalo de confianza, la selección que se haga deberá ser siempre en el sentido de garantizar el nivel de confianza. El procedimiento de cálculo deberá ser tal que:

La figura 4 ilustra este procedimiento en la situación dada como ejemplo al inicio del parrafo. Los intervalos de dispersión optimales para una frecuencia empírica sobre una muestra de tamaño

, están representados en función de

. Si la frecuencia de

en la muestra es

, el intervalo de confianza que se obtiene será el de la figura, que corresponde a las abscisas donde la recta horizontal de ordenada

corta a $\overline{q}(p)$ y $\underline{q}(p)$ .

**Gráfico 4:** Intervalos de dispersión optimales e intervalo de confianza de nivel $\geq 0.9$ para la ley binomial ${\cal B}(100,p)$ .