En la Estadística, al igual que en la Física, la Química o la Biología, dar un resultado sin indicar su precisión tiene poco interés, porque no es reproducible. Retomemos el ejemplo de lanzar una moneda alterada, para la cual la probabilidad de salir ''cara'' es desconocida. La frecuencia empírica de ''cara'' es el estimador natural de . Si en lances obtenemos veces ''cara'', la estimación (puntual) propuesta para es . Pero este resultado no se puede reproducir. Si volvemos a realizar los lances, probablemente obtendremos una estimación diferente. En lugar de dar una estimación puntual, propondremos un intervalo, seleccionado de manera de controlar por un nivel de confianza, las probabilidades que el resultado tendría de ser confirmado si se repitiera el experimento. Buscamos distinguir los valores del parámetro para los cuales la observación ( ''caras'' en lances) es plausible, de los valores para los cuales es muy poco verosímil. Denotemos por la frecuencia empírica y sea el número de lances. La variable aleatoria sigue la ley binomial . Un cálculo numérico da los siguientes valores.
Para todo valor de inferior a , la probabilidad de observar en 100 lances una frecuencia superior a es inferior a . Para todo valor de superior a , la probabilidad de observar en 100 lances una frecuencia inferior a es inferior a . En otras palabras, para todo en el intervalo , tenemos:
es decir que está en el intervalo de dispersión simétrico de nivel para la ley . Por tanto es razonable proponer como intervalo de estimación para el valor de . La definición de un intervalo de confianza es la siguiente.
Si se realizan simulaciones independientes de la ley
, las variables aleatorias y tomarán valores
particulares y . La expresión
será entonces verdadera o falsa. Para
, si se repite
veces la serie de experimentos para obtener
intervalos, podemos esperar que cinco de ellos no contengan a
.
En general, los intervalos de confianza se construyen a partir de intervalos de dispersión de un estimador. Sea un estimador de . Entre los intervalos de dispersión de , debemos realizar una selección coherente (la misma para todos los valores de ). Lo más fácil es considerar el intervalo de dispersión simétrico:
Excepto en el caso en que la ley de sea simétrica (los intervalos simétricos son entonces optimales), se obtendrán resultados más precisos calculando los intervalos de dispersión optimales (aquellos cuya longitud es mínima). Habiendo hecha esta selección, fijemos el nivel y denotemos por el intervalo de dispersión para la ley de . Para todo valor de , tenemos:
Si es un estimador consistente de y el tamaño de la muestra es bastante grande, hemos visto (proposición 1.10) que y están cerca de . En la práctica, si es una ley continua, son funciones estrictamente crecientes de y podemos definir sus inversos y .
Demostración: Como la función es creciente tenemos:
Como estos dos eventos son equivalentes, su probabilidad es la
misma,
, por definición del
intervalo de dispersión
.
Ejemplo: ley uniforme sobre
.
Consideremos una muestra de la ley y el estimador consistente . Hemos visto que el intervalo de dispersión optimal de nivel es el intervalo unilateral . Por lo tanto tenemos:
Estas funciones son estrictamente crecientes y por lo tanto inversibles:
El intervalo es un intervalo de confianza de nivel para . Observemos que la longitud del intervalo disminuye (la precisión aumenta) si y aumentan (el nivel de confianza disminuye). Supongamos por ejemplo que para realizaciones de la ley , el máximo haya tomado el valor . Para , el valor numérico del extremo superior es:
Es inútil dar más cifras significativas que las que tiene la
estimación. Los redondeos deben ir siempre en el sentido de la
garantía del nivel de confianza (aumento del intervalo). Los
límites inferiores serán por tanto redondeados por defecto y los
límites superiores por exceso. Aquí daremos
como
intervalo de confianza para al nivel .
Cuando la ley es discreta, la muestra y por tanto el estimador no pueden tomar más que ciertos valores particulares. En este caso, la función cuantil de es una función en escalera y las funciones y no son estrictamente crecientes. Para una ley discreta, el nivel de los intervalos de dispersión no es exacto. Solamente podemos garantizar que:
Cuando hay ambigüedad sobre el valor que toma un intervalo de confianza, la selección que se haga deberá ser siempre en el sentido de garantizar el nivel de confianza. El procedimiento de cálculo deberá ser tal que:
La figura 4 ilustra este procedimiento en la situación dada como ejemplo al inicio del parrafo. Los intervalos de dispersión optimales para una frecuencia empírica sobre una muestra de tamaño , están representados en función de . Si la frecuencia de en la muestra es , el intervalo de confianza que se obtiene será el de la figura, que corresponde a las abscisas donde la recta horizontal de ordenada corta a y .