En este parrafo, ilustramos las nociones de
estimador, de
consistencia y
de
sesgo
a partir de tres ejemplos: la estimación
de la
varianza, el problema de las preguntas confidenciales y los
conteos por captura-recaptura.
Estimadores de la varianza: Sea una muestra de una ley desconocida , suponiendo que admite momentos de todos los ordenes. Hemos visto que la media empírica es un estimador consistente de la esperanza. Es un estimador insesgado y su varianza es igual a la varianza de la ley , dividida por . ¿Cómo estimar la varianza de ? El estimador más natural es el siguiente.
Si denota una variable aleatoria de ley , es un estimador consistente de , pero no es un estimador insesgado. En efecto:
Demostración:
Calculemos primero
.
Por definición de muestra,
son independientes y
de misma ley. Por tanto
y
, donde es una variable aleatoria
cualquiera de ley . Sustituyendo estos valores obtenemos:
Para transformar en un estimador insesgado, es suficiente corregir el sesgo por un factor multiplicativo.
Se puede estimar la
desviación estándar por
o por
. Notemos que en general tanto
como
son estimadores sesgados de
.
La diferencia entre los dos
estimadores tiende a 0, cuando el tamaño de la muestra tiende a
infinito. No obstante, la mayor parte de las calculadoras proponen
a los dos estimadores de la desviación estándar (teclas
y
). Algunos logiciales (en particular
Scilab) calculan el valor de o
,
otros calculan o
. En lo que sigue
emplearemos sobretodo a , a pesar del inconveniente del
sesgo.
Preguntas confidenciales: Ciertos temas abordados en las encuestas de opinión son bastante íntimos y se corre el riesgo que las personas encuestadas rehuyan responder francamente al encuestador, falseando así el resultado. Podemos entonces recurrir a una astucia que consiste en invertir aleatoriamente las respuestas. Consideremos una pregunta confidencial para la cual queremos estimar la probabilidad de respuestas positivas. El encuestador pide a cada persona encuestada de lanzar un dado. Si en el dado sale , la persona debe responder sin mentir, si no, debe dar la opinión contraria a la suya. Si el encuestador ignora cuanto salió en el dado, no podrá saber si la respuesta es veraz o no, y se puede esperar que la persona encuestada aceptará jugar el juego. Generalicemos ligeramente la situación sacando, para cada persona, una variable de Bernoulli de parámetro . Si el resultado de esta variable es , la respuesta es veraz, si no, se invierte la respuesta. Sea el número de personas encuestadas. El encuestador recoge solamente la frecuencia empírica de los ''sí''. La proporción desconocida de los ''sí'' a partir de este procedimiento es y la frecuencia observada por el encuestador es un estimador insesgado y consistente de . Observemos que si , vale , cualquiera que sea . Pero si , podemos expresar en función de :
Por tanto podemos proponer como estimador de a la cantidad siguiente:
El estimador es insesgado y su varianza tiende a 0, por
lo tanto es consistente.
Para fijo, la varianza de tiende a infinito cuando
tiende a . Ella es minimal si o (pero
entonces el procedimiento pierde todo su interés). El problema
consiste entonces en seleccionar un valor de que sea
bastante grande, para que la confidencialidad sea creíble, pero lo
suficientemente alejado de para no aumentar demasiado la
varianza del estimador. Para el dado, el valor de es
y el término adicional de la varianza es proporcional a
.
Conteos por captura-recaptura: ¿Cómo estimar el número de especies de insectos que viven en la Tierra, ya que numerosas especies son, todavía, desconocidas? ¿Cómo conocemos la población de ballenas en el océano? El conteo por captura-recaptura permite evaluar las poblaciones para las cuales un censo exhaustivo es imposible. El método se basa en una idea simple. Consideremos una población de tamaño , desconocido. Se toma, en un primer momento, un grupo de individuos de tamaño fijo. Estos individuos son censados y marcados de manera tal que puedan ser reconocidos posteriormente. Más tarde, se toma un nuevo grupo de tamaño y observamos el número de individuos marcados en este nuevo grupo. Si el segundo muestreo es independiente del primero, la ley de es la ley hipergeométrica de parámetros , y , de esperanza . Podemos esperar que la proporción de individuos marcados en el segundo grupo esté cercano de la proporción de individuos marcados en el total de la población, . Por tanto es razonable proponer como estimador de a la cantidad siguiente:
El inconveniente de este estimador es que no está definido si toma el valor 0, lo que sucede con una probabilidad estrictamente positiva. Se puede corregir este defecto de dos maneras. La primera consiste en reemplazar por , lo cual no debería falsear mucho los resultados, si los números con que trabajamos son bastante grandes. Pongamos entonces:
La segunda manera consiste en decidir de rechazar a priori las muestras para las cuales no se obtengan individuos marcados. Esto significa reemplazar a por otra variable aleatoria cuya ley es la ley condicional de sabiendo que es estrictamente positiva. Pongamos entonces:
Para valores de , y específicos, podemos calcular numéricamente las esperanzas y las desviaciones estándar de estos estimadores. La tabla que mostramos a continuación resume los resultados obtenidos para y diferentes valores de .
Los dos estimadores son sesgados, el primero tiene tendencia a subestimar el tamaño de la población, el segundo a sobreestimarlo. La desviación estándar aumenta más rápidamente que . Es natural que la precisión relativa sea más débil según que las muestras recogidas sean pequeñas con respecto al tamaño desconocido de la población.