Ejemplos de estimadores

En este parrafo, ilustramos las nociones de estimador, de consistencia y de sesgo a partir de tres ejemplos: la estimación de la varianza, el problema de las preguntas confidenciales y los conteos por captura-recaptura.

Estimadores de la varianza: Sea $(X_1,\ldots,X_n)$ una muestra de una ley desconocida

, suponiendo que admite momentos de todos los ordenes. Hemos visto que la media empírica $\overline{X}_n=(X_1+\cdots+X_n)/n$ es un estimador consistente de la esperanza. Es un estimador insesgado y su varianza es igual a la varianza de la ley

, dividida por

. ¿Cómo estimar la varianza de

? El estimador más natural es el siguiente.

Definición 1.11 Llamamos varianza empírica de la muestra $(X_1,\ldots,X_n)$ al estimador:

$\displaystyle S^2_n = \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X}_n)^2\;.$

denota una variable aleatoria de ley

es un estimador consistente de $Var[X]=\mathbb {E}[(X-\mathbb {E}[X])^2]$ , pero no es un estimador insesgado. En efecto:

Proposición 1.12

$\displaystyle \mathbb {E}[S^2_n] = \frac{n-1}{n}Var[X]\;.$

$\displaystyle \mathbb {E}[\overline{X}_n^2]$	$\displaystyle =$	$\displaystyle \frac{1}{n^2}\mathbb {E}[(X_1+\cdots+X_n)^2]$
	$\displaystyle =$	$\displaystyle \frac{1}{n^2} \mathbb {E}\left[\sum_{i=1}^n X_i^2 + \sum_{i=1}^n\sum_{j\neq i} X_iX_j\right]\;.$

Por definición de muestra, $X_1,\ldots,X_n$ son independientes y de misma ley. Por tanto $\mathbb {E}[X_i^2]=\mathbb {E}[X^2]$ y $\mathbb {E}[X_iX_j]=(\mathbb {E}[X])^2$ , donde

es una variable aleatoria cualquiera de ley

. Sustituyendo estos valores obtenemos:

$\displaystyle \mathbb {E}[\overline{X}^2_n]$	$\displaystyle =$	$\displaystyle \frac{1}{n^2} \Big( n\mathbb {E}[X^2] + n(n-1) (\mathbb {E}[X])^2)\Big)$
	$\displaystyle =$	$\displaystyle \frac{1}{n}\mathbb {E}[X^2] + \frac{n-1}{n} (\mathbb {E}[X])^2\;.$

$\displaystyle \mathbb {E}[S^2_n]$	$\displaystyle =$	$\displaystyle \frac{1}{n}\mathbb {E}[X_1^2+\cdots+X_n^2]-\frac{1}{n}\mathbb {E}[X^2] - \frac{n-1}{n} (\mathbb {E}[X])^2)$
	$\displaystyle =$	$\displaystyle \frac{n-1}{n}\mathbb {E}[X^2] - \frac{n-1}{n} (\mathbb {E}[X])^2)$
	$\displaystyle =$	$\displaystyle \frac{n-1}{n}Var[X]\;.$

Para transformar

en un estimador insesgado, es suficiente corregir el sesgo por un factor multiplicativo.

Definición 1.13 Se llama varianza empírica insesgada al estimador:

$\displaystyle V_n = \frac{n}{n-1} S^2_n = \frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X}_n)^2\;.$

Se puede estimar la desviación estándar por $\sqrt{S^2_n}$ o por $\sqrt{V_n}$ . Notemos que en general tanto $\sqrt{V_n}$ como $\sqrt{S^2_n}$ son estimadores sesgados de $\sqrt{Var[X]}$ . La diferencia entre los dos estimadores tiende a 0, cuando el tamaño de la muestra tiende a infinito. No obstante, la mayor parte de las calculadoras proponen a los dos estimadores de la desviación estándar (teclas $\sigma_n$ y $\sigma_{n-1}$ ). Algunos logiciales (en particular Scilab) calculan el valor de

o $\sqrt{V_n}$ , otros calculan

o $\sqrt{S^2_n}$ . En lo que sigue emplearemos sobretodo a

, a pesar del inconveniente del sesgo.

Preguntas confidenciales: Ciertos temas abordados en las encuestas de opinión son bastante íntimos y se corre el riesgo que las personas encuestadas rehuyan responder francamente al encuestador, falseando así el resultado. Podemos entonces recurrir a una astucia que consiste en invertir aleatoriamente las respuestas. Consideremos una pregunta confidencial para la cual queremos estimar la probabilidad

de respuestas positivas. El encuestador pide a cada persona encuestada de lanzar un dado. Si en el dado sale

, la persona debe responder sin mentir, si no, debe dar la opinión contraria a la suya. Si el encuestador ignora cuanto salió en el dado, no podrá saber si la respuesta es veraz o no, y se puede esperar que la persona encuestada aceptará jugar el juego. Generalicemos ligeramente la situación sacando, para cada persona, una variable de Bernoulli de parámetro $\alpha$ . Si el resultado de esta variable es

, la respuesta es veraz, si no, se invierte la respuesta. Sea

el número de personas encuestadas. El encuestador recoge solamente la frecuencia empírica

de los ''sí''. La proporción desconocida de los ''sí'' a partir de este procedimiento es $q=\alpha p + (1-\alpha)(1-p)$ y la frecuencia

observada por el encuestador es un estimador insesgado y consistente de

. Observemos que si $\alpha=1/2$ ,

vale

, cualquiera que sea

. Pero si $\alpha\neq 1/2$ , podemos expresar

en función de

$\displaystyle \frac{q(1-q)}{n(2\alpha-1)^2} = \frac{p(1-p)}{n} + \frac{\alpha(1-\alpha)}{n(2\alpha-1)^2}\;.$

El estimador

es insesgado y su varianza tiende a 0, por lo tanto es consistente.

Para

fijo, la varianza de

tiende a infinito cuando $\alpha$ tiende a

. Ella es minimal si $\alpha=0$ o

(pero entonces el procedimiento pierde todo su interés). El problema consiste entonces en seleccionar un valor de $\alpha$ que sea bastante grande, para que la confidencialidad sea creíble, pero lo suficientemente alejado de

para no aumentar demasiado la varianza del estimador. Para el dado, el valor de $\alpha$ es

y el término adicional de la varianza es proporcional a $\alpha(1-\alpha)/(2\alpha-1)^2 = 0.3125$ .

Conteos por captura-recaptura: ¿Cómo estimar el número de especies de insectos que viven en la Tierra, ya que numerosas especies son, todavía, desconocidas? ¿Cómo conocemos la población de ballenas en el océano? El conteo por captura-recaptura permite evaluar las poblaciones para las cuales un censo exhaustivo es imposible. El método se basa en una idea simple. Consideremos una población de tamaño

, desconocido. Se toma, en un primer momento, un grupo de individuos de tamaño

fijo. Estos individuos son censados y marcados de manera tal que puedan ser reconocidos posteriormente. Más tarde, se toma un nuevo grupo de tamaño

y observamos el número

de individuos marcados en este nuevo grupo. Si el segundo muestreo es independiente del primero, la ley de

es la ley hipergeométrica de parámetros

, de esperanza

. Podemos esperar que la proporción de individuos marcados en el segundo grupo esté cercano de la proporción de individuos marcados en el total de la población,

. Por tanto es razonable proponer como estimador de

a la cantidad siguiente:

El inconveniente de este estimador es que no está definido si

toma el valor 0, lo que sucede con una probabilidad estrictamente positiva. Se puede corregir este defecto de dos maneras. La primera consiste en reemplazar

por

, lo cual no debería falsear mucho los resultados, si los números con que trabajamos son bastante grandes. Pongamos entonces:

La segunda manera consiste en decidir de rechazar a priori las muestras para las cuales no se obtengan individuos marcados. Esto significa reemplazar a

por otra variable aleatoria

cuya ley es la ley condicional de

sabiendo que

es estrictamente positiva. Pongamos entonces:

Para valores de

específicos, podemos calcular numéricamente las esperanzas y las desviaciones estándar de estos estimadores. La tabla que mostramos a continuación resume los resultados obtenidos para

y diferentes valores de

	200	300	400	500	1000	5000
$\mathbb {E}[T']$	197.0	295.1	393.1	491.1	981.3	4291.1
$\sqrt{Var[T']}$	13.9	34.4	60.2	90.7	309.3	2459.5
$\mathbb {E}[T'']$	201.0	304.2	409.6	517.5	1102.0	5767.9
$\sqrt{Var[T'']}$	14.5	36.6	65.6	101.5	420.2	2995.4

Los dos estimadores son sesgados, el primero tiene tendencia a subestimar el tamaño

de la población, el segundo a sobreestimarlo. La desviación estándar aumenta más rápidamente que

. Es natural que la precisión relativa sea más débil según que las muestras recogidas sean pequeñas con respecto al tamaño desconocido de la población.