Sección : Búsqueda de estimadores
Previo : Estimadores de mínimos cuadrados
Siguiente : Ejemplos de máxima verosimilitud


Noción de verosimilitud


Dada una muestra observada $ (x_1,\ldots,x_n)$ y una ley de probabilidad $ P_\theta$, la verosimilitud cuantifica la probabilidad de que las observaciones provengan efectivamente, de una muestra (teórica) de la ley $ P_\theta$.

Tomemos el ejemplo de lanzar 10 veces una moneda. La muestra binaria observada es, por ejemplo:

$\displaystyle 0\;,\;1\;,\;1\;,\;0\;,\;1\;,\;1\;,\;1\;,\;0\;,\;0\;,\;1\;.
$


Para una muestra de tamaño 10 de la ley de Bernoulli de parámetro $ p$, la probabilidad de una tal realización es de $ p^6(1-p)^4$. Veamos algunos valores numéricos.

$ p$
0.2
0.3
0.4
0.5
0.6
0.7
0.8
$ p^6(1-p)^4$
$ 2.6\,10^{-5}$
$ 1.8\,10^{-4}$
$ 5.3\,10^{-4}$
$ 9.8\,10^{-4}$
$ 1.2\,10^{-3}$
$ 9.5\,10^{-4}$
$ 4.2\,10^{-4}$

Es natural seleccionar como valor estimado de $ p$, aquel para el cual la probabilidad de la muestra observada es más fuerte, en este caso $ p=0.6$. La figura 3 compara las funciones que a $ p$ asocian $ p^{0.6n}(1-p)^{0.4n}$ para diferentes valores de $ n$. Todas tienen su máximo en $ p=0.6$. El máximo es más marcado según $ n$ es más grande.

Gráfico 3: Verosimilitud para una muestra de tamaño $ n$ de la ley de Bernoulli, donde la frecuencia de $ 1$ es 0.6. El tamaño $ n$ varía de $ 5$ a $ 50$ por pasos de $ 5$, la verosimilitud está multiplicada por $ 2^n$ para que las escalas gráficas sean comparables.

Definición 2.5   Sea $ C$ un conjunto finito o numerable, $ \{P_\theta\}$ una familia de leyes de probabilidad sobre $ C$ y $ n$ un entero. Llamamos verosimilitud asociada a la familia $ \{P_\theta\}$, a la función que para una $ n$-tupla $ (x_1,\ldots,x_n)$ de elementos de $ C$ y un valor $ \theta$ del parámetro está definida por:

$\displaystyle L(x_1,\ldots,x_n,\theta) = \prod_{i=1}^n P_\theta(x_i)\;.
$


La interpretación es la siguiente. Consideremos una muestra teórica $ (X_1,\ldots,X_n)$ de la ley $ P_\theta$. Por definición, las variables aleatorias $ X_1,\ldots,X_n$ son independientes y de una misma ley $ P_\theta$. Por lo tanto la probabilidad que la muestra teórica $ (X_1,\ldots,X_n)$ tenga por realización la muestra observada $ (x_1,\ldots,x_n)$, es el producto de las probabilidades de que cada $ X_i$ tome el valor $ x_i$, es decir:

$\displaystyle \mathbb {P}[(X_1,\ldots,X_n)=(x_1,\ldots,x_n)] =
L(x_1,\ldots,x_n,\theta)\;.
$


En el caso de un modelo continuo, la ley $ P_\theta$ tiene una densidad sobre $ \mathbb {R}$, y la probabilidad que la muestra tome un valor particular es siempre nula. Hay que reemplazar la probabilidad $ P_\theta$ por su densidad en la definición de verosimilitud.

Definición 2.6   Sean $ \{P_\theta\}$ una familia de leyes de probabilidad continuas sobre $ \mathbb {R}$ y $ n$ un entero. Denotemos por $ f_\theta$ la densidad de probabilidad de la ley $ P_\theta$. Llamamos verosimilitud asociada a la familia $ \{P_\theta\}$ a la función que para una $ n$-tupla $ (x_1,\ldots,x_n)$ de elementos de $ \mathbb {R}$ y un valor $ \theta$ del parámetro está definida por:

$\displaystyle L(x_1,\ldots,x_n,\theta) = \prod_{i=1}^n f_\theta(x_i)\;.
$


La interpretación es la siguiente. Consideremos una muestra teórica $ (X_1,\ldots,X_n)$ de la ley continua $ P_\theta$. Sea $ \varepsilon$ un número real estrictamente positivo (pequeño). La probabilidad de que la muestra teórica $ (X_1,\ldots,X_n)$ tenga una realización en una `` $ \varepsilon$ vecindad'' de la muestra observada $ (x_1,\ldots,x_n)$ puede escribirse como:

$\displaystyle \mathbb {P}\Big[X_1\in [x_1\!-\!\frac{\varepsilon}{2},x_1\!+\!\frac{\varepsilon}{2}]$    y $\displaystyle \ldots$ y $\displaystyle X_n\in [x_n-\frac{\varepsilon}{2},x_n+\frac{\varepsilon}{2}]\Big]$ $\displaystyle =$ $\displaystyle \prod_{i=1}^n
\int_{x_i-\frac{\varepsilon}{2}}^{x_i+\frac{\varepsilon}{2}} f_\theta(x)\,dx$  
  $\displaystyle \simeq$ $\displaystyle \prod_{i=1}^n \varepsilon\,f_\theta(x_i)$  
  $\displaystyle =$ $\displaystyle \varepsilon^n\,L(x_1,\ldots,x_n,\theta)\;.$  


Estimar un parámetro por el método de máxima verosimilitud, es proponer como valor del parámetro aquél que da un valor máximo a la verosimilitud, es decir, a la probabilidad de observar los datos como realización de una muestra de la ley $ P_\theta$.

Definición 2.7   Supongamos que para todo valor $ (x_1,\ldots,x_n)$, la función que a $ \theta$ asocia $ L(x_1,\ldots,x_n,\theta)$ admite un máximo único. El valor $ \widehat{\theta}$ en el cual se alcanza ese máximo depende de $ (x_1,\ldots,x_n)$:

$\displaystyle \widehat{\theta} = \tau(x_1,\ldots,x_n) = \arg\max
L(x_1,\ldots,x_n,\theta)\;.
$

Lo llamamos estimación de máxima verosimilitud. Si $ (X_1,\ldots,X_n)$ es una muestra (teórica) de la ley $ P_\theta$, la variable aleatoria:

$\displaystyle T = \tau(X_1,\ldots,X_n)\;,
$

es el estimador de máxima verosimilitud de $ \theta$.


Retomemos el ejemplo de la ley uniforme sobre el intervalo $ [0,\theta]$. Su densidad es:

$\displaystyle f_\theta(x) = \frac{1}{\theta} \mathbb {I}_{[0,\theta]}(x)\;.
$


La verosimilitud es la función que a $ n$ números reales $ x_1,\ldots,x_n$ y a un valor positivo $ \theta$ asigna:

$\displaystyle L(x_1,\ldots,x_n,\theta)$ $\displaystyle =$ $\displaystyle \prod_{i=1}^n \frac{1}{\theta} \mathbb {I}_{[0,\theta]}(x_i)$  
  $\displaystyle =$ $\displaystyle \frac{1}{\theta^n} \mathbb {I}_{[0,\theta]^n}(x_1,\ldots,x_n)$  
  $\displaystyle =$ $\displaystyle \frac{1}{\theta^n}\mathbb {I}_{[\max\{x_i\},+\infty[}(\theta)\;.$  


Considerada como función de $ \theta$, la verosimilitud es nula si $ \theta$ es menor que el mayor de los valores observados, si no, vale $ 1/\theta^n$. Por lo tanto ella es máxima para:

$\displaystyle \widehat{\theta} = \max\{x_1,\ldots,x_n\}\;.
$


Si $ (X_1,\ldots,X_n)$ es una muestra de la ley uniforme $ {\cal U}(0,\theta)$, el estimador de máxima verosimilitud de $ \theta$ es:

$\displaystyle T=\max\{X_1,\ldots,X_n\}\;.
$


Para la mayoría de las leyes de probabilidad usuales, el estimador de máxima verosimilitud se define de forma única y se calcula explícitamente. En el plano teórico tiene muchas ventajas. Bajo hipótesis que cumplen numerosos modelos de uso corriente, se demuestra que es asintóticamente insesgado y consistente. Se demuestra, además, que su varianza es minimal, por lo tanto el método de máxima verosimilitud es teóricamente el mejor de los métodos de estimación. Cuando una determinación explícita es imposible, hay que recurrir a una determinación numérica, empleando un algoritmo de optimización.



Sección : Búsqueda de estimadores
Previo : Estimadores de mínimos cuadrados
Siguiente : Ejemplos de máxima verosimilitud