Sección : Búsqueda de estimadores
Previo : Noción de verosimilitud
Siguiente : Intervalos de confianza

Ejemplos de máxima verosimilitud


En la mayor parte de los casos de interés práctico, la ley $ P_\theta$ y por tanto también la verosimilitud, tienen una expresión calculable en función de $ \theta$. Para calcular el máximo de la verosimilitud, es necesario determinar los valores para los cuales la derivada de la verosimilitud se anula, pero por definición la verosimilitud es un producto de probabilidades o de densidades, lo cual puede ser bastante complicado de derivar. Es preferible derivar una suma, y es por esto que comenzamos por substituir la verosimilitud por su logaritmo. Al ser el logaritmo una función creciente, es equivalente maximizar $ \log(L(x_1,\ldots,x_n,\theta))$ o $ L(x_1,\ldots,x_n,\theta)$. Una vez determinado el valor de $ \theta$ para el cual la derivada se anula, hay que asegurarse con la ayuda de la segunda derivada que el punto en cuestión es realmente un máximo. Trataremos a continuación los casos de algunas familias clásicas.

Leyes de Bernoulli: El conjunto de los valores posibles es $ \{0,1\}$. El parámetro desconocido es $ p$. Si $ (x_1,\ldots,x_n)\in \{0,1\}^n$ es una muestra, la verosimilitud vale:

$\displaystyle L(x_1,\ldots,x_n,p) = p^{\sum x_i}(1-p)^{n-\sum x_i}\;.
$

Su logaritmo es:

$\displaystyle \log(L(x_1,\ldots,x_n,p)) = (\sum x_i)\log p + (n-\sum x_i)\log(1-p)\;.
$

La derivada con respecto a $ p$ es:

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,p))}{\partial p} =
(\sum x_i)\frac{1}{p} - (n-\sum x_i)\frac{1}{1-p}\;.
$

Ella se anula en:

$\displaystyle \widehat{p} = \frac{\sum x_i}{n}\;.
$

La segunda derivada es:

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,p))}{\partial p^2} =
-(\sum x_i)\frac{1}{p^2} - (n-\sum x_i)\frac{1}{(1-p)^2}\;.
$


Ella es estrictamente negativa, el valor $ \widehat{p}$ es efectivamente un máximo. Si $ (X_1,\ldots,X_n)$ es una muestra de la ley de Bernoulli de parámetro $ p$, el estimador de máxima verosimilitud de $ p$ es:

$\displaystyle \frac{\sum X_i}{n}\;,
$

es decir la frecuencia empírica.

Leyes geométricas: El conjunto de valores posibles es $ \mathbb {N}^*$, el parámetro desconocido es $ p\in]0,1[$.
Si $ (x_1,\ldots,x_n)$ es una muestra entera, la verosimilitud vale:

$\displaystyle L(x_1,\ldots,x_n,p) = p^{n}(1-p)^{\sum x_i-n}\;.
$

Su logaritmo es:

$\displaystyle \log(L(x_1,\ldots,x_n,p)) = n\log p + (\sum x_i-n)\log(1-p)\;.
$

La derivada con respecto a $ p$ es:

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,p))}{\partial p} =
n\frac{1}{p} - (\sum x_i-n)\frac{1}{1-p}\;.
$

Ella se anula en:

$\displaystyle \widehat{p} = \frac{n}{\sum x_i}\;.
$

La segunda derivada es:

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,p))}{\partial p^2} =
-n\frac{1}{p^2} - (\sum x_i-n)\frac{1}{(1-p)^2}\;.
$


Ella es estrictamente negativa, el valor $ \widehat{p}$ es efectivamente un máximo. Si $ (X_1,\ldots,X_n)$ es una muestra de la ley geométrica de parámetro $ p$, el estimador de máxima verosimilitud de $ p$ es:

$\displaystyle \frac{n}{\sum X_i}\;,
$


es decir el inverso de la media empírica, lo que es coherente con el hecho que el parámetro $ p$ es el inverso de la esperanza.

Leyes exponenciales: El parámetro desconocido es $ \lambda$. Se trata en este caso de leyes continuas, la verosimilitud es por tanto un producto de valores de la densidad. Para una $ n$-tupla de números reales positivos $ (x_1,\ldots,x_n)$ ella vale:

$\displaystyle L(x_1,\ldots,x_n,\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i}
=\lambda^n e^{-\lambda \sum x_i}\;.
$

Su logaritmo es:

$\displaystyle \log(L(x_1,\ldots,x_n,\lambda)) =
n\log(\lambda) - \lambda\sum x_i\;.
$

La derivada con respecto a $ \lambda$ es:

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial \lambda} =
n\frac{1}{\lambda} - \sum x_i\;.
$

Ella se anula en:

$\displaystyle \widehat{\lambda} = \frac{n}{\sum x_i}\;.
$

La segunda derivada es:

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \lambda^2} =
- \frac{n}{\lambda^2}\;.
$


Ella es estrictamente negativa, el valor $ \widehat{\lambda}$ es efectivamente un máximo. Si $ (X_1,\ldots,X_n)$ es una muestra de la ley exponencial de parámetro $ \lambda$, el estimador de máxima verosimilitud de $ \lambda$ es:

$\displaystyle \frac{n}{\sum X_i}\;,
$

es decir el inverso de la media empírica, lo que es coherente con el hecho que el parámetro $ \lambda$ es el inverso de la esperanza.

Leyes normales: Para un parámetro multidimensional el principio es el mismo, pero los cálculos de optimización son más complicados. Para las leyes normales hay dos parámetros desconocidos. Para evitar confusiones en las notaciones de las derivadas, denotaremos por $ v$ al parámetro de la varianza, usualmente denotado por $ \sigma^2$. Para una $ n$-tupla de números reales $ (x_1,\ldots,x_n)$ la verosimilitud vale:

$\displaystyle L(x_1,\ldots,x_n,\mu,v) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi v}}
...
...=\left(\frac{1}{\sqrt{2\pi v}}\right)^n e^{-\frac{1}{2 v}\sum (x_i-\mu)^2}\;.
$

Su logaritmo es:

$\displaystyle \log(L(x_1,\ldots,x_n,\lambda)) =
-\frac{n}{2}\log(v) - \frac{n}{2}\log(2\pi) -\frac{1}{2 v}\sum (x_i-\mu)^2\;.
$

Las derivadas parciales con respecto a los parámetros $ \mu$ y $ v$ son:

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu} =
\frac{1}{v}\sum (x_i-\mu)\;,
$

y

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial v} =
-\frac{n}{2 v}+\frac{1}{2 v^2}\sum (x_i-\mu)^2\;.
$

Ellas se anulan en:

$\displaystyle \widehat{\mu} = \frac{\sum x_i}{n}$   y$\displaystyle \quad
\widehat{v} = \frac{\sum (x_i-\widehat{\mu})^2}{n}\;.
$

Las segundas derivadas parciales son:

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu^2} =
-\frac{n}{v}\;,
$

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu\partial v} =
-\frac{1}{v^2}\sum(x_i-\mu)\;,
$

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial v^2} =
\frac{n}{2v^2}-\frac{1}{v^3}\sum(x_i-\mu)^2\;.
$


Por tanto la matriz hessiana (matriz de las segundas derivadas parciales) en el punto $ (\widehat{\mu},\widehat{v})$ es:

\begin{displaymath}
\left(
\begin{array}{cc}
-\frac{n}{\widehat{v}}&0\\
0&-\frac{n}{2 \widehat{v}^2}
\end{array}
\right)\;.
\end{displaymath}


Sus valores propios son negativos, el punto $ (\widehat{\mu},\widehat{v})$ es efectivamente un máximo. Si $ (X_1,\ldots,X_n)$ es una muestra de la ley normal de parámetros $ \mu$ y $ v$, los estimadores de máxima verosimilitud de $ \mu$ y $ v$ son respectivamente la media y la varianza empíricas de la muestra, tal como era de esperar.



Sección : Búsqueda de estimadores
Previo : Noción de verosimilitud
Siguiente : Intervalos de confianza