Estimación por ajuste

La modelación probabilista en estadística consiste en suponer que una muestra observada $(x_1,\ldots,x_n)$ es una realización de una muestra teórica de una cierta ley de probabilidad $P_\theta$ , donde el parámetro $\theta$ es desconocido. Si este es el caso, la distribución empírica $\widehat{P}$ de la muestra observada debería estar cerca de $P_\theta$ . La distribución empírica de una muestra es la ley de probabilidad sobre el conjunto de los valores, que afecta a cada individuo con el peso

Definición 2.1 Sean $(x_1,\ldots,x_n)$ una muestra, $c_1,\ldots,c_k$ los diferentes valores que toman los

y para $h=1,\ldots,k$ :

$\displaystyle n_h = \sum_{i=1}^n \mathbb {I}_{c_h}(x_i)\;,$

el número de veces que el valor aparece o sea el efectivo del valor . La distribución empírica de la muestra es la ley de probabilidad $\widehat{P}$ sobre el conjunto $\{c_1,\ldots,c_k\}$ , tal que:

$\displaystyle \widehat{P}(c_h) = \frac{n_h}{n}\;.$

Definición 2.2 Sea $\{c_1,\ldots,c_r\}$ un conjunto finito fijo. Sea $P=(P(c_h))\,,\;h=1,\ldots,r$ una ley de probabilidad sobre este conjunto y $\widehat{P}=(\widehat{P}(c_h))\,,\;h=1,\ldots,r$ una distribución empírica sobre este conjunto. Llamamos distancia de chi-cuadrado de $\widehat{P}$ con respecto a

y denotamos por $D_{\chi^2}(P,\widehat{P})$ a la cantidad:

$\displaystyle D_{\chi^2}(P,\widehat{P}) = \sum_{h=1}^r \frac{(P(c_h)-\widehat{P}(c_h))^2}{P(c_h)}\;.$

La distancia de Kolmogorov-Smirnov es la distancia de la norma uniforme entre funciones de distribución. Recordemos que la función de distribución empírica de la muestra $(x_1,\ldots,x_n)$ es la función de distribución de su distribución empírica. Es la función en escalera $\widehat{F}$ que vale 0 antes de $x_{(1)}$ ,

entre $x_{(i)}$ y $x_{(i+1)}$ , y

después de $x_{(n)}$ , donde los $x_{(i)}$ son los estadígrafos de orden, es decir los valores de la muestra ordenados.

Definición 2.3 Sea

la función de distribución de una ley de probabilidad y $\widehat{F}$ la función de distribución empírica de la muestra $(x_1,\ldots,x_n)$ . Llamamos distancia de Kolmogorov-Smirnov de

y $\widehat{F}$ , y denotamos por $D_{KS}(F,\widehat{F})$ al valor:

$\displaystyle D_{KS}(F,\widehat{F}) = \max_{i=1,\ldots,n}\, \Big\{\,\Big\vert ... ...{n}\Big\vert\,,\, \Big\vert F(x_{(i)})-\frac{i\!-\!1}{n}\Big\vert\,\Big\}\;.$

Dados una muestra y una familia de leyes de probabilidad $P_\theta$ , que dependen de un parámetro desconocido $\theta$ , es natural seleccionar como modelo a la ley de la familia que se ajusta mejor a los datos. Esto se convierte en tomar como estimación de $\theta$ aquel para el cual la distancia entre la ley teórica $P_\theta$ y la distribución empírica de la muestra sea menor.

Esta distancia es evidentemente mínima para

. Esto puede extenderse de manera evidente a un número finito cualquiera de eventualidades: la ley de probabilidad que mejor se ajusta a una distribución empírica sobre $c_1,\ldots,c_k$ , en el sentido de la distancia chi-cuadrado, es aquella que asigna a cada valor

una probabilidad igual a la frecuencia experimental de este valor.

En la práctica es raro que se pueda calcular explícitamente la estimación de un parámetro por ajuste. Se debe proceder a una minimización numérica sobre el parámetro desconocido.