La modelación probabilista en estadística consiste en suponer que una muestra observada es una realización de una muestra teórica de una cierta ley de probabilidad , donde el parámetro es desconocido. Si este es el caso, la distribución empírica de la muestra observada debería estar cerca de . La distribución empírica de una muestra es la ley de probabilidad sobre el conjunto de los valores, que afecta a cada individuo con el peso .
el número de veces que el valor aparece o sea el efectivo del valor . La distribución empírica de la muestra es la ley de probabilidad sobre el conjunto , tal que:
Entre las diferentes formas de cuantificar el ajuste de una distribución empírica a una ley de probabilidad teórica, trataremos dos: la distancia de chi-cuadrado (para las leyes discretas) y la distancia de Kolmogorov-Smirnov.
La distancia de Kolmogorov-Smirnov es la distancia de la norma uniforme entre funciones de distribución. Recordemos que la función de distribución empírica de la muestra es la función de distribución de su distribución empírica. Es la función en escalera que vale 0 antes de , entre y , y después de , donde los son los estadígrafos de orden, es decir los valores de la muestra ordenados.
Dados una muestra y una familia de leyes de probabilidad
, que dependen de un parámetro desconocido , es
natural seleccionar como modelo a la ley de la familia que se
ajusta mejor a los datos. Esto se convierte en tomar como
estimación de aquel para el cual la distancia entre la
ley teórica y la distribución empírica de la muestra
sea menor.
Consideremos, por ejemplo, una muestra de datos binarios. Denotemos por la frecuencia empírica de los 1. La distancia de chi-cuadrado entre la ley de Bernoulli de parámetro y la distribución empírica es:
Esta distancia es evidentemente mínima para . Esto puede
extenderse de manera evidente a un número finito cualquiera de
eventualidades: la ley de probabilidad que mejor se ajusta a una
distribución empírica sobre
, en el sentido de la
distancia chi-cuadrado, es aquella que asigna a cada valor
una probabilidad igual a la frecuencia experimental de este valor.
En la práctica es raro que se pueda calcular explícitamente la estimación de un parámetro por ajuste. Se debe proceder a una minimización numérica sobre el parámetro desconocido.