Cuando las hipótesis de modelación conducen a
suponer que las
son realizaciones de variables
aleatorias independientes y de una misma ley, la
Ley de los
Grandes Números
justifica que se considere esta ley como próxima
de la
distribución empírica. Todas las carácterísticas usuales de
la distribución empírica estarán
cercanas a las carácterísticas
análogas de la ley teórica. Llamamos
problema de ajuste al
problema que consiste en encontrar, dentro de una familia de leyes de
probabilidad, aquella que se acerca más a una
distribución
empírica observada. Es frecuente que se efectúen
transformaciones de los datos antes del ajuste. Por ejemplo en la
Médicina, las leyes
log-normales
aparecen a menudo. Una
variable aleatoria sigue una ley log-normal si su logaritmo sigue
una
ley
normal.
Entonces en lugar de ajustar directamente una ley
log-normal, se empezará por transformar la muestra, reemplazando
los datos por sus logaritmos y después se ajustará la nueva
muestra por una ley normal.
Nos contentaremos en un primer momento por aproximaciones
visuales, introduciremos a continuación medidas cuantitativas que
permitan evaluar las distancias entre un modelo teórico y una
distribución empírica.
El caso más frecuente en las aplicaciones es el de una muestra
continua. La primera aproximación consiste en superponer en un
mismo gráfico un
histograma
de los datos con una
densidad de
la ley teórica. Encima de una clase,
, el
histograma
representa un rectángulo de superficie igual a la
frecuencia empírica de esta clase. Si
la muestra se produjo
simulando
la ley teórica, esta frecuencia
empírica estará cerca de la probabilidad teórica, que es la
integral de la densidad sobre la clase. En consecuencia
el histograma estará cercano al valor medio de
la densidad sobre la clase, o sea:
Un poco de experiencia permite reconocer a ojo cuando un histograma está demasiado lejos de una densidad para que el ajuste se considere bueno.
El inconveniente del histograma es que conlleva una parte
importante de arbitrariedad en la elección de las clases. Otra
solución consiste en comparar la
función de distribución de la
ley teórica con la
función de distribución empírica
.
La justificación proviene
también de la
Ley de los Grandes Números. En el punto
, la
función de distribución empírica toma por valor la proporción de
los datos que son inferiores a
. Si los datos habían sido
simulados a partir de la ley teórica, esta proporción debería
estar cercana al valor correspondiente de la función de
distribución teórica.
En general se prefiere efectuar un cambio de ejes que da una
representación equivalente, pero más fácil de controlar
visualmente: es el
ajuste por cuantiles o QQ-plot o
ploteo-QQ. Denotemos por la
función cuantil
de la ley teórica. En lugar de representar los puntos de
coordenadas
para la
función de distribución
empírica, el QQ-plot consiste en representar los puntos
. Si el ajuste es correcto, la
función cuantil
empírica
de la muestras debería estar cerca de la
función cuantil
teórica. En particular los puntos
estarán
cerca de la primera bisectriz, lo que es fácil de verificar.
(figura 12).
Por útiles que ellos sean, los métodos gráficos no constituyen una respuesta matemática al problema del ajuste. Para cuantificar el alejamiento de la distribución empírica con respecto a una ley teórica empleamos las distancias entre leyes de probabilidad. Introduciremos dos de estas distancias, la distancia de chi-cuadrado y la distancia de Kolmogorov-Smirnov. La distancia de chi-cuadrado concierne únicamente a las leyes discretas, pero es posible utilizarla también para muestras continuas reagrupadas en clases.
La ''distancia'' de chi-cuadrado es por tanto una media ponderada
de las diferencias cuadradas entre los valores de y
.
No es una distancia en el sentido usual de la palabra, pues
ni siquiera es simétrica. En la práctica se emplea siempre en
el caso en que
es una distribución teórica y
es la
distribución empírica
. Para una muestra fija, el
mejor ajuste será aquel para el cual la distancia de chi-cuadrado
es menor.
La otra noción de distancia que se emplea corrientemente para los ajustes es la distancia de Kolmogorov-Smirnov que es más general que la anterior. Es la distancia de la norma uniforme entre funciones de distribución.
En la práctica se emplea esta distancia en el caso en que es
la
función de
distribución de la ley teórica y
es la
función de
distribución empírica.
Recordemos que la función
de distribución empírica de la muestra
es la
función en escalera que vale 0 antes de
,
entre
y
, y
después de
(los
son los
estadígrafos de orden de la muestra). Toda función de
distribución es creciente. Como la función de distribución
empírica se mantiene constante entre dos valores sucesivos de los
estadígrafos de orden, para calcular la
distancia de
Kolmogorov-Smirnov, será suficiente evaluar la diferencia entre
y
en los puntos
.