Sección : Distribución empírica
Previo : Modelos probabilistas
Siguiente : Datos bidimensionales


Ajuste


Cuando las hipótesis de modelación conducen a suponer que las $ x_1,\ldots,x_n$ son realizaciones de variables aleatorias independientes y de una misma ley, la Ley de los Grandes Números justifica que se considere esta ley como próxima de la distribución empírica. Todas las carácterísticas usuales de la distribución empírica estarán cercanas a las carácterísticas análogas de la ley teórica. Llamamos problema de ajuste al problema que consiste en encontrar, dentro de una familia de leyes de probabilidad, aquella que se acerca más a una distribución empírica observada. Es frecuente que se efectúen transformaciones de los datos antes del ajuste. Por ejemplo en la Médicina, las leyes log-normales aparecen a menudo. Una variable aleatoria sigue una ley log-normal si su logaritmo sigue una ley normal. Entonces en lugar de ajustar directamente una ley log-normal, se empezará por transformar la muestra, reemplazando los datos por sus logaritmos y después se ajustará la nueva muestra por una ley normal.

Nos contentaremos en un primer momento por aproximaciones visuales, introduciremos a continuación medidas cuantitativas que permitan evaluar las distancias entre un modelo teórico y una distribución empírica.

El caso más frecuente en las aplicaciones es el de una muestra continua. La primera aproximación consiste en superponer en un mismo gráfico un histograma de los datos con una densidad $ f$ de la ley teórica. Encima de una clase, $ [a_{h-1},a_h[$, el histograma representa un rectángulo de superficie igual a la frecuencia empírica de esta clase. Si la muestra se produjo simulando la ley teórica, esta frecuencia empírica estará cerca de la probabilidad teórica, que es la integral de la densidad sobre la clase. En consecuencia el histograma estará cercano al valor medio de la densidad sobre la clase, o sea:

$\displaystyle \frac{1}{a_h-a_{h-1}}\int_{a_{h-1}}^{a_h} f(x)\,dx\;.
$


Un poco de experiencia permite reconocer a ojo cuando un histograma está demasiado lejos de una densidad para que el ajuste se considere bueno.

Gráfico 10: Estaturas de niños de 6 años. Superposición de un histograma y de la densidad de la ley normal con la misma media y varianza.


El inconveniente del histograma es que conlleva una parte importante de arbitrariedad en la elección de las clases. Otra solución consiste en comparar la función de distribución de la ley teórica con la función de distribución empírica $ \widehat{F}$. La justificación proviene también de la Ley de los Grandes Números. En el punto $ x$, la función de distribución empírica toma por valor la proporción de los datos que son inferiores a $ x$. Si los datos habían sido simulados a partir de la ley teórica, esta proporción debería estar cercana al valor correspondiente de la función de distribución teórica.

Gráfico 11: Estaturas de niños de 6 años. Superposición de la función de distribución empírica y de la función de distribución de la ley normal con la misma media y la misma varianza.


En general se prefiere efectuar un cambio de ejes que da una representación equivalente, pero más fácil de controlar visualmente: es el ajuste por cuantiles o QQ-plot o ploteo-QQ. Denotemos por $ Q$ la función cuantil de la ley teórica. En lugar de representar los puntos de coordenadas $ (x_{(i)},i/n)$ para la función de distribución empírica, el QQ-plot consiste en representar los puntos $ (x_{(i)},Q(i/n))$. Si el ajuste es correcto, la función cuantil empírica de la muestras debería estar cerca de la función cuantil teórica. En particular los puntos $ (x_{(i)},Q(i/n))$ estarán cerca de la primera bisectriz, lo que es fácil de verificar. (figura 12).

Gráfico 12: Estaturas de niños de 6 años. Ajuste por cuantiles de la ley normal con la misma media y varianza. Superposición de la primera bisectriz.


Por útiles que ellos sean, los métodos gráficos no constituyen una respuesta matemática al problema del ajuste. Para cuantificar el alejamiento de la distribución empírica con respecto a una ley teórica empleamos las distancias entre leyes de probabilidad. Introduciremos dos de estas distancias, la distancia de chi-cuadrado y la distancia de Kolmogorov-Smirnov. La distancia de chi-cuadrado concierne únicamente a las leyes discretas, pero es posible utilizarla también para muestras continuas reagrupadas en clases.

Definición 2.7   Sea $ \{c_1,\ldots,c_r\}$ un conjunto finito fijo. Sean $ P=(P(c_h))\,,\;h=1,\ldots,r$ y $ P^*=(P^*(c_h))\,,\;h=1,\ldots,r$ dos leyes de probabilidad sobre este conjunto. Llamamos distancia de chi-cuadrado de $ P^*$ con respecto a $ P$, y denotamos por $ D_{\chi^2}(P,P^*)$, a la cantidad:

$\displaystyle D_{\chi^2}(P,P^*) = \sum_{h=1}^r \frac{(P(c_h)-P^*(c_h))^2}{P(c_h)}\;.
$


La ''distancia'' de chi-cuadrado es por tanto una media ponderada de las diferencias cuadradas entre los valores de $ P$ y $ P^*$. No es una distancia en el sentido usual de la palabra, pues ni siquiera es simétrica. En la práctica se emplea siempre en el caso en que $ P$ es una distribución teórica y $ P^*$ es la distribución empírica $ \widehat{P}$. Para una muestra fija, el mejor ajuste será aquel para el cual la distancia de chi-cuadrado es menor.

La otra noción de distancia que se emplea corrientemente para los ajustes es la distancia de Kolmogorov-Smirnov que es más general que la anterior. Es la distancia de la norma uniforme entre funciones de distribución.

Definición 2.8   Sean $ F$ y $ F^*$ dos funciones de distribución de leyes de probabilidad (funciones de $ \mathbb {R}$ en $ [0,1]$. Llamamos distancia de Kolmogorov-Smirnov de $ F$ y $ F^*$, y denotamos por $ D_{KS}(F,F^*)$, a la cantidad:

$\displaystyle D_{KS}(F,F^*) = \sup_{x\in\mathbb {R}} \vert F(x)-F^*(x)\vert\;.
$


En la práctica se emplea esta distancia en el caso en que $ F$ es la función de distribución de la ley teórica y $ F^*=\widehat{F}$ es la función de distribución empírica. Recordemos que la función de distribución empírica de la muestra $ (x_1,\ldots,x_n)$ es la función en escalera que vale 0 antes de $ x_{(1)}$, $ i/n$ entre $ x_{(i)}$ y $ x_{(i+1)}$, y $ 1$ después de $ x_{(n)}$ (los $ x_{(i)}$ son los estadígrafos de orden de la muestra). Toda función de distribución es creciente. Como la función de distribución empírica se mantiene constante entre dos valores sucesivos de los estadígrafos de orden, para calcular la distancia de Kolmogorov-Smirnov, será suficiente evaluar la diferencia entre $ F$ y $ \widehat{F}$ en los puntos $ x_{(i)}$.

$\displaystyle D_{KS}(F,\widehat{F}) = \max_{i=1,\ldots,n}\,
\Big\{\,\Big\vert ...
...{n}\Big\vert\,,\,
\Big\vert F(x_{(i)})-\frac{i\!-\!1}{n}\Big\vert\,\Big\}\;.
$



Sección : Distribución empírica
Previo : Modelos probabilistas
Siguiente : Datos bidimensionales