Sección : Tests sobre muestras gaussianas
Previo : Tests de Fisher y de Student
Siguiente : Test de correlación


Análisis de varianza

En el parrafo precedente, hemos visto como el test de Student permitía hacer un test sobre el efecto de un tratamiento comparando con un grupo de control. Podríamos querer evaluar los efectos de varios tratamientos diferentes. El análisis de varianza (analysis of variance o ANOVA) puede ser visto como una generalización del test de Student.

Se quiere hacer un test sobre los efectos de $ k$ tratamientos que han sido administrados a $ n_1,\ldots,n_k$ individuos respectivamente. En el análisis de varianza, el parámetro que puede influir sobre los datos se llama un factor, y sus valores las modalidades (en este caso los diferentes tratamientos).

En el modelo probabilista, cada modalidad corresponde a una muestra. Para $ h=1,\ldots,k$, denotamos por:

$\displaystyle (X^{(h)}_1,\ldots,X^{(h)}_{n_h})\;,
$

a las variables aleatorias que modelan los datos del $ h$-ésimo grupo, que se suponen independientes y con una misma ley $ {\cal
N}(\mu_h,\sigma^2)$. Se supone que en particular la varianza $ \sigma^2$ es constante, hipótesis que puede ser validada a través de un test.

Se quiere saber si la variabilidad que se observa en los datos se debe solamente al azar o si existen efectivamente diferencias significativas entre las clases, imputables al factor. Para esto vamos comparar las varianzas empíricas de cada muestra con la varianza de la muestra global, de tamaño $ n_1+\cdots+n_k=n$. La media de las varianzas (ponderada por los efectivos) resume la variabilidad en el interior de las clases, de ahí el nombre de varianza intra-clases o varianza residual.

La varianza de las medias describe las diferencias entre las clases que pueden deberse al tratamiento, de aquí el nombre de varianza inter-clases, o varianza explicada. Si los tratamientos tienen efectivamente un efecto, se espera que la varianza explicada sea grande en comparación con la varianza residual. La descomposición de la varianza de la muestra global en varianza explicada y varianza residual se da explícitamente en el siguiente resultado.

Proposición 3.6   Se denota por:
$ \bullet$
$ \overline{X}^{(h)}$ la media empírica de la $ h$-ésima clase,
$ \bullet$
$ V^{(h)}$ la varianza empírica de la $ h$-ésima clase,
$ \bullet$
$ \overline{X}$ la media de la muestra global,
$ \bullet$
$ V_{intra} = \sum_{h=1}^k \frac{n_h}{n}V^{(h)}$ la media de las varianzas (varianza intra-clases),
$ \bullet$
$ V_{inter} = \sum_{h=1}^k \frac{n_h}{n}
(\overline{X}^{(h)}-\overline{X})^2$ la varianza de las medias (varianza inter-clases),
$ \bullet$
$ S^2$ la varianza de la muestra global.
Entonces:

$\displaystyle S^2 = V_{intra} + V_{inter}\;.
$

 
Demostración : Desarrollemos:
$\displaystyle S^2$ $\displaystyle =$ $\displaystyle \frac{1}{n}
\sum_{h=1}^k \sum_{i=1}^{n_h} (X^{(h)}_{i}- \overline{X})^2$  
  $\displaystyle =$ $\displaystyle \sum_{h=1}^k \frac{n_h}{n}
\frac{1}{n_h}\sum_{i=1}^{n_h} (X^{(h)}_{i}- \overline{X}^{(h)}
+\overline{X}^{(h)}-\overline{X})^2$  
  $\displaystyle =$ $\displaystyle \sum_{h=1}^k \frac{n_h}{n}
\frac{1}{n_h}\sum_{i=1}^{n_h} (X^{(h)}...
..._{i=1}^{n_h}(X^{(h)}_{i}- \overline{X}^{(h)})
(\overline{X}^{(h)}-\overline{X})$  
    $\displaystyle \hspace*{2cm}+\sum_{h=1}^k \frac{n_h}{n}\sum_{i=1}^{n_h}
\frac{1}{n_h}(\overline{X}^{(h)}-\overline{X})^2$  
  $\displaystyle =$ $\displaystyle V_{intra} + 0 + V_{inter}\;.$  

$ \square$
La hipótesis a comprobar es la igualdad de las esperanzas.

$\displaystyle {\cal H}_0\;:\;\mu_1=\cdots=\mu_k\;.
$

El inciso 3 del teorema 3.1 permite cuantificar la ley de las diferentes componentes de la varianza, empleando el hecho que la suma de dos variables independientes que siguen dos leyes de chi-cuadrado sigue también una ley de chi-cuadrado, y que su cociente ponderado sigue una ley de Fisher. Los resultados son los siguientes.

Proposición 3.7   Bajo la hipotesis $ {\cal H}_0$ :
$ \bullet$
$ n\displaystyle{\frac{V_{intra}}{\sigma^2}}$ sigue la ley de chi-cuadrado $ {\cal X}^2(n-k)$.
$ \bullet$
$ n\displaystyle{\frac{V_{inter}}{\sigma^2}}$ sigue la ley de chi-cuadrado $ {\cal X}^2(k-1)$.
$ \bullet$
$ \displaystyle{\frac{V_{inter}/(k-1)}{V_{intra}/(n-k)}}$ sigue la ley de Fisher $ {\cal F}(k-1,n-k)$.

El test ANOVA consiste entonces en rechazar la igualdad de las medias (aceptar que hay un efecto de los tratamientos), cuando el cociente ponderado entre la varianza explicada (inter-clases) y la variance residual (intra-clases) es significativamente más grande que los cuantiles de la ley $ {\cal F}(k-1,n-k)$. Retomemos los datos sobre las tasas de colesterol en sangre del parrafo precedente. El factor tiene dos modalidades. La varianza explicada vale $ 216$, la varianza residual $ 1960$. El cociente ponderado de las dos es $ 5.29$, con un p-valor de:

$\displaystyle 1-F_{{\cal F}(1,48)}(5.29) = 0.0258\;.
$

Es el doble del p-valor que habíamos encontrado para el test de Student. En el caso de un análisis de varianza con dos modalidades, el estadígrafo del test es el cuadrado del estadígrafo del test de Student. Si una variable aleatoria sigue la ley $ {\cal T}(n-2)$, su cuadrado sigue la ley $ {\cal
F}(1,n-2)$. Efectuar un análisis de varianza o un test de Student bilateral es estrictamente equivalente.
 

Si el análisis de varianza acepta la hipótesis de la igualdad de las esperanzas, el estudio está terminado. Pero si $ {\cal H}_0$ es rechazada, podríamos desear ir más allá y comparar los efectos de un factor, para subconjuntos de modalidades, realizando análisis de varianza parciales.
 

Se puede presentar el análisis de varianza con un factor desde un punto de vista ligeramente diferente. Escribamos cada una de las variables aleatorias de la muestra relativa a la $ h$-ésima modalidad en la forma:

$\displaystyle X^{(h)}_{i} = \mu + a_h + E^{(h)}_{ih}\;,
$

donde las variables aleatorias $ E^{(h)}_{i}$ (los errores o residuos del modelo) son independientes y de una misma ley $ {\cal
N}(0,\sigma^2)$. Los parámetros $ a_h$ son números reales tales que $ a_1+\cdots+a_k=0$. Nos encontramos con el modelo precedente poniendo $ \mu_h = \mu + a_h$. La hipótesis a comprobar será, por supuesto:

$\displaystyle {\cal H}_0\;:\;a_1=\cdots=a_k=0\;.
$

Esta presentación tiene la ventaja de aislar (en los parámetros $ a_h$) los efectos fijos de los factores. En los casos en que las modalidades son muy numerosas o si los tamaños de las muestras son muy pequeños, a veces se recurre a un modelo de efectos aleatorios :

$\displaystyle X^{(h)}_{i} = \mu + A_h + E^{(h)}_{i}\;,
$

donde los efectos $ A_h$ son $ k$ variables aleatorias independientes de ley normal $ {\cal N}(0,\sigma_A^2)$. La hipótesis $ {\cal H}_0$ se convierte en:

$\displaystyle {\cal H}_0\;:\;\sigma_A^2=0\;.
$

Aunque el modelo sea diferente, el procedimiento es rigurosamente idéntico.
 

El análisis de varianza se extiende al estudio de los efectos de varios factores. Es la base de un campo completo de la estadística, el diseño de experimentos.



Sección : Tests sobre muestras gaussianas
Previo : Tests de Fisher y de Student
Siguiente : Test de correlación