Sección : Tests sobre muestras gaussianas
Previo : Valores de la esperanza y de la varianza
Siguiente : Análisis de varianza


Tests de Fisher y de Student

Los tests de Fisher y de Student sirven para comparar las medias y las varianzas de dos muestras gaussianas. Retomemos el ejemplo del tratamiento destinado a disminuir los niveles de colesterol en sangre. Se miden los niveles de colesterol en una población de control sin tratamiento, se hace lo mismo en un grupo de individuos después del tratamiento. El nivel promedio de colesterol después del tratamiento es inferior (eso es lo que se espera) al nivel promedio del grupo de control. El problema es saber si la diferencia observada basta para rechazar la hipótesis $ {\cal H}_0$, es decir que el tratamiento no tiene ningún efecto sobre el nivel de colesterol.

Para el modelo probabilista se consideran dos muestras independientes:

$ \bullet$
$ (X_1,\ldots,X_{n_x})$ es una muestra de la ley $ {\cal N}(\mu_x,\sigma^2_x)$,
$ \bullet$
$ (Y_1,\ldots,Y_{n_y})$ es una muestra de la ley $ {\cal
N}(\mu_y,\sigma^2_y)$.
Denotamos por:
$ \bullet$
$ \overline{X} = \displaystyle{\frac{1}{n_x}
\sum_{i=1}^{n_x} X_i}$ y $ \overline{Y} =
\displaystyle{\frac{1}{n_y} \sum_{j=1}^{n_y} Y_j}$ las medias empíricas,
$ \bullet$
$ S_x^2 = \displaystyle{\frac{1}{n_x}
\sum_{i=1}^{n_x} (X_i-\overline{X})^2}$ y $ S_y^2 =
\displaystyle{\frac{1}{n_y} \sum_{j=1}^{n_y}
(Y_j-\overline{Y})^2}$ las varianzas empíricas.
El resultado teórico que permite comparar las medias empíricas, presupone el hacer la hipótesis que las varianzas teóricas $ \sigma^2_x$ y $ \sigma^2_y$ son iguales. El objetivo del test de Fisher es comprobar esta hipótesis:

$\displaystyle {\cal H}_0\;:\; \sigma^2_x = \sigma^2_y\;.
$

Según el teorema 3.1, los cocientes de las varianzas empíricas por las varianzas exactas siguen leyes de chi-cuadrado. El cociente ponderado de dos variables aleatorias independientes que siguen leyes de chi-cuadrado sigue una ley de Fisher.

Teorema 3.3   El cociente:

$\displaystyle \frac{\displaystyle{\frac{n_x}{n_x-1}\frac{S_x^2}{\sigma_x^2}}}
{\displaystyle{\frac{n_y}{n_y-1}\frac{S_y^2}{\sigma_y^2}}}
$

sigue la ley de Fisher $ {\cal F}(n_x\!-\!1,n_y\!-\!1)$.

El estadígrafo del test de Fisher es:

$\displaystyle T=\frac{\frac{n_x}{n_x-1}S_x^2}
{\frac{n_y}{n_y-1}S_y^2}\;.
$

Si $ {\cal H}_0$ es verdad, $ T$ sigue la ley $ {\cal F}(n_x\!-\!1,n_y\!-\!1)$. Se rechazará $ {\cal H}_0$ si el valor observado para $ T$ es muy grande o muy pequeño. Es, por tanto, un test bilateral cuya regla de rechazo al umbral $ \alpha$ es:

   Rechazo de $\displaystyle {\cal H}_0\;\Longleftrightarrow\; T\notin
[\,Q_{{\cal F}(n_x-1,n_y-1)}(\alpha/2)\,,\, Q_{{\cal
F}(n_x-1,n_y-1)}(1-\alpha/2)\,]\;.
$

Bajo la hipótesis de la igualdad de las varianzas, el teorema que presentamos a continuación, permite evaluar las diferencias entre medias empíricas.

Teorema 3.4   Si $ \sigma_x=\sigma_y$, la variable aleatoria:

$\displaystyle \frac{\sqrt{n_x+n_y-2}}{\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}
\frac{(\overline{X}-\overline{Y}) - (\mu_x-\mu_y)}
{\sqrt{n_xS_x^2+n_yS_y^2}}\;,
$

sigue la ley de Student $ {\cal T}(n_x+n_y-2)$.

Este resultado permite hacer un test de la hipótesis:

$\displaystyle {\cal H}_0\;:\; \mu_x = \mu_y\;,
$

comparando el valor que toma el estadígrafo:

$\displaystyle \frac{\sqrt{n_x+n_y-2}}{\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}
\frac{(\overline{X}-\overline{Y})}
{\sqrt{n_xS_x^2+n_yS_y^2}}\;,
$

con los cuantiles de la ley de Student $ {\cal T}(n_x+n_y-2)$. Este procedimiento lleva el nombre de test de Student. Supongamos que entre los $ 30$ pacientes del grupo de control se observó un nivel promedio de colesterol de $ 240$mg/dl con una desviación estándar de $ 50$mg/dl. En los $ 20$ pacientes con tratamiento se observó un promedio de $ 210$mg/dl con una desviación estándar de $ 50$mg/dl. El estadígrafo del test de Fisher toma el valor $ 0.629$, que corresponde a un p-valor (para el test bilateral) de:

$\displaystyle 2F_{{\cal F}(29,19)}(0.629) = 0.2538\;.
$

En consecuencia se aceptará la hipótesis de la igualdad de las varianzas. El estadígrafo del test de Student toma el valor $ 2.30$, con un p-valor de:

$\displaystyle 1-F_{{\cal T}(48)}(2.30) = 0.0129\;.
$

Se rechaza $ {\cal H}_0$ al umbral $ \alpha=0.05$, la disminución de la tasa de colesterol es considerada como significativa.
 

La hipótesis de normalidad, bajo la cual se emplean los tests de Fisher y Student, no siempre es válida. Para muestras de gran tamaño, el Teorema del Límite Central asegura la normalidad asintótica de las medias empíricas. El siguiente resultado no supone ni que las muestras son gaussianas ni que sus varianzas son iguales.

Teorema 3.5   Cuando $ n_x$ y $ n_y$ tienden a infinito, la ley de la variable aleatoria:

$\displaystyle \frac{(\overline{X}-\overline{Y}) - (\mu_x-\mu_y)}
{\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}}\;,
$

converge a la ley normal $ {\cal
N}(0,1)$.

Retomemos los datos del ejemplo anterior. El estadígrafo:

$\displaystyle \frac{\overline{X}-\overline{Y}}
{\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}}\;,
$

toma el valor $ 2.246$, cuyo p-valor con respecto a la ley $ {\cal
N}(0,1)$ es:

$\displaystyle 1- F_{{\cal N}(0,1)}(2.246) = 0.0123\;.
$




Sección : Tests sobre muestras gaussianas
Previo : Valores de la esperanza y de la varianza
Siguiente : Análisis de varianza