Sección : Tests no paramétricos
Previo : Test de proporciones
Siguiente : Tests sobre muestras gaussianas


Tests de Wilcoxon y Mann-Whitney

Retomemos el problema de hacer un test del efecto de un tratamiento sobre un carácter dado (por ejemplo la tasa de colesterol). Los valores de colesterol medidos a un grupo de control sin tratamiento corresponden a una primera muestra $ (X_1,\ldots,X_{n_x})$ de la ley $ P_x$. En otro grupo, con tratamiento, los valores medidos son los de una segunda muestra $ (Y_1,\ldots,Y_{n_y})$ correspondientes a la ley $ P_y$. Las dos leyes $ P_x$ y $ P_y$ son desconocidas. Si el tratamiento no tiene ningún efecto (hipótesis nula), las dos leyes son idénticas.

$\displaystyle {\cal H}_0\;:\; P_x=P_y\;.
$

La idea del test de Wilcoxon es la siguiente: si unimos las dos muestras, y ponemos los valores en orden, la alternancia entre las $ X_i$ y las $ Y_j$ debería ser bastante regular. Tendríamos dudas sobre $ {\cal H}_0$ si los $ Y_j$ eran en general más grandes que los $ X_i$, o más pequeños, o más frecuentes en ciertos tramos de la sucesión de valores. Comenzamos por tanto por escribir los estadígrafos de orden de la muestra global (si hay valores iguales se escoge al azar una permutación de ellos) Se obtiene así una sucesión de los valores $ X_i$ y $ Y_j$ mezclados. A continuación se calcula la suma de los rangos de los $ X_i$, que denotamos por $ W_x$ (es el estadígrafo de Wilcoxon). Bajo la hipótesis $ {\cal H}_0$, la ley de $ W_x$ se calcula fácilmente: en una muestra de tamaño $ n_x+n_y$ hay $ (n_x+n_y)!$ ordenes posibles. El número de formas posibles de distribuir a los $ X_i$ es $ \binom{n_x+n_y}{n_x}$, y son todos equiprobables. Por tanto para todo entero $ m$ entre $ \binom{n_x}{2}$ y $ \binom{n_x+n_y}{2}-\binom{n_y}{2}$ tenemos:

$\displaystyle \mathbb {P}_{{\cal H}_0}[\,W_x = m\,] =
\frac{k_m}{\binom{n_x+n_y}{n_x}}\;,
$

donde $ k_m$ denota el número de $ n_x$-tuplas de enteros $ r_1,\ldots,r_{n_x}$ que satisfacen:

$\displaystyle 1\leq r_1<r_2<\cdots<r_{n_x}\leq n_x+n_y\;.
$

Es fácil tabular numéricamente la ley de $ W_x$ para valores razonables de $ n_x$ y $ n_y$. Para valores grandes, se dispone del siguiente resultado de aproximación normal:

Teorema 2.8   Bajo la hipótesis $ {\cal H}_0$, la ley de :

$\displaystyle \frac{W_x - n_x(n_x+n_y+1)/2}{\sqrt{n_xn_y(n_x+n_y+1)/12}}
$

converge a la ley normal $ {\cal
N}(0,1)$.

Aquí presentamos dos muestras de tamaño $ 10$.

\begin{displaymath}
\begin{array}{c}
5.7\,,\;3.2\,,\;8.4\,,\;4.1\,,\;6.9\,,\;
...
...4.6\,,\;
1.6\,,\;8.5\,,\;7.1\,,\;8.7\,,\;5.7\,.
\end{array}
\end{displaymath}

Este es el estadígrafo de orden de la muestra reagrupada de tamaño $ 20$ (los valores $ X_i$ de la primera muestra están subrayados).

\begin{displaymath}
\begin{array}{c}
1.6\,,\;\underline{1.7}\,,\;\underline{2....
...,,\;8.1\,,\;
\underline{8.4}\,,\;8.5\,,\;8.7\,.
\end{array}
\end{displaymath}

El estadígrafo $ W_x$ toma el valor:

$\displaystyle 2+3+4+5+7+9+12+13+15+18 = 88\;.
$

Los valores de la primera muestra tienen tendencia a ser más pequeños que los de la segunda muestra. Se quiere saber si esta tendencia es significativa, realizaremos por tanto un test unilateral a la izquierda (rechazo de un valor muy pequeño de $ W_x$). El p-valor correspondiente es:

$\displaystyle p(88) = 0.1088\;.
$


 

El test de Mann-Whitney se obtiene a partir de otro punto de vista, pero es equivalente al anterior. En el ejemplo presentado anteriormente, queríamos verificar que los valores de la primera muestra eran con mayor frecuencia más pequeños que los de la segunda muestra. Para esto podíamos haber contado el número de pares $ (X_i,Y_j)$ para los cuales $ X_i>Y_j$ (con una decisión aleatoria en caso de igualdad):

$\displaystyle U = \sum_{i=1}^{n_x}\sum_{j=1}^{n_y} \mathbb {I}_{X_i>Y_j}\;.
$

Se verifica fácilmente que los dos estadígrafos $ U$ y $ W_x$ están relacionados por la expresión siguiente:

$\displaystyle U = W_x - n_x(n_x+1)/2\;.
$

Los dos tests son, por tanto, completamente equivalentes. En nuestro ejemplo, el estadígrafo $ U$ toma el valor :

$\displaystyle 1+1+1+1+2+3+5+5+6+8 = 33 = 88-55\;.
$




Sección : Tests no paramétricos
Previo : Test de proporciones
Siguiente : Tests sobre muestras gaussianas