Sección : Tests no paramétricos
Previo : Test de ajuste de chi-cuadrado
Siguiente : Test de proporciones

Test de chi-cuadrado de contingencia

Un caso particular del test de chi-cuadrado, que permite hacer un test sobre la independencia de dos carácteres estadísticos, lleva el nombre de test de chi-cuadrado de contingencia. Los dos carácteres, observados en una misma población, son $ X$ e $ Y$, el tamaño de la muestra es $ n$. Las modalidades o clases de $ X$ se denotan $ c_1,\ldots,c_r$, las de $ Y$ por $ d_1,\ldots,d_s$. También vamos a denotar :

$ \bullet$
$ n_{hk}$ el efectivo conjunto de $ c_h$ y $ d_k$ : es el número de individuos para los cuales $ X$ toma el valor $ c_h$ e $ Y$ el valor $ d_k$,
$ \bullet$
$ n_{h\bullet}=\sum_{k=1}^s n_{hk}$ el efectivo marginal de $ c_h$ : es el número de individuos para los cuales $ X$ toma el valor $ c_h$,
$ \bullet$
$ n_{\bullet k}=\sum_{h=1}^r n_{hk}$ el efectivo marginal de $ d_k$ : es el número de individuos para los cuales $ Y$ toma el valor $ d_k$.

Estos valores se representan en una tabla de doble entrada conocida como tabla de contingencia.

\begin{displaymath}
\begin{array}{\vert c\vert\vert c\vert c\vert c\vert c\vert...
...n_{\bullet k}&\ldots&n_{\bullet s}&n\\
\hline
\end{array}
\end{displaymath}

Cada fila y cada columna corresponden a una submuestra particular. La fila de índice $ h$ es la distribución en las clases $ d_1,\ldots,d_s$ de los individuos para los cuales el carácter $ X$ toma el valor $ c_h$. La columna de índice $ k$ es la distribución en las clases $ c_1,\ldots,c_r$ de los individuos para los cuales el carácter $ Y$ toma el valor $ d_k$. Dividiendo las filas y las columnas por su suma, se obtienen frecuencias condicionales para cada una de las distribuciones empíricas. Para $ h=1,\ldots,r$ y $ k=1,\ldots,s$, las denotaremos por:

$\displaystyle f_{k\vert h} = \frac{n_{hk}}{ n_{h\bullet}}$   y$\displaystyle \quad f_{h\vert k} =
\frac{n_{hk}}{ n_{\bullet k}}\;.
$

Estas distribuciones empíricas condicionales se llaman los perfiles fila y los perfiles columna. Para el modelo probabilista, las observaciones provienen de una muestra
$ ((X_1,Y_1),\ldots,(X_n,Y_n))$ de una ley bidimensional. La hipótesis a comprobar es que los dos marginales de esta ley son independientes. Si este es el caso, los perfiles fila diferirán poco de la distribución empírica de $ Y$ y los perfiles columna de la de $ X$:

$\displaystyle f_{k\vert h} = \frac{n_{hk}}{n_{h\bullet}}\approx f_{\bullet k} =
\frac{n_{\bullet k}}{ n}$   y$\displaystyle \quad f_{h\vert k} =
\frac{n_{hk}}{n_{\bullet k}}\approx f_{h\bullet} =
\frac{n_{h\bullet}}{n}\;.
$

Es equivalente a decir que las frecuencias conjuntas deben estar cerca de los productos de las frecuencias marginales.

$\displaystyle f_{hk} = \frac{n_{hk}}{n} \approx f_{h\bullet}\, f_{\bullet k}
=\frac{n_{h\bullet}}{n}\,\frac{n_{\bullet k}}{n}\;.
$

Las frecuencias conjuntas por un lado (distribución observada), y los productos de frecuencias marginales por el otro (distribución teórica), constituyen dos distribuciones de probabilidad sobre el conjunto producto $ \{c_1,\ldots,c_r\}\times\{d_1,\ldots,d_s\}$. Podemos, por tanto, calcular la distancia de chi-cuadrado de una con respecto a la otra.

Proposición 2.5   La distancia de chi-cuadrado de contingencia de la distribución empírica $ (f_{hk})$ a la distribución teórica estimada $ (f_{h\bullet}f_{\bullet k})$ vale:
$\displaystyle D_{\chi^2}$ $\displaystyle =$ $\displaystyle \sum_{h=1}^r\sum_{k=1}^s \frac{(f_{hk} -f_{h\bullet}\,
f_{\bullet k})^2 }{f_{h\bullet}\,f_{\bullet k}}$  
  $\displaystyle =$ $\displaystyle -\!1+\sum_{h=1}^r\sum_{k=1}^s \frac{n_{hk}^2}{n_{h\bullet}\,
n_{\bullet k}}\;.$  

 

Demostración : La primera expresión es la aplicación directa de la definición 2.3. Para obtener la segunda desarrollamos el cuadrado.

$\displaystyle D_{\chi^2}$ $\displaystyle =$ $\displaystyle \sum_{h=1}^r\sum_{k=1}^s \frac{f_{hk}^2
}{f_{h\bullet}\,f_{\bulle...
...=1}^r\sum_{k=1}^s f_{hk}
+ \sum_{h=1}^r\sum_{k=1}^s f_{h\bullet}\,f_{\bullet k}$  
  $\displaystyle =$ $\displaystyle \sum_{h=1}^r\sum_{k=1}^s \frac{f_{hk}^2
}{f_{h\bullet}\,f_{\bullet k}} \;-2\;+1$  
  $\displaystyle =$ $\displaystyle -\!1+\sum_{h=1}^r\sum_{k=1}^s \frac{n_{hk}^2}{n_{h\bullet}\,
n_{\bullet k}}\;.$  

$ \square$

Por lo dicho anteriormente, para $ n$ suficientemente grande, podemos aproximar la ley de $ nD_{\chi^2}$ por la ley de chi-cuadrado cuyo parámetro es el número de clases menos $ 1$, restando además el número de parámetros estimados a partir de los datos agrupados en clases. Aquí, son las frecuencias marginales las que han sido estimadas. Hay $ r\!-\!1$ para el carácter $ X$ y $ s\!-\!1$ para el carácter $ Y$ (la última es el complemento a $ 1$ de la suma de las otras). El parámetro de la ley chi-cuadrado será por tanto:

$\displaystyle rs-1-(r-1)-(s-1) = (r-1)(s-1)\;.
$

Vamos a presentar un ejemplo de dos carácteres binarios, que tienen que ver con enfermos, para los cuales se ha observado si tienen o no una tendencia al suicidio (carácter $ X$). Las enfermedades han sido clasificadas como ''psicosis'' y ''neurosis'' (carácter $ Y$). Se quiere saber si existe una dependencia entre las tendencias al suicidio y la clasificiación de los enfermos. Supongamos que la tabla de contingencia observada es:

 
tendencia
sin tendencia
total
psicosis
20
180
200
neurosis
60
140
200
total
80
320
400

La distancia de chi-cuadrado de contingencia, calculada a partir de esta tabla es de $ 0.0625$. El valor tomado por el estadígrafo $ nD_{{\cal X}^2}$ es $ 25$, el cual debemos comparar con la ley $ {\cal X}^2(1)$. El p-valor es de:

$\displaystyle 1- F_{{\cal X}^2(1)}(25) = 5.733\,10^{-7}\;.
$

Rechazamos la hipótesis nula y concluimos que hay una dependencia entre la tendencia al suicidio y la clasificación de las enfermedades.

El test no precisa el sentido de esta dependencia. Para describirla hay que comparar las proporciones de los suicidas entre los neuróticos ($ 60/200$) y entre los sicóticos ($ 20/200$). El test de proporciones formaliza esta comparación.



Sección : Tests no paramétricos
Previo : Test de ajuste de chi-cuadrado
Siguiente : Test de proporciones