El
test de
chi-cuadrado es únicamente
para las leyes discretas, pero se puede utilizar también para
muestras continuas agrupadas en clases. El caso típico es, como
siempre, el de una muestra
de una ley
desconocida. Las clases, denotadas
, son una
partición del conjunto de los valores posibles. La hipótesis a
comprobar tiene que ver con las probabilidades de las clases, para
las cuales se toman valores teóricos
.
Bajo la
hipótesis
, la
distribución empírica de
la muestra sobre las clases debe estar cerca de la distribución
teórica. La distribución empírica es la de las
frecuencias
de la muestra en las clases:
Se mide el ajuste de la distribución empírica a la distribución teórica por la distancia de chi-cuadrado.
La ''distancia'' de chi-cuadrado es por tanto una media ponderada
de las diferencias cuadráticas entre los valores de y
. No es una distancia en el sentido usual del
término, pues ni siquiera es simétrica.
La ley de probabilidad de
no tiene
una expresión explícita en general. Se emplea entonces el
siguiente resultado.
El ejemplo clásico del test es
la experiencia de Mendel. En los guisantes, el carácter del color
esta codificado por un gen que toma dos formas de alelo y
,
correspondientes a los colores amarillo y verde respectivamente.
El amarillo es dominante, el verde recesivo. La forma lisa o
arrugada es llevada por otro gen con dos alelos
(dominante) y
(recesivo). Si se cruzan dos individuos cuyo genotipo es
, se pueden obtener
genotipos equiprobables. Los
descendientes serán amarillos y lisos en
casos de los
,
amarillos y arrugados en
de los
, verdes y lisos en
de
los
, verdes y arrugados en
caso de los
. En sus
experiencias Mendel obtuvo los siguientes resultados.
![]() |
||||
![]() |
El valor que toma el estadígrafo
es de
. Según el teorema 2.4, la región de
rechazo debe ser calculada con respecto a la
ley de
chi-cuadrado
. Por ejemplo, para un
umbral
, deberíamos
rechazar los valores superiores a
. El
p-valor de
es
. El resultado es por tanto completamente compatible con
, de hecho es un poco ``demasiado'' compatible: son
muchos los que piensan que Mendel pudo haber arreglado los
resultados de sus experimentos para que estos coincidieran tan
bien con su teoría !
El ejemplo que damos a
continuación tiene que ver con familias de
hijos
para las cuales se conoce el número de varones, entre 0 y
.
El modelo más simple que podemos proponer es que los nacimientos
son independientes y los dos sexos son equiprobables. Por tanto la
hipótesis nula es que la ley del número de varones para una
familia de hijos sigue la ley binomial
. Las
frecuencias, observadas y teóricas, son las siguientes.
![]() |
|||||
![]() |
El valor que toma el estadígrafo
es de
. Según el teorema 2.4, la región de
rechazo debe ser calculada con respecto a la ley chi-cuadrado de
parámetro
. Por ejemplo para un umbral de
,
deberíamos rechazar los valores superiores a
. El p-valor de
es
. Podemos, por tanto, rechazar la
hipótesis
.
El teorema 2.4 es un resultado
asintótico. Para poder usarlo, el orden del tamaño de las
muestras debe ser al menos de las centenas. Además la
aproximación que describe es menos buena cuando las
probabilidades de las clases son débiles. Como regla empírica,
se exige que los efectivos teóricos de cada clase sean
al menos iguales a
. Para alcanzar este objetivo a veces hay que
recurrir al reagrupamiento de las clases : se forman
nuevas clases uniendo varias de las iniciales, y se suman
las frecuencias empíricas y las probabilidades teóricas de las
clases agrupadas.
El
test de
chi-cuadrado se emplea con
frecuencia para hacer un test de la bondad de ajuste a una familia
particular de leyes que dependen de uno o más parámetros. En
este caso, se debe estimar el parámetro a partir de los datos.
El teorema 2.4 no es ya del todo válido. Si se han
estimado parámetros por el método de
máximo de
verosimilitud, a partir de las frecuencias de las diferentes
clases, se debe remplazar la ley
por la ley
.
Retomemos el ejemplo del número de varones en una familia de
hijos, pero esta vez para probar la hipótesis nula:
El parámetro es desconocido y debe ser estimado. El estimador de máximo de
verosimilitud (el cual maximiza la probabilidad de los datos
observados) es en este caso la proporción total de varones entre los
niños. Encontramos:
Ahora aplicamos el test, pero con la distribución teórica
calculada teniendo en cuenta el valor estimado del parámetro: la
ley
.
![]() |
|||||
![]() |
El valor que toma el estadígrafo
es ahora de
. Debe ser comparado con los valores de la ley
chi-cuadrado de parámetro
. El p-valor de
es
, lo cual muestra que el
resultado es perfectamente compatible con la hipótesis
.
Al comparar los resultados de los dos tests precedentes, se puede
aceptar la idea que los nacimientos son independientes, pero la
proporción de los varones es significativamente superior a
.
Con frecuencia hay que estimar parámetros a
partir de datos no agrupados, o por otro método diferente al de
máximo de verosimilitud. En ese caso no se dispone de un
resultado teórico claro. El valor límite a partir del cual se
debe rechazar la hipótesis
al umbral
está comprendido entre
y
. En la práctica, después de
haber calculado el valor
que toma
teniendo en cuenta los
parámetros estimados, es prudente tomar la siguiente actitud: