Sección : Estadígrafos de test
Previo : Estadígrafos de test
Siguiente : Reglas de decisión

Modelos probabilistas rechazables

Supongamos que un laboratorio quiera sacar al mercado un medicamento nuevo. Antes de ponerlo a disposición de la población en general, se realizan una serie de ensayos clínicos. Estos tratan de observar el efecto del medicamento sobre un grupo de enfermos, comparándolo eventualmente con el efecto de otros tratamientos. Para simplificar, supongamos que el nuevo medicamento ha curado a $ 87$ enfermos en un primer grupo de $ 100$, mientras que el tratamiento tradicional ha curado a $ 74$ enfermos de un grupo de $ 100$ empleado como control. ¿La mejoría es suficiente para lanzar el nuevo medicamento? No se podrá tomar una decisión a menos que se suponga que las $ 200$ personas observadas son representativas del conjunto de personas que seguirán el tratamiento y que los resultados hubiesen sido no muy diferentes en otro grupo de personas. La modelación consiste en suponer que las reacciones de los individuos a los tratamientos son realizaciones de variables aleatorias. Es el postulado básico de la Estadística:

Los valores observados son realizaciones de variables aleatorias.

Una serie de datos estadísticos se presenta bajo la forma de una $ n$-tupla de valores observados en una cierta población de individuos. La modelación interviene cuando uno quiere emplear estos valores para sacar conclusiones que serán aplicadas a individuos para los cuales todavía no se han realizado las observaciones. La teoría de las probabilidades provee instrumentos como la Ley de los Grandes Números o el Teorema del Límite Central, que permiten extraer de los datos lo que es reproducible y que podrá por tanto ser el fundamento para una predicción o una decisión.
 

Una vez que se admite este postulado de base, las hipótesis de modelación son enunciados que tienen que ver con la ley de probabilidad de la $ n$-tupla de variables aleatorias que modelan las observaciones. Según el caso, algunas de estas hipótesis parecerán naturales y no serán sometidas a validación. Por ejemplo, cuando se observa un carácter estadístico en una población, si el orden en que se toman los individuos no es importante, se tomará como hipótesis que los datos son realizaciones de variables aleatorias independientes y con una misma ley.

Definición 1.1   Sea $ P$ una ley de probabilidad en $ \mathbb {R}$. Se llama muestra de la ley $ P$ a una $ n$-tupla de variables aleatorias independientes y con la misma ley $ P$.

En el caso de un medicamento nuevo, para el que se quiere probar su eficacia, se considerará que los individuos son independientes y que sus respuestas (curado o no) es una variable binaria ($ 1$ o 0). Estamos entonces en el caso de una muestra de una ley de Bernoulli. La hipótesis que el laboratorio intenta validar es que el parámetro de la ley de Bernoulli, probabilidad de curarse por el nuevo medicamento, es superior al del antiguo tratamiento.
 

Todo el quehacer científico consiste en proponer teorías, que son a continuación confirmadas o rechazadas. Una teoría hace predicciones sobre el resultado de experimentos o mediciones futuras. Si una sola de estas predicciones resulta ser falsa, entonces toda la teoría es rechazada. Por el contrario, una predicción que resulta exacta, no hace más que reforzar la teoría, la cual no podrá ser nunca definitivamente demostrada. En estadística, las teorías son modelos probabilistas, que en general no pueden ser rechazados: ningún resultado observado es nunca totalmente incompatible con el modelo. En el caso de un medicamento no es imposible que por un hecho fortuito, ninguno de los individuos tratados se cure : es solamente muy poco verosímil. Al igual que sería sospechoso, pero no excluido, que todos los individuos sin excepción, se curen. El objetivo de los tests estadísticos es distinguir lo que es plausible de lo que es poco verosímil.
 

Las predicciones que surgen de una teoría son consecuencias especiales de ella. Consideremos, por ejemplo, la situación siguiente: queremos probar un generador aleatorio a partir de los valores que el da. En la práctica, un generador pseudo-aleatorio (función Random) calcula los términos sucesivos de una sucesión iterada determinista. Estos valores deben comportarse como ``números reales al azar entre 0 y $ 1$''. Esta frase esconde de hecho el modelo probabilista siguiente: los valores que da la función Random son realizaciones de variables aleatorias independientes con una misma ley, uniforme sobre $ [0\,,1]$. Este modelo probabilista tiene una infinitud de consecuencias que se pueden comprobar. Por ejemplo si el modelo es correcto, en $ 100$ llamadas a la función, el número de los valores que están entre $ 0.4$ y $ 0.9$ sigue la ley binomial $ {\cal
B}(100,0.5)$. No está completamente excluido que no se observe ninguno, pero es muy improbable (probabilidad $ 0.5^{100}$). Si en $ 100$ llamadas de la función Random, ningún valor se encuentra entre $ 0.4$ y $ 0.9$, tendremos buenas razones para poner en duda el modelo. Pero si el número de valores dados por Random que se encuentran entre $ 0.4$ y $ 0.9$ es de 46, lo más que se podrá decir es que este resultado es plausible. Esto puede reforzar nuestra confianza en el modelo, pero esto no predice el resultado de otros tests: ningún test estadístico podrá nunca demostrar que el modelo es el bueno, ni que es el único posible.

Podemos pensar en otras formas de probar un generador pseudo-aleatorio. Por ejemplo : sobre $ 100$ pares de llamadas consecutivas, el número de pares para los cuales el primer elemento es inferior al segundo sigue también la ley binomial $ {\cal
B}(100,0.5)$ ; o también, el número de llamadas sucesivas entre dos valores que están en el intervalo $ [0.4\,,\,0.9]$ sigue la ley geométrica $ {\cal G}(0.5)$ : cualquier valor positivo es posible, pero un valor superior a $ 100$ es muy poco verosímil ; el opuesto del logaritmo del producto de $ 100$ valores sigue la ley gamma $ {\cal G}(100,1)$ : todo valor estrictamente positivo es posible pero un valor inferior a $ 10$ es muy poco verosímil.

Podríamos dar muchos otros ejemplos: la validación estadística de los generadores pseudo-aleatorios ha sido el objeto de estudio de una gran cantidad de trabajos.
 

En resumen la situación es la siguiente. Los datos observados son modelados por variables aleatorias $ (X_1,\ldots,X_n)$. Toda función de las $ X_i$ se llama un estadígrafo o un estadístico de las variables. En particular la decisión que se tomará a partir de los datos, es un estadígrafo binario (rechazo o no). Las hipótesis tienen que ver con la ley conjunta de las $ X_i$. Buscamos hacer un test sobre una hipótesis en particular, que lleva tradicionalmente el nombre de hipótesis nula, y que denotaremos por $ {\cal H}_0$. En el ejemplo del test de la eficacia de un medicamento, la hipótesis nula podría ser que el medicamento no hace efecto. Para una $ n$-tupla de llamadas de la función Random, la hipótesis nula podría ser que la presencia de un valor entre $ 0.4$ y $ 0.9$ sigue la ley de Bernoulli de parámetro $ 0.5$. Un test es una decisión tomada a partir de los datos, para la cual se controla la probabilidad de rechazar $ {\cal H}_0$ erróneamente.

Definición 1.2   Un test de umbral (o nivel) $ \alpha$ para la hipótesis $ {\cal H}_0$ es un estadígrafo binario (rechazo o no de $ {\cal H}_0$), tal que:

$\displaystyle \mathbb {P}_{{\cal H}_0}[\,$Rechazo de $\displaystyle {\cal H}_0\,] = \alpha\;.
$

La hipótesis $ {\cal H}_0$ implica el conocimiento de la ley de una cierta variable aleatoria, llamada el estadígrafo del test. Por ejemplo, si el medicamento no hace efecto, la hipótesis nula implica que los individuos curados en un grupo de $ n$ individuos sigue la ley binomial $ {\cal
B}(n,p_0)$, donde $ p_0$ es la probabilidad (que suponemos conocida) de curarse sin tratamiento. Para $ n$ llamadas de un generador pseudo-aleatorio, el número de resultados entre $ 0.4$ y $ 0.9$ sigue la ley $ {\cal B}(n,0.5)$. Falta, entonces, separar entre los valores del estadígrafo del test, aquellos que son plausibles, de aquellos que son poco verosímiles. Este es el objeto de estudio del próximo parrafo.



Sección : Estadígrafos de test
Previo : Estadígrafos de test
Siguiente : Reglas de decisión