Sección : Tests sobre muestras gaussianas
Previo : Test de correlación
Siguiente : Hipótesis alternativas


Modelo lineal

En numerosas situaciones, se busca explicar las diferencias observadas en un carácter estadístico, atribuyendo estas diferencias a otros carácteres observados en los mismos individuos. En el análisis de varianza, los carácteres explicativos (factores) sólo podían tomar un número finito de modalidades. Los modelos de regresión están, sobre todo, adaptados al caso en que los carácteres explicativos son continuos. La modelación probabilista considera que la medición (a explicar) en un individuo dado es una variable aleatoria, cuya ley depende de los valores que toman en ese individuo los carácteres explicativos, considerados como deterministas. Si $ Y_i$ denota la variable aleatoria asociada al individuo $ i$, y $ (x^{(1)}_i,\ldots,x^{(k)}_i)$ los valores que toman para ese individuo los carácteres explicativos $ (x^{(1)},\ldots,x^{(k)})$, se separará el efecto determinista y el efecto aleatorio con un modelo del tipo:

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,
$

donde $ (E_1,\ldots,E_n)$ es una $ n$-tupla de variables aleatorias de misma ley. Se habla entonces de un modelo de regresión. La función $ f$ depende de uno o varios parámetros desconocidos que se deben estimar. Se escoge para esto minimizar el error cuadrático definido por:

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.
$

En algunos casos clásicos, se sabe resolver explícitamente este problema de minimización, y la solución está implementada en los sistemas de cálculo estadístico. Cuando una solución explícita es imposible, se recurre a algoritmos de minimización, uno de ellos es el algoritmo del gradiente.

Nosotros consideraremos solamente la regresión lineal simple :

$\displaystyle Y_i = a x_i + b +E_i\;,
$

donde $ (E_1,\ldots,E_n)$ es una muestra de la ley normal $ {\cal
N}(0,\sigma^2)$. En otras palabras, se supone que las $ Y_i$ son variables aleatorias gaussianas independientes, de esperanzas $ ax_i+b$ diferentes, pero con la misma varianza $ \sigma^2$. El modelo tiene $ 3$ parámetros desconocidos, $ a$, $ b$, y $ \sigma^2$.

Los valores de $ a$ y $ b$ que minimizan el error cuadrático se expresan en función de las medias, varianzas y covarianzas empíricas de $ x$ y de $ Y$. Denotamos:

$ \bullet$
$ \overline{x}=\frac{1}{n}\sum x_i$ la media empírica de $ x$.
$ \bullet$
$ s^2_x=\frac{1}{n}\sum
(x_i-\overline{x})^2$ la varianza empírica de $ x$.
$ \bullet$
$ \overline{Y}=\frac{1}{n}\sum Y_i$ la media empírica de $ Y$.
$ \bullet$
$ S^2_Y=\frac{1}{n}\sum
(Y_i-\overline{Y})^2$ la varianza empírica de $ Y$.
$ \bullet$
$ c_{xY} = \frac{1}{n}\sum
(x_i-\overline{x}) (Y_i-\overline{Y})$ la covarianza de $ x$ y $ Y$.
$ \bullet$
$ r_{xY} = \frac{c_{xY}}{\sqrt{s_x^2S_Y^2}}$ el coeficiente de correlación de $ x$ y $ Y$.
Se estiman $ a$ y $ b$ minimizando el error cuadrático:

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.
$

Se obtienen así los estimadores llamados de mínimos cuadrados :

$\displaystyle A= \frac{c_{xY}}{s_x^2}$   y$\displaystyle \quad B= \overline{Y} - A
\overline{x}\;.
$

El error cuadrático minimal es:

$\displaystyle EQ(A,B)=S_Y^2(1-r_{xY}^2)\;.
$

Estas tres variables aleatorias son estimadores convergentes de $ a$, $ b$ y $ \sigma^2$ respectivamente. Se obtiene un estimador sin sesgo y convergente de $ \sigma^2$ tomando:

$\displaystyle V=\frac{n}{n-2} EQ(A,B)\;.
$

El siguiente resultado permite calcular las leyes de estos estimadores, y por tanto deducir tests sobre los valores de los parámetros. Se le puede considerar como una extensión del teorema 3.1.

Teorema 3.9   Con las notaciones precedentes :
  1. $ \displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2}}(A-a)}$ sigue la ley normal $ {\cal
N}(0,1)$.
  2. $ \displaystyle{\sqrt{\frac{ns_x^2}{V}}(A-a)}$ sigue la ley de Student $ {\cal T}(n-2)$.
  3. $ \displaystyle{(n-2)\frac{V}{\sigma^2}}$ sigue la ley de chi-cuadrado $ {\cal X}^2(n\!-\!2)$.

La primera hipótesis que queremos comprobar es que el carácter explicativo no aporta información, es decir que la pendiente $ a$ de la recta de regresión lineal es nula:

$\displaystyle {\cal H}_0\;:\;a=0\;.
$

Según que $ \sigma^2$ se suponga conocido o desconocido, se utilizará el inciso 1 o el inciso 2 del teorema. Supongamos por ejemplo que $ \sigma^2$ sea desconocido, el estadígrafo de test es:

$\displaystyle T= \sqrt{\frac{ns_x^2}{V}}A\;.
$

Para el test bilateral de umbral $ \alpha$, la regla de decisión es:

   Rechazo de $\displaystyle {\cal H}_0\;\Longleftrightarrow\; T\notin
[\,Q_{{\cal T}(n-2)}(\alpha/2)\,,\, Q_{{\cal
T}(n-2)}(1-\alpha/2)\,]\;.
$

Este test está evidentemente muy cercano del test de correlación, aún si las hipótesis de modelación son diferentes.



Sección : Tests sobre muestras gaussianas
Previo : Test de correlación
Siguiente : Hipótesis alternativas