Sección : Datos bidimensionales
Previo : Covarianza
Siguiente : Regresiones múltiples


Regresión lineal simple


En un problema de regresión, los carácteres no son considerados de la misma forma. Uno de ellos es el carácter ''a explicar'', los otros son ''explicativos''. Vamos primero a considerar el caso de dos carácteres, $ x$ (explicativo) e $ y$ (a explicar). ''Explicar'' significa aquí expresar una dependencia funcional de $ y$ como función de $ x$, de manera tal de prever el valor de $ y$ conociendo el de $ x$. Si para todo individuo $ i$, $ y_i=f(x_i)$, y si se observa un valor $ x_{n+1}$ del carácter $ x$ en un nuevo individuo, daremos $ f(x_{n+1})$ como predicción del carácter $ y$ en este nuevo individuo. La situación ideal donde $ y=f(x)$ no se encuentra nunca en la práctica. Más bien se buscará, en una familia fija de funciones, aquella para la que los $ y_i$ se encuentran más cerca de los $ f(x_i)$. La cercanía se mide en general por el error cuadrático medio:

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (y_i - f(x_i))^2\;.$ (3.2)


Hablamos entonces de regresión en el sentido de los mínimos cuadrados. Las diferencias entre los valores observados $ y_i$ y los valores que predice el modelo $ f(x_i)$, se llaman los residuos. Si el modelo se ajusta de manera tal que la serie de los residuos sea centrada (de media nula), entonces el error cuadrático $ EQ(f)$ es la varianza de los residuos. La regresión lineal consiste en buscar $ f$ entre las funciones afines. La solución se expresa de manera simple a partir de las carácterísticas de $ x$ e $ y$.

Proposición 3.5   Sean $ x$ e $ y$ dos muestras observadas sobre una misma población de tamaño $ n$. Denotemos por $ EQ(a,b)$ la función de $ \mathbb {R}^2$ en $ \mathbb {R}^+$ definida por:

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (y_i - ax_i-b)^2\;.
$

Si $ s_x^2\neq 0$ (el carácter $ x$ no es constante), la función $ EQ(a,b)$ admite un mínimo en:

$\displaystyle \widehat{a} = \frac{c_{xy}}{s_x^2}$   y$\displaystyle \quad
\widehat{b} = \overline{y} - \widehat{a}\overline{x}\;.
$

El valor de este mínimo es:

$\displaystyle EQ(\widehat{a},\widehat{b}) = s_y^2(1-r_{xy}^2)\;.
$

Definición 3.6   Llamamos recta de regresión lineal de $ y$ sobre $ x$ a la recta de ecuación $ y=\widehat{a}x+\widehat{b}$.


Demostración:  Si fijamos $ a$, $ EQ(a,b)$ es un polinomio de grado $ 2$ en $ b$. El alcanza su mínimo para un $ b=b(a)$ tal que la derivada se anule. Calculando:

$\displaystyle \frac{\partial EQ(a,b)}{\partial b} =-\frac{2}{n}
\sum_{i=1}^n (y_i - ax_i-b)
= -2(\overline{y} - a\overline{x} -b)=0
$

Obtenemos por tanto $ b(a) = \overline{y} - a \overline{x}$. Substituimos este valor en $ EQ(a,b)$ :

$\displaystyle EQ(a,b(a)) = \frac{1}{n} \sum_{i=1}^n ((y_i-\overline{y}) -
a(x_i-\overline{x}))^2\;.
$

Esta función es un polinomio de grado $ 2$ en $ a$, que alcanza su mínimo en el punto $ \widehat{a}$ donde se anula su derivada. Obtenemos:

$\displaystyle -\frac{2}{n} \sum_{i=1}^n (x_i-\overline{x})
((y_i-\overline{y}) - \widehat{a}(x_i-\overline{x}))=0\;,
$

sea:

$\displaystyle -2c_{xy} + 2 \widehat{a} s_x^2=0\;.
$

Pongamos:

$\displaystyle \widehat{a} = \frac{c_{xy}}{s_x^2}$   y$\displaystyle \quad \widehat{b} =
b(\widehat{a})=\overline{y} - \widehat{a}\overline{x}\;.
$

Tenemos entonces para todo par $ (a,b)$:

$\displaystyle EQ(\widehat{a},\widehat{b}) \leq EQ(a,b(a)) \leq EQ(a,b)\;.
$

El valor del mínimo es:
$\displaystyle EQ(\widehat{a},\widehat{b})$ $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^n ((y_i-\overline{y}) -
\frac{c_{xy}}{s_x^2}(x_i-\overline{x}))^2$  
  $\displaystyle =$ $\displaystyle s_y^2 - 2\frac{c_{xy}^2}{s_x^2} + \frac{c_{xy}^2}{s_x^4}s_x^2$  
  $\displaystyle =$ $\displaystyle s_y^2-\frac{c_{xy}^2}{s_x^2}$  
  $\displaystyle =$ $\displaystyle s_y^2(1-r_{xy}^2)\;.$  

Como se esperaba, el error cuadrático minimal es menor cuando la correlación es más fuerte. $ \square$

Es importante observar la diferencia de los roles que desempeñan $ x$ e $ y$. Geométricamente, la recta de regresión lineal de $ y$ con respecto a $ x$ minimiza la suma de las distancias verticales de los puntos $ (x_i,y_i)$ a la recta. La recta de regresión lineal de $ x$ con respecto a $ y$ minimiza las distancias horizontales. Las dos rectas se cortan en el centro de gravedad, $ (\overline{x},\overline{y})$, de la nube de puntos. La separación entre las dos rectas es mayor cuando la correlación es más débil.

La predicción es la primera aplicación de la regresión lineal. A continuación tenemos las estaturas en centímetros (muestra $ x$) y el peso en kilogramos ($ y$) de $ 10$ niños de $ 6$ años.

Niño
1
2
3
4
5
6
7
8
9
10
Estatura
121
123
108
118
111
109
114
103
110
115
Peso
25
22
19
24
19
18
20
15
20
21
Las carácterísticas numéricas toman los siguientes valores:

\begin{displaymath}
\begin{array}{\vert cccccccc\vert}
\hline
\overline{x}&\o...
....3&34.76&7.61&0.9&0.42&-\!27.38&1.44\\
\hline
\end{array}
\end{displaymath}

Gráfico 14: Estatura y peso de niños de 6 años: recta de regresión.


Hacer una regresión lineal quiere decir que se piensa que el peso debe crecer, en general, proporcionalmente a la estatura. La recta de regresión lineal constituye un modelo de predicción. Por ejemplo diremos que el peso promedio de un niño de 6 años que mide 120 centímetros será de $ \widehat{a}120+\widehat{b}=23.16$ kg. Evidentemente esta predicción no es infalible. Ella sólo da un orden de magnitud. El valor observado será probablemente distinto y el error previsible será del orden de $ \sqrt{EQ(\widehat{a},\widehat{b})}=1.2$ kg.

Como segunda aplicación se puede extender el ajuste por cuantiles a familias de leyes invariantes por transformaciones afines, como las leyes normales . Sea $ y$ una muestra continua de tamaño $ n$ para la cual queremos verificar si ella podría haber salido de una ley normal $ {\cal
N}(\mu,\sigma^2)$, con parámetros $ \mu$ y $ \sigma^2$ desconocidos. Para $ i=1,\ldots,n$, denotemos como siempre por $ y_{(i)}$ los estadígrafos de orden. Si la hipótesis de normalidad es pertinente, entonces $ y_{(i)}$ debe estar cerca del cuantil $ Q_{{\cal N}(\mu,\sigma^2)}(i/n)$ de la ley $ {\cal
N}(\mu,\sigma^2)$. Recordemos que si una variable aleatoria $ X$ sigue la ley $ {\cal N}(0,1)$, entonces $ Y=\sigma X+\mu$ sigue la ley $ {\cal
N}(\mu,\sigma^2)$. Esto es lo mismo que decir que para todo $ u\in [0,1]$:

$\displaystyle Q_{{\cal N}(\mu,\sigma^2)}(u) = \sigma Q_{{\cal N}(0,1)}(u) + \mu\;.
$


Denotemos por $ x_i=Q_{{\cal N}(0,1)}(i/n)$ los valores de la función cuantil de la ley $ {\cal N}(0,1)$ en los puntos $ i/n$. Si la hipótesis de normalidad se verifica, los puntos de coordenadas $ (x_i,y_{(i)})$ deberían estar cercanos de la recta de ecuación $ y=\sigma x+\mu$. Una regresión lineal de las $ y_{(i)}$ con respecto a las $ x_i$ nos da a la vez una estimación de los valores de $ \sigma$ y $ \mu$, y una indicación sobre la calidad del ajuste (figura 15). Antes de que existieran los programas de cálculo, se vendía papel ''gausso-aritmético'', graduado en las abscisas según los cuantiles de la ley $ {\cal N}(0,1)$. Bastaba poner en las ordenadas los valores de las $ y_{(i)}$ para trazar a mano la recta de regresión lineal, que lleva el nombre de ''recta de Henry'', por el nombre del coronel que inventó este método en el siglo XIX para estudiar el alcance de los cañones.

Gráfico 15: Estaturas de niños de 6 años. Cuantiles de la ley normal $ {\cal N}(0,1)$ y estadígrafos de orden. Superposición de la recta de Henry.


El problema de la regresión es determinar en una familia de funciones dada, cual es la función que minimiza el error cuadrático (3.2). Pero es frecuente que no haya una solución explícita. Para ciertas familias de funciones, se transforma el problema de manera tal de llevarlo a una regresión lineal. Presentamos aquí algunos casos frecuentes.

Familia
Funciones
Transformación
Forma afín
exponencial
$ y=ae^{bx}$
$ y'=\log(y)$
$ y'=\log(a) + bx$
potencia
$ y=ax^b$
$ y'=\log(y)\;x'=\log(x)$
$ y'=\log(a) + bx'$
inversa
$ y=a+b/x$
$ x'=1/x$
$ y=a + bx'$
logística
$ y=1/(1+e^{-(ax+b)})$
$ y'=\log(y/(1\!-\!y))$
$ y'=ax+b$

Como ejemplo de aplicación, vamos a tomar el problema del ajuste por los cuantiles para la familia de leyes de Weibull, las cuales se emplean frecuentemente para modelar tiempos de sobrevida en medicina o tiempos de funcionamiento en fiabilidad. La función cuantil de la ley de Weibull $ {\cal W}(a,\lambda)$ es:

$\displaystyle Q_{{\cal W}(a,\lambda)}(u) = \left(-\frac{1}{\lambda} \log(1-u)\right)^{1/a}\;.
$


Sea $ y$ una muestra que queremos ajustar por una ley de Weibull de parámetros $ a$ y $ \lambda$ desconocidos. Para $ i=1,\ldots,n$, el estadígrafo de orden $ y_{(i)}$ debe estar cerca del cuantil $ Q_{{\cal W}(a,\lambda)}(i/n)$.

$\displaystyle y_{(i)}\approx\left(-\frac{1}{\lambda} \log(1-\frac{i}{n})\right)^{1/a}\;,
$

o sea:

$\displaystyle \log(y_{(i)})\approx\frac{1}{a}\log\left(-\log(1-\frac{i}{n})\right)
+\frac{1}{a} \log\left(\frac{1}{\lambda}\right)\;.
$


Pongamos $ x_i=\log(-\log(1-i/n))$ y $ y'_i = \log(y_{(i)})$. Los puntos $ (x_i,y'_i)$ deberían estar cerca de la recta de ecuación $ y=(1/a)x+(1/a)\log(1/\lambda)$. Una regresión lineal nos dará no solamente los valores para $ a$ y $ \lambda$, sino también una indicación sobre la calidad del ajuste. Antes de los programas de cálculo, existía también un ''papel Weibull'', graduado de manera tal que se podía automatizar este caso particular de regresión no lineal.



Sección : Datos bidimensionales
Previo : Covarianza
Siguiente : Regresiones múltiples