Sección : Datos bidimensionales
Previo : Regresión lineal simple
Siguiente : Cociente de apuestas

Regresiones múltiples


El principio de la regresión en el sentido de los mínimos cuadrados, tal y como se describió en el parrafo anterior, es muy general. Dados un carácter $ y$ ''a explicar'' y carácteres $ x^{(1)},\ldots,x^{(k)}$ ''explicativos'', medidos en una misma población de tamaño $ n$, se buscar aislar en una familia de funciones de varios parámetros, una función $ f$ que ''explique'' $ y$ por la relación:

$\displaystyle y=f(x^{(1)},\ldots,x^{(k)})\;.
$

Como criterio de selección se minimiza sobre todas las funciones de la familia el error cuadrático definido por:

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.
$

bb En ciertos casos clásicos, sabemos resolver explícitamente este problema de minimización, y las soluciones están implementadas en los sistemas de cálculo estadístico. Es el caso de los ejemplos que vamos a dar a continuación. Cuando una respuesta explícita es imposible, se recurre a algoritmos de minimización, como el algoritmo del gradiente.

Regresión lineal múltiple. Es la generalización directa de la regresión lineal simple del parrafo precedente. Las funciones $ f$ son afines:

$\displaystyle f(x^{(1)},\ldots,x^{(k)}) = a_0 + a_1x^{(1)} + \cdots + a_kx^{(k)}\;.
$

El error cuadrático a minimizar es una función de los $ k\!+\!1$ parámetros desconocidos $ a_0,a_1,\ldots,a_k$:

$\displaystyle EQ(a_0,\ldots,a_k) = \frac{1}{n} \sum_{i=1}^n (y_i-
(a_0 + a_1x^{(1)}_i + \cdots + a_kx^{(k)}_i))^2\;.
$


Siempre se puede trazar un hiperplano por $ k$ puntos en un espacio de dimensión $ k\!+\!1$. Si el tamaño de la población ($ n$) es inferior o igual a $ k$, el error cuadrático minimal es en consecuencia 0. En la práctica la regresión sólo podrá ser significativa si $ n$ es mucho mayor que $ k$.

Regresión polinomial simple. Podemos verla como otra generalización de la regresión lineal simple, o como un caso particular de regresión lineal múltiple. Un solo carácter es explicativo. las funciones $ f$ son los polinomios de grado $ k$.

$\displaystyle f(x) = a_0 + a_1x + \cdots + a_kx^k\;.
$


Se puede considerar que los carácteres $ x,\ldots,x^k$ son explicativos para así situarnos en el caso precedente. Para un mismo conjunto de datos, si se aumenta $ k$, el error cuadrático disminuirá, hasta anularse cuando $ k$ sobrepase a $ n$. Si $ k$ es demasiado grande, la regresión no será significativa. En la práctica es raro que una regresión polinomial vaya más allá del grado $ 3$.

Regresión polinomial múltiple. Cuando varios carácteres son explicativos se puede aún realizar una regresión sobre una familia de polinomios en los diferentes carácteres, con grado fijo. Los términos que hacen intervenir productos del tipo $ x^{(h)}x^{(h')}$ serán interpretados como términos de interacción entre los carácteres explicativos. En la práctica, uno se limita a polinomios de grado $ 1$ o $ 2$ . Presentamos para dos carácteres explicativos $ x^{(1)}$ y $ x^{(2)}$, los modelos más frecuentemente utilizados.

$ \bullet$
Modelo de orden $ 1$, sin interacción:

$\displaystyle y=a_0+a_1x^{(1)}+a_2x^{(2)}\;.
$

$ \bullet$
Modelo de orden $ 2$, sin interacción:

$\displaystyle y=a_0+a_1x^{(1)}+a_2x^{(2)}+a_3 (x^{(1)})^2 + a_4 (x^{(2)})^2\;.
$

$ \bullet$
Modelo de orden $ 1$, con interacción:

$\displaystyle y=a_0+a_1x^{(1)}+a_2x^{(2)}+a_3 x^{(1)}x^{(2)}\;.
$

$ \bullet$
Modelo de orden $ 2$, con interacción:

$\displaystyle y=a_0+a_1x^{(1)}+a_2x^{(2)}+a_3 (x^{(1)})^2 + a_4 (x^{(2)})^2
+a_5 x^{(1)}x^{(2)}\;.
$



Sección : Datos bidimensionales
Previo : Regresión lineal simple
Siguiente : Cociente de apuestas