En un problema de regresión, los carácteres no son considerados de la misma forma. Uno de ellos es el carácter ''a explicar'', los otros son ''explicativos''. Vamos primero a considerar el caso de dos carácteres, (explicativo) e (a explicar). ''Explicar'' significa aquí expresar una dependencia funcional de como función de , de manera tal de prever el valor de conociendo el de . Si para todo individuo , , y si se observa un valor del carácter en un nuevo individuo, daremos como predicción del carácter en este nuevo individuo. La situación ideal donde no se encuentra nunca en la práctica. Más bien se buscará, en una familia fija de funciones, aquella para la que los se encuentran más cerca de los . La cercanía se mide en general por el error cuadrático medio:
Hablamos entonces de regresión en el sentido de los mínimos cuadrados. Las diferencias entre los valores observados y los valores que predice el modelo , se llaman los residuos. Si el modelo se ajusta de manera tal que la serie de los residuos sea centrada (de media nula), entonces el error cuadrático es la varianza de los residuos. La regresión lineal consiste en buscar entre las funciones afines. La solución se expresa de manera simple a partir de las carácterísticas de e .
Demostración: Si fijamos , es un polinomio de grado en . El alcanza su mínimo para un tal que la derivada se anule. Calculando:
Es importante observar la diferencia de los roles que
desempeñan e . Geométricamente, la
recta
de regresión lineal de con respecto a minimiza la suma de
las distancias verticales de los puntos
a la recta. La recta
de regresión lineal de con respecto a minimiza las
distancias horizontales. Las dos rectas se cortan en el centro de
gravedad,
, de la nube de puntos. La
separación entre las dos rectas es mayor cuando la
correlación es
más débil.
La predicción es la primera aplicación de la regresión lineal. A continuación tenemos las estaturas en centímetros (muestra ) y el peso en kilogramos () de niños de años.
Hacer una
regresión lineal quiere decir que se piensa que el peso
debe crecer, en general, proporcionalmente a la estatura. La recta
de regresión lineal constituye un modelo de predicción. Por
ejemplo diremos que el peso promedio de un niño de 6 años que mide
120 centímetros será de
kg.
Evidentemente esta predicción no es infalible. Ella sólo da un
orden de magnitud. El valor observado será probablemente distinto
y el error previsible será del orden de
kg.
Como segunda aplicación se puede extender el ajuste por cuantiles a familias de leyes invariantes por transformaciones afines, como las leyes normales . Sea una muestra continua de tamaño para la cual queremos verificar si ella podría haber salido de una ley normal , con parámetros y desconocidos. Para , denotemos como siempre por los estadígrafos de orden. Si la hipótesis de normalidad es pertinente, entonces debe estar cerca del cuantil de la ley . Recordemos que si una variable aleatoria sigue la ley , entonces sigue la ley . Esto es lo mismo que decir que para todo :
Denotemos por los valores de la función cuantil de la ley en los puntos . Si la hipótesis de normalidad se verifica, los puntos de coordenadas deberían estar cercanos de la recta de ecuación . Una regresión lineal de las con respecto a las nos da a la vez una estimación de los valores de y , y una indicación sobre la calidad del ajuste (figura 15). Antes de que existieran los programas de cálculo, se vendía papel ''gausso-aritmético'', graduado en las abscisas según los cuantiles de la ley . Bastaba poner en las ordenadas los valores de las para trazar a mano la recta de regresión lineal, que lleva el nombre de ''recta de Henry'', por el nombre del coronel que inventó este método en el siglo XIX para estudiar el alcance de los cañones.
El problema de la regresión es determinar en una familia de funciones dada, cual es la función que minimiza el error cuadrático (3.2). Pero es frecuente que no haya una solución explícita. Para ciertas familias de funciones, se transforma el problema de manera tal de llevarlo a una regresión lineal. Presentamos aquí algunos casos frecuentes.
Como ejemplo de aplicación, vamos a tomar el problema del ajuste por los cuantiles para la familia de leyes de Weibull, las cuales se emplean frecuentemente para modelar tiempos de sobrevida en medicina o tiempos de funcionamiento en fiabilidad. La función cuantil de la ley de Weibull es:
Sea una muestra que queremos ajustar por una ley de Weibull de parámetros y desconocidos. Para , el estadígrafo de orden debe estar cerca del cuantil .
Pongamos y . Los puntos deberían estar cerca de la recta de ecuación . Una regresión lineal nos dará no solamente los valores para y , sino también una indicación sobre la calidad del ajuste. Antes de los programas de cálculo, existía también un ''papel Weibull'', graduado de manera tal que se podía automatizar este caso particular de regresión no lineal.