Las muestras gaussianas son utilizadas frecuentemente para modelar los errores en los modelos de regresión. Estos modelos buscan explicar un carácter (considerado como aleatorio) por carácteres (deterministas) . Se escoge una función de regresión , que depende en general de varios parámetros desconocidos, y se escriben las variables aleatorias de la forma:
donde es una -tupla de variables aleatorias independientes y con una misma ley. Los parámetros desconocidos de serán estimados por el método de los mínimos cuadrados, minimizando el error cuadrático:
En el caso en que la función es afín y
es
una muestra gaussiana, se puede determinar explícitamente la ley
de los estimadores de mínimos cuadrados y de ella deducir
intervalos de confianza.
Nosotros solamente consideraremos la regresión lineal simple:
Obtenemos así (ver la sección 2.3) los estimadores de mínimos cuadrados:
Estas tres variables aleatorias son estimadores consistentes de , y respectivamente. Los dos primeros son insesgados. La esperanza de es , por tanto es asintóticamente insesgado. Se obtiene un estimador insesgado y consistente de tomando:
La predicción es el primer objetivo de un modelo probabilista. En
el caso de la regresión lineal, si un nuevo individuo es
examinado, con un valor observado para el carácter , el
modelo conlleva que el valor del carácter explicado para
este individuo es una variable aleatoria de ley normal
. Los parámetros de esta ley tendrán por
estimadores a y respectivamente.
El siguiente teorema permite calcular las leyes de estos estimadores y por tanto intervalos de confianza. Lo podemos considerar como una extensión del teorema 3.3.
Estos resultados se emplean de la misma manera que el teorema 3.3 para deducir intervalos de confianza. Denotamos , y los intervalos de dispersión optimales de nivel para las leyes , y respectivamente. Los intervalos de confianza de nivel correspondientes a los diferentes incisos del teorema 3.4 son:
Si se quiere predecir el valor de para un nuevo individuo, habrá que tener en cuenta no solamente el error cometido al estimar el valor de sino también el de la varianza de . Esto aumenta la longitud del intervalo. Veamos el intervalo de predicción de , siempre al nivel , cuando no se conoce (estimada por ).
Como ejemplo, consideremos la estatura en centímetros () y el peso en kilogramos () de niños de años.
Las características numéricas toman los valores siguientes:
Hacer una regresión lineal quiere decir que pensamos que el peso debe aumentar, en general, proporcionalmente a la estatura. La recta de regresión lineal es un modelo de predicción. Para un niño de estatura dada, daremos un intervalo de peso, considerado como ``normal'', la normalidad se define en referencia al modelo y a los datos. Estos son los intervalos de predicción de nivel para diferentes estaturas.
Los intervalos de predicción son menos precisos según que el tamaño de la muestra inicial sea pequeño y que el valor de esté más lejos de (ver el gráfico 5).
Los resultados precedentes se extienden a las regresiones lineales múltiples. Las expresiones explícitas de los intervalos de confianza son demasiado complicadas para reproducirlas aquí, pero están programadas en todos los logiciales de cálculo estadístico.