Hasta ahora el único modelo probabilista que hemos considerado para datos observados, suponía que estos eran realizaciones de variables independientes de una misma ley. Esto equivale a decir que los individuos en los cuales se tomaron los datos son intercambiables y que las diferencias observadas entre ellos son imputables solamente al azar. En numerosas situaciones, se busca explicar estas diferencias, es decir, atribuirlas a los efectos de otros carácteres medidos en los mismos individuos. La modelación probabilista considerará que la medición a explicar, realizada en un individuo dado, es una variable aleatoria cuya ley depende de los valores observados, en ese individuo, de los carácteres explicativos, considerados como deterministas. Si denota la variable aleatoria asociada al individuo y son los valores que toman, para ese individuo, los carácteres explicativos , se separará el efecto determinista y el efecto aleatorio por un modelo del tipo:
donde es una -tupla de variables aleatorias independientes con una misma ley. Hablamos entonces de un modelo de regresión. La función depende de uno o varios parámetros desconocidos, que hay que estimar. Para esto se busca minimizar el error cuadrático definido por:
En algunos casos clásicos, sabemos
resolver explícitamente este problema de minimización y la
solución de estos está implementada en los logiciales de cálculo
estadístico. Cuando una solución explícita es imposible,
recurrimos a algoritmos de minimización, como por ejemplo el
algoritmo del gradiente.
El caso más elemental es el de la regresión lineal simple, donde hay un único carácter explicativo y la función es afín:
El error cuadrático está dado por:
Los valores de y que minimizan el error cuadrático se expresan en función de las medias, varianzas y covarianzas empíricas de y de . Denotamos:
Las variables aleatorias y son los estimadores de
mínimos cuadrados de los parámetros y .
En un problema de ajuste, podemos emplear los estimadores de
mínimos cuadrados para estimar los parámetros de algunas leyes.
Vamos a tratar, como ejemplo, las
leyes
normales y las
leyes de
Weibull.
Leyes normales: Sea una muestra de tamaño de la ley normal , donde los parámetros y son desconocidos. Para , denotemos por el estadígrafo de orden (son los valores ordenados del menor al mayor). Si la hipótesis de normalidad es válida, entonces debe estar cerca del cuantil de la ley . Recordemos que si una variable aleatoria sigue la ley , entonces sigue la ley . Esto implica que para todo :
Denotemos
los valores
de la función cuantil de la ley
en los puntos . Si la hipótesis de normalidad se
verifica, los puntos de coordenadas
deberían estar
cerca de la recta de ecuación
. Los estimadores de
mínimos cuadrados y para la
regresión lineal simple de los
con respecto a los son por tanto estimadores de
y respectivamente.
Leyes de Weibull: La función cuantil de la ley de Weibull está dada por:
Sea una muestra de la ley , de parámetros y desconocidos. Para , el estadígrafo de orden debe estar cerca del cuantil :
Denotemos y . Los puntos deberían estar cerca de la recta de ecuación . Los estimadores de mínimos cuadrados y para la regresión lineal de los con respecto a los son estimadores de y respectivamente. Por tanto y son estimadores de y respectivamente.