La hipótesis de
modelación sobre la
cual se basa todo estudio
estadístico es la siguiente:
Cuando el resultado de un experimento no
puede ser reproducido exactamente, se supone que es la realización
de una variable aleatoria. La teoría de las probabilidades provee
instrumentos como la
Ley
de los Grandes Números o el
Teorema
del Límite Centrado, que permiten extraer de los datos lo que es
reproducible y que podrá por tanto ser el fundamento para una
predicción o tomar una decisión.
Cuando se trabaja en tratamiento de datos, es bien sabido que si
se toma una segunda muestra bajo las mismas condiciones, esta será
diferente de la primera. Pero se espera que la segunda muestra se
parezca a la primera en el sentido que su
media, su
varianza, sus
cuantiles no cambien mucho. La observación de muestras sucesivas,
producidas por un algoritmo de
simulación, permite tener una buena
idea de esta semejanza. En muchos casos, por ejemplo en cuestiones
relativas al ser humano (medida de estaturas, dosis sanguíneas,
etc...), la similitud de muestras diferentes está validada por
una larga experiencia. En medicina es bien conocido que no existen
dos individuos que presenten exactamente las mismas reacciones. Sin
embargo, un conteo del promedio de glóbulos rojos por litro de sangre
que se realice en algunos centenares de individuos, variará poco
si se repite en otra población. En esta situación, como en muchas
otras, los conteos efectuados en individuos diferentes, serán
considerados como realizaciones independientes de una misma ley de
probabilidad. Esta ley de probabilidad describe
la variabilidad del fenómeno. En cierta forma
se considera que la muestra pudo haber sido producida repitiendo
simulaciones independientes de la ley.
Tomemos el ejemplo de las estaturas de las jóvenes de 18 años (medidas en centímetros o en tallas de ropa). Hablar de la estatura de las jóvenes de 18 años no tiene sentido si no es en un contexto probabilista: dos jóvenes distintas no tendrán jamás la misma estatura. Se hacen de hecho dos hipótesis de modelación que no tienen ninguna base concreta:
Aunque basadas sobre objetos abstractos, las consecuencias
matemáticas que se pueden sacar de las hipótesis de modelación
llevan a predicciones y a toma de decisiones económicas o
políticas, que son totalmente concretas y son validadas por su
confrontación con la realidad. Por ejemplo la distribución de las
estaturas de las jóvenes de 18 años tiene consecuencias evidentes
sobre la industria de las confecciones. Si un fabricante de ropa
dirige su producción a las adolescentes, deberá ajustar sus
patrones a la talla de sus clientes potenciales: la distribución
de la ropa producida entre las tallas más corrientes, de la 36 a
la 40 (tallas europeas), no será la misma. El fabricante producirá
probablemente más vestidos de talla 36 que de la 40. Esta
distribución no sería la misma para los modelos destinados a
personas de más edad.
¿Cuando se considera que una muestra puede ser modelada por una
sucesión de variables independientes?. En esencia, cuando es
evidente que el orden en que se toma a los individuos no es
importante. Este es el caso de todas las mediciones fisiológicas
en una población humana. No es el caso de una
serie cronológica,
en la cual los individuos son instantes sucesivos que
evidentemente no son intercambiables y por tanto no son
independientes uno de otro. En efecto, no tendría interés
considerar las tasas de desempleo mensual en los tres últimos años
como realizaciones de 36 variables aleatorias independientes,
porque el objetivo de la observación es precisamente detectar una
tendencia en esas cifras, es decir una dependencia que permita
prever parcialmente las cifras futuras. En este caso la idea de
base de la modelación consistirá en decir que existe una función
determinista ''escondida'', que permite prever en parte el futuro en
función del pasado. Las observaciones mensuales se consideran como
perturbaciones aleatorias de esta función determinista. En el
modelo intervendrán entonces la función determinista escondida y
una cierta -tupla de variables aleatorias independientes con una
misma ley, que modelan las perturbaciones aleatorias.
Una situación análoga es aquella en la que otro carácter, distinto
al que se mide, ejerce una influencia en la variable que interesa.
Por ejemplo, si se sospecha que el número de cigarrillos que se
fuma al día tiene una influencia sobre la tasa de colesterol, se
considerará que las tasas de colesterol medidas son realizaciones
de una variable aleatoria cuya ley depende del número de
cigarrillos. Supondremos que existe una dependencia determinista
''escondida'' a descubrir y que se observa en cada individuo esta
dependencia, perturbada por un factor que se debe al azar puro.
Aquí también serán las perturbaciones aleatorias las que se
modelarán por una -tupla de variables aleatorias independientes
con una misma ley.
Toda situación en la que los resultados experimentales no pueden considerarse como exactamente repetibles, se lleva a un modelo que contiene una -tupla de variables aleatorias independientes con una misma ley. Una elección importante es el tipo de ley, discreta o continua. Cuando se trata de observar un carácter cualitativo, como el grupo sanguíneo, u ordinal, como la clasificación en un test psicológico, la selección de un modelo discreto se impone por la naturaleza de los datos. No obstante la decisión entre modelo discreto o continuo no es siempre tan clara. Retomemos el ejemplo de las estaturas de las jóvenes de 18 años. Podemos medir las estaturas en precisión de centímetro, siendo conscientes de la imprecisión inherente en las mediciones. Si los resultados observados en una muestra de 1000 individuos toman suficientes valores diferentes, se escogerá una ley continua (por ejemplo una ley normal). Diferentes técnicas estadísticas podrán imponer a continuación un reagrupamiento en clases de datos (trazo de histogramas, distancia de chi-cuadrado, ...). Para el fabricante de ropa los datos en bruto son de poco interés. El tratará por el contrario de traducir las observaciones en tallas de vestuario, lo que impone otro tipo de reagrupamiento en clases y un modelo discreto.