Sección : Distribución empírica
Previo : Cuantiles
Siguiente : Ajuste


Modelos probabilistas


La hipótesis de modelación sobre la cual se basa todo estudio estadístico es la siguiente:

Los datos observados son realizaciones de variables aleatorias.

Cuando el resultado de un experimento no puede ser reproducido exactamente, se supone que es la realización de una variable aleatoria. La teoría de las probabilidades provee instrumentos como la Ley de los Grandes Números o el Teorema del Límite Centrado, que permiten extraer de los datos lo que es reproducible y que podrá por tanto ser el fundamento para una predicción o tomar una decisión.

Cuando se trabaja en tratamiento de datos, es bien sabido que si se toma una segunda muestra bajo las mismas condiciones, esta será diferente de la primera. Pero se espera que la segunda muestra se parezca a la primera en el sentido que su media, su varianza, sus cuantiles no cambien mucho. La observación de muestras sucesivas, producidas por un algoritmo de simulación, permite tener una buena idea de esta semejanza. En muchos casos, por ejemplo en cuestiones relativas al ser humano (medida de estaturas, dosis sanguíneas, etc...), la similitud de muestras diferentes está validada por una larga experiencia. En medicina es bien conocido que no existen dos individuos que presenten exactamente las mismas reacciones. Sin embargo, un conteo del promedio de glóbulos rojos por litro de sangre que se realice en algunos centenares de individuos, variará poco si se repite en otra población. En esta situación, como en muchas otras, los conteos efectuados en individuos diferentes, serán considerados como realizaciones independientes de una misma ley de probabilidad. Esta ley de probabilidad describe la variabilidad del fenómeno. En cierta forma se considera que la muestra pudo haber sido producida repitiendo simulaciones independientes de la ley.

Tomemos el ejemplo de las estaturas de las jóvenes de 18 años (medidas en centímetros o en tallas de ropa). Hablar de la estatura de las jóvenes de 18 años no tiene sentido si no es en un contexto probabilista: dos jóvenes distintas no tendrán jamás la misma estatura. Se hacen de hecho dos hipótesis de modelación que no tienen ninguna base concreta:

  1. Se puede asociar a cada joven de 18 años una medida precisa de su estatura.
  2. Las estaturas de las jóvenes de 18 años son realizaciones de variables aleatorias independientes, con la misma ley.

Aunque basadas sobre objetos abstractos, las consecuencias matemáticas que se pueden sacar de las hipótesis de modelación llevan a predicciones y a toma de decisiones económicas o políticas, que son totalmente concretas y son validadas por su confrontación con la realidad. Por ejemplo la distribución de las estaturas de las jóvenes de 18 años tiene consecuencias evidentes sobre la industria de las confecciones. Si un fabricante de ropa dirige su producción a las adolescentes, deberá ajustar sus patrones a la talla de sus clientes potenciales: la distribución de la ropa producida entre las tallas más corrientes, de la 36 a la 40 (tallas europeas), no será la misma. El fabricante producirá probablemente más vestidos de talla 36 que de la 40. Esta distribución no sería la misma para los modelos destinados a personas de más edad.

¿Cuando se considera que una muestra puede ser modelada por una sucesión de variables independientes?. En esencia, cuando es evidente que el orden en que se toma a los individuos no es importante. Este es el caso de todas las mediciones fisiológicas en una población humana. No es el caso de una serie cronológica, en la cual los individuos son instantes sucesivos que evidentemente no son intercambiables y por tanto no son independientes uno de otro. En efecto, no tendría interés considerar las tasas de desempleo mensual en los tres últimos años como realizaciones de 36 variables aleatorias independientes, porque el objetivo de la observación es precisamente detectar una tendencia en esas cifras, es decir una dependencia que permita prever parcialmente las cifras futuras. En este caso la idea de base de la modelación consistirá en decir que existe una función determinista ''escondida'', que permite prever en parte el futuro en función del pasado. Las observaciones mensuales se consideran como perturbaciones aleatorias de esta función determinista. En el modelo intervendrán entonces la función determinista escondida y una cierta $ n$-tupla de variables aleatorias independientes con una misma ley, que modelan las perturbaciones aleatorias.

Una situación análoga es aquella en la que otro carácter, distinto al que se mide, ejerce una influencia en la variable que interesa. Por ejemplo, si se sospecha que el número de cigarrillos que se fuma al día tiene una influencia sobre la tasa de colesterol, se considerará que las tasas de colesterol medidas son realizaciones de una variable aleatoria cuya ley depende del número de cigarrillos. Supondremos que existe una dependencia determinista ''escondida'' a descubrir y que se observa en cada individuo esta dependencia, perturbada por un factor que se debe al azar puro. Aquí también serán las perturbaciones aleatorias las que se modelarán por una $ n$-tupla de variables aleatorias independientes con una misma ley.

Toda situación en la que los resultados experimentales no pueden considerarse como exactamente repetibles, se lleva a un modelo que contiene una $ n$-tupla de variables aleatorias independientes con una misma ley. Una elección importante es el tipo de ley, discreta o continua. Cuando se trata de observar un carácter cualitativo, como el grupo sanguíneo, u ordinal, como la clasificación en un test psicológico, la selección de un modelo discreto se impone por la naturaleza de los datos. No obstante la decisión entre modelo discreto o continuo no es siempre tan clara. Retomemos el ejemplo de las estaturas de las jóvenes de 18 años. Podemos medir las estaturas en precisión de centímetro, siendo conscientes de la imprecisión inherente en las mediciones. Si los resultados observados en una muestra de 1000 individuos toman suficientes valores diferentes, se escogerá una ley continua (por ejemplo una ley normal). Diferentes técnicas estadísticas podrán imponer a continuación un reagrupamiento en clases de datos (trazo de histogramas, distancia de chi-cuadrado, ...). Para el fabricante de ropa los datos en bruto son de poco interés. El tratará por el contrario de traducir las observaciones en tallas de vestuario, lo que impone otro tipo de reagrupamiento en clases y un modelo discreto.



Sección : Distribución empírica
Previo : Cuantiles
Siguiente : Ajuste