La hipótesis de modelación sobre la cual se basa todo estudio
estadístico es:
Cuando el resultado de un experimento no
puede ser reproducido exactamente, se supone que es la realización
de una variable aleatoria. La teoría de las probabilidades provee
instrumentos como la
Ley
de los Grandes Números o el
Teorema
del Límite Centrado, que permiten extraer de los datos lo que es
reproducible y que podrá por tanto ser el fundamento para una
predicción o una decisión.
Cuando se observa un carácter estadístico en una población, si el orden en que se toma a los individuos no tiene importancia, consideraremos que los datos son realizaciones de variables aleatorias independientes y con una misma ley. Esta ley de probabilidad describe la variabilidad del carácter. Aún en el caso en que los individuos no son intercambiables, como por ejemplo en una serie cronológica, la modelación consistirá en convertir la muestra, substrayendo según sea necesario una función determinista, en una muestra de variables aleatorias independientes.
La palabra muestra tiene dos significados diferentes en
estadística, según se hable de datos observados o del modelo
probabilista. La hipótesis de modelación consiste en ver a la
muestra
(observada) como una realización de una
muestra (teórica)
de una cierta ley de probabilidad . En otras palabras, se
considera que los datos pudieron haber sido producidos simulando
de manera repetida la ley de probabilidad . Para evitar
confusiones designaremos por datos o muestra
observada, a la sucesión de números recogida
.
Las muestras (teóricas) en el sentido de la definición
1.1 serán
denotadas por mayúsculas:
.
La ley de probabilidad que modela la variabilidad de los datos
no tiene ninguna realidad física. Sin embargo, es considerada como
un objeto oculto. Todo ocurre como si dispusiéramos de un
algoritmo de
simulación de la ley , sin conocer a
propiamente; los datos son salidas independientes de este
algoritmo. El objeto del análisis estadístico es extraer de ellos
toda información útil sobre . Si la hipótesis de modelación por
la ley es correcta (el algoritmo simula efectivamente a esta
ley), la
Ley de los Grandes Números permite afirmar que la
distribución empírica de los datos está cerca de , para una
muestra grande. Pero dos muestras observadas, simuladas según la
misma ley, tienen raramente la misma distribución empírica. Con el
fin de extraer de los datos informaciones reproducibles,
reducimos el conjunto de leyes posibles a una familia particular
de leyes de probabilidad.
Llamamos
problema de ajuste al problema que consiste
en determinar, en una familia de leyes de
probabilidad dada, aquella que coincide mejor con la muestra
observada. En los casos más usuales, los que consideramos aquí, la
familia depende de uno o dos parámetros reales desconocidos.
Por tanto el problema consiste en determinar el valor del
parámetro que se adapta mejor a los datos, en un sentido que
precisaremos más adelante. Hablamos entonces de estimación
paramétrica. Damos a continuación algunos ejemplos típicos de
situaciones estadísticas, con las familias de leyes que usualmente se seleccionan.
Muestras binarias:
Típicamente, la situación es aquella en la que un mismo evento es
observado o no en una serie de experimentos independientes. Si se
codifican las observaciones por 1 y 0, se impone modelar por una
ley de Bernoulli. El parámetro desconocido es la probabilidad del
evento. Lo aproximamos, evidentemente, por su
frecuencia
experimental.
Conteos:
Una muestra que se obtiene por conteo
toma valores enteros positivos. Varias familias de leyes clásicas
pueden ser empleadas como modelos. Si los objetos que se cuentan
son relativamente frecuentes, en una población de tamaño fijo y
bastante pequeña, las
leyes binomiales o
hipergeométricas
son modelos naturales a emplear
(por ejemplo, número de niñas en familias
de 5 hijos). Si los objetos que se cuentan tienen una
característica relativamente rara en un conjunto grande
(bacterias, individuos portadores de un gen particular, ...) se
emplea frecuentemente una
ley de Poisson. Para intervalos de tiempo medidos en tiempo discreto
(número de días o de semanas de incubación para una enfermedad,
duración) se podrá emplear una
ley
geométrica o
binomial negativa.
Generalmente
uno se deja guiar por la forma de la
distribución empírica para
seleccionar un modelo. Un
diagrama de barras de apariencia
unimodal
podrá sugerir modelar por una
ley binomial negativa, aún
si no existe ninguna razón que haga que ésta sea una
selección natural.
Variables normales:
Las
leyes normales son las más empleadas,
entre todos los modelos probabilistas. Ésto se debe a dos
causas. La primera es que ellas permiten realizar cálculos
explícitos, en forma fácil, para una muestra de cualquier tamaño.
En particular, es frecuente seleccionar un modelo normal para
muestras pequeñas, aún cuando la selección del mismo no está
completamente justificada. La segunda razón
tiene que ver con el
Teorema del Límite Centrado:
cada vez que una
cantidad proviene de la acumulación de un gran número de factores
variables, relativamente independientes entre ellos, esta cantidad
podrá ser modelada por una
ley normal. Éste es el caso de los
errores de medición, los cuales fueron la motivación histórica de
la ley normal, pero es también el caso de numerosas mediciones de
parámetros fisiológicos (talla, peso,
mediciones sanguíneas, dosis hormonales
...).
Duraciónes:
La duración de un proceso, medida en
tiempo continuo, se modela por leyes de probabilidad continuas
sobre
. En fiabilidad, para la vida
útil o los intervalos de tiempo entre los mantenimientos, se
prefiere frecuentemente emplear
leyes de
Weibull
o
leyes gamma
. Las
leyes
exponenciales son un caso particular de
estas.
Datos unimodales asimétricos:
De manera similar al caso de los carácteres
discretos, la selección de un modelo para un carácter continuo se
guía frecuentemente por la forma de la distribución empírica.
Puede suceder que el
histograma de un carácter continuo sea
demasiado disimétrico como para poder usar la
ley normal.
Para esta situación existen varias familias de leyes que presentan
disimetrías más o menos importantes. Las
leyes de Weibull y las
leyes gamma, de las que ya hablamos,
están entre éstas. Cuando los órdenes de magnitud
de los datos son muy diferentes, se pueden reemplazar por sus
logaritmos. Si el nuevo
histograma coincide aparentemente con una
ley
normal, se empleara una
ley log-normal como modelo de los
datos originales.
En lo que sigue, designaremos por a una ley de probabilidad que depende de un parámetro desconocido . En la mayoría de los ejemplos el parámetro será un número real, pero también puede ser un entero o un par de números reales.