Modelos paramétricos

Sección : Estimación puntual
Previo : Estimación puntual
Siguiente : Estimadores y estimaciones

Modelos paramétricos

La hipótesis de modelación sobre la cual se basa todo estudio estadístico es:

Los datos observados son realizaciones de variables aleatorias.

Cuando el resultado de un experimento no puede ser reproducido exactamente, se supone que es la realización de una variable aleatoria. La teoría de las probabilidades provee instrumentos como la Ley de los Grandes Números o el Teorema del Límite Centrado, que permiten extraer de los datos lo que es reproducible y que podrá por tanto ser el fundamento para una predicción o una decisión.

Cuando se observa un carácter estadístico en una población, si el orden en que se toma a los individuos no tiene importancia, consideraremos que los datos son realizaciones de variables aleatorias independientes y con una misma ley. Esta ley de probabilidad describe la variabilidad del carácter. Aún en el caso en que los individuos no son intercambiables, como por ejemplo en una serie cronológica, la modelación consistirá en convertir la muestra, substrayendo según sea necesario una función determinista, en una muestra de variables aleatorias independientes.

Definición 1.1 Sea

una ley de probabilidad sobre $\mathbb {R}$ . Llamamos muestra de la ley

a una

-tupla de variables aleatorias independientes y con la misma ley

La palabra muestra tiene dos significados diferentes en estadística, según se hable de datos observados o del modelo probabilista. La hipótesis de modelación consiste en ver a la muestra (observada) como una realización de una muestra (teórica) de una cierta ley de probabilidad . En otras palabras, se considera que los datos pudieron haber sido producidos simulando de manera repetida la ley de probabilidad . Para evitar confusiones designaremos por datos o muestra observada, a la sucesión de números recogida $(x_1,\ldots,x_n)$ . Las muestras (teóricas) en el sentido de la definición 1.1 serán denotadas por mayúsculas: $(X_1,\ldots,X_n)$ .

La ley de probabilidad que modela la variabilidad de los datos no tiene ninguna realidad física. Sin embargo, es considerada como un objeto oculto. Todo ocurre como si dispusiéramos de un algoritmo de simulación de la ley , sin conocer a propiamente; los datos son salidas independientes de este algoritmo. El objeto del análisis estadístico es extraer de ellos toda información útil sobre . Si la hipótesis de modelación por la ley es correcta (el algoritmo simula efectivamente a esta ley), la Ley de los Grandes Números permite afirmar que la distribución empírica de los datos está cerca de , para una muestra grande. Pero dos muestras observadas, simuladas según la misma ley, tienen raramente la misma distribución empírica. Con el fin de extraer de los datos informaciones reproducibles, reducimos el conjunto de leyes posibles a una familia particular de leyes de probabilidad.

Llamamos problema de ajuste al problema que consiste en determinar, en una familia de leyes de probabilidad dada, aquella que coincide mejor con la muestra observada. En los casos más usuales, los que consideramos aquí, la familia depende de uno o dos parámetros reales desconocidos. Por tanto el problema consiste en determinar el valor del parámetro que se adapta mejor a los datos, en un sentido que precisaremos más adelante. Hablamos entonces de estimación paramétrica. Damos a continuación algunos ejemplos típicos de situaciones estadísticas, con las familias de leyes que usualmente se seleccionan.

Muestras binarias: Típicamente, la situación es aquella en la que un mismo evento es observado o no en una serie de experimentos independientes. Si se codifican las observaciones por 1 y 0, se impone modelar por una ley de Bernoulli. El parámetro desconocido es la probabilidad del evento. Lo aproximamos, evidentemente, por su frecuencia experimental.

Conteos: Una muestra que se obtiene por conteo toma valores enteros positivos. Varias familias de leyes clásicas pueden ser empleadas como modelos. Si los objetos que se cuentan son relativamente frecuentes, en una población de tamaño fijo y bastante pequeña, las leyes binomiales o hipergeométricas son modelos naturales a emplear (por ejemplo, número de niñas en familias de 5 hijos). Si los objetos que se cuentan tienen una característica relativamente rara en un conjunto grande (bacterias, individuos portadores de un gen particular, ...) se emplea frecuentemente una ley de Poisson. Para intervalos de tiempo medidos en tiempo discreto (número de días o de semanas de incubación para una enfermedad, duración) se podrá emplear una ley geométrica o binomial negativa. Generalmente uno se deja guiar por la forma de la distribución empírica para seleccionar un modelo. Un diagrama de barras de apariencia unimodal podrá sugerir modelar por una ley binomial negativa, aún si no existe ninguna razón que haga que ésta sea una selección natural.

Variables normales: Las leyes normales son las más empleadas, entre todos los modelos probabilistas. Ésto se debe a dos causas. La primera es que ellas permiten realizar cálculos explícitos, en forma fácil, para una muestra de cualquier tamaño. En particular, es frecuente seleccionar un modelo normal para muestras pequeñas, aún cuando la selección del mismo no está completamente justificada. La segunda razón tiene que ver con el Teorema del Límite Centrado: cada vez que una cantidad proviene de la acumulación de un gran número de factores variables, relativamente independientes entre ellos, esta cantidad podrá ser modelada por una ley normal. Éste es el caso de los errores de medición, los cuales fueron la motivación histórica de la ley normal, pero es también el caso de numerosas mediciones de parámetros fisiológicos (talla, peso, mediciones sanguíneas, dosis hormonales ...).

Duraciónes: La duración de un proceso, medida en tiempo continuo, se modela por leyes de probabilidad continuas sobre $\mathbb {R}^+$ . En fiabilidad, para la vida útil o los intervalos de tiempo entre los mantenimientos, se prefiere frecuentemente emplear leyes de Weibull o leyes gamma . Las leyes exponenciales son un caso particular de estas.

Datos unimodales asimétricos: De manera similar al caso de los carácteres discretos, la selección de un modelo para un carácter continuo se guía frecuentemente por la forma de la distribución empírica. Puede suceder que el histograma de un carácter continuo sea demasiado disimétrico como para poder usar la ley normal. Para esta situación existen varias familias de leyes que presentan disimetrías más o menos importantes. Las leyes de Weibull y las leyes gamma, de las que ya hablamos, están entre éstas. Cuando los órdenes de magnitud de los datos son muy diferentes, se pueden reemplazar por sus logaritmos. Si el nuevo histograma coincide aparentemente con una ley normal, se empleara una ley log-normal como modelo de los datos originales.

En lo que sigue, designaremos por $P_\theta$ a una ley de probabilidad que depende de un parámetro desconocido $\theta$ . En la mayoría de los ejemplos el parámetro $\theta$ será un número real, pero también puede ser un entero o un par de números reales.

Sección : Estimación puntual
Previo : Estimación puntual
Siguiente : Estimadores y estimaciones