Sección : Datos unidimensionales
Previo : Datos unidimensionales
Siguiente : Media empírica

Muestras


En la base de todo estudio estadístico, hay una población, formada por individuos sobre los cuales se observan carácteres. Para aclarar la idea es más fácil pensar en términos de una población humana. Los individuos son personas y los carácteres observados pueden ser morfológicos (estatura, peso, color de los ojos), fisiológicos (grupo sanguíneo, conteo globular, índice de colesterol) o psicológicos (reacciones en tests, respuestas a una encuesta de opinión). Aunque tomaremos nuestros ejemplos fundamentalmente en poblaciones humanas, hay que mantener en la mente la noción de poblaciones y carácteres más generales. Veamos algunos ejemplos.

Población
Carácter
Elementos químicos
Número de isotopos
Galaxias
Número de estrellas
Estrellas
Magnitud
Cromosomas
Número de genes
Genes
Número de bases proteícas
Ciudades
Tasa Fiscal
Países
Producto interno bruto
Filmes
Entradas vendidas
Meses del año
Monto de las exportaciones

Un carácter se llama:

Los valores que puede tomar un carácter se llaman las modalidades.

Para facilitar el tratamiento computacional o matemático, se transforman los datos para llegar a carácteres cuantitativos a través de una codificación. Si el carácter inicial es cualitativo, la codificación será por lo general binaria. El caso más simple es el de un referendo donde solo hay dos modalidades codificadas 0 y $ 1$. Para un número arbitrario $ m$ de modalidades, se podrá codificar por un vector de $ m$ variables booleanas: si el valor observado para un individuo es $ l$, el vector asociado a este individuo tiene todas sus componentes nulas salvo la $ l$-ésima que vale $ 1$. En el caso de un carácter ordinal frecuentemente se realiza la codificación empleando los primeros números enteros. Debemos recordar que la codificación es arbitraria y que los resultados numéricos que se obtienen después de la codificación pueden depender de ésta. Existen técnicas específicas para el tratamiento especial de los carácteres cualitativos y ordinales. Aquí nos limitaremos esencialmente a los carácteres cualitativos.

La estadística interviene cuando es imposible, o inútil, observar un carácter sobre el total de la población. Lo observamos entonces sobre una subpoblación de tamaño reducido esperando extraer conclusiones que puedan ser generalizadas a toda la población. Si los datos sobre un carácter cuantitativo se pueden obtener sobre $ n$ individuos, el resultado es una $ n$-tupla de números, enteros o decimales $ (x_1,\ldots,x_n)$, que llamamos muestra o serie estadística, de talla o tamaño $ n$. El término de muestra lo reservamos más bien para el resultado de $ n$ experiencias realizadas una independiente de las otras en condiciones idénticas (lanzamiento de dados, medida del peso de $ n$ recién nacidos,...). Llamaremos serie estadística al resultado de $ n$ experiencias que no son intercambiables entre sí. El caso más frecuente es el en que la población está formada por instantes sucesivos (lectura diaria de temperaturas, cantidad mensual de desempleados,...). Hablamos entonces de serie cronológica (figura 1).

Gráfico 1: Serie cronológica: casos de gripe en Francia por semana durante 5 años.


En general diferenciamos los carácteres discretos (aquellos que toman pocas modalidades diferentes) de los carácteres continuos (para los cuales todos los valores observados son a priori diferentes). La frontera entre continuo y discreto es menos clara en la práctica que en la teoría. Toda recolección de datos se hace con una cierta precisión, y en una unidad de medida dada. Si una estatura se mide con una precisión del orden de un centímetro, todo valor que corresponda a una cantidad inferior a un centímetro no contiene ninguna información y debe ser eliminado. Esto significa que la estatura en centímetros es un valor entero, por tanto un carácter discreto, aún si lo modelamos por una ley normal que es una ley continua. Por otra parte, diversas técnicas estadísticas (histogramas, distancia de chi-cuadrado) requieren reagrupar los datos en clases, lo que los convierte en discretos, cuyas modalidades son las diferentes clases.

Gráfico 2: Muestra de 100 estatura de niños de 6 años, en centímetros.


Una vez recogida, la muestra $ (x_1,\ldots,x_n)$ se presenta como una lista poco leíble, cuya principal carácterística es una mayor o menor variabilidad. El tratamiento estadístico consiste en estudiar esta variabilidad, para extraer la información que ella contiene, a saber lo que es generalizable a la población total. Las técnicas de la estadística descriptiva tendrán como objetivo comprimir la muestra, resumirla a partir de cantidades calculadas y representaciones gráficas, con el fin de extraer la información que ella contiene.

No se trata una muestra sin tener una pregunta precisa que hacerle. Dada una muestra de las estaturas de muchachas de 18 años, el tratamiento no será el mismo si uno es un nutricionista que busca estudiar la influencia de la alimentación sobre el crecimiento, o un fabricante de ropa que busca cómo hacer sus patrones.

La palabra '' estadística'' tiene dos sentidos diferentes:

$ \bullet$
Es un conjunto de datos numéricos sobre un fenómeno variable (las estadísticas del comercio exterior, las estadísticas del desempleo).
$ \bullet$
Es una disciplina científica cuyo objetivo es obtener información de una muestra para hacer una predicción o tomar una decisión.

A veces, se llama tanbién ''estadística'' a una función de los datos, como la media o la varianza; preferimos usar la palabra ''estadígrafo''.



Sección : Datos unidimensionales
Previo : Datos unidimensionales
Siguiente : Media empírica