Varianza empírica

Las nociones de varianza y desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media. La definición es la siguiente:

Definición 1.5 Sea $(x_1,\ldots,x_n)$ una muestra y $\overline{x}$ su media empírica. Llamamos varianza de la muestra a la cantidad denotada por

, definida por:

$\displaystyle s^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2\;.$

Llamamos desviación estándar de la muestra a la raíz cuadrada de la varianza.

La ventaja de la desviación estándar sobre la varianza es que se expresa, como la media, en las mismas unidades que los datos. A veces se emplea el coeficiente de variación, que es la razón entre la desviación estándar y la media.

Para medir la dispersión de una muestra alrededor de su media, podríamos hallar más natural otra medida de desviación, por ejemplo la desviación absoluta media, que definiremos más tarde. La razón por la cual la definición que dimos es preferible, se encuentra en la proposición siguiente.

Proposición 1.6 Sea $(x_1,\ldots,x_n)$ una muestra numérica. Consideremos la aplicación

(error cuadrático) que a un número

asocia:

$\displaystyle EQ(m) = \frac{1}{n} \sum_{i=1}^n (x_i-m)^2\;.$

La aplicación

admite un mínimo absoluto para $m=\overline{x}$ . El valor de ese mínimo es la varianza de la muestra.

La elección de la varianza para medir la dispersión de una muestra es por tanto coherente con la elección de la media empírica como valor central. Más tarde veremos que un fenómeno análogo ocurre entre la desviación absoluta media y la mediana.

Para el cálculo, en general se emplea un algoritmo que calcula a la vez la media y la varianza, empleando la fórmula que sigue.

Proposición 1.7 Tenemos:

$\displaystyle s^2 = \Big(\frac{1}{n} \sum_{i=1}^n x_i^2\Big) - \overline{x}^2\;.$

$\displaystyle s^2$	$\displaystyle =$	$\displaystyle \frac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2$
	$\displaystyle =$	$\displaystyle \frac{1}{n} \sum_{i=1}^n (x_i^2-2x_i\overline{x} +\overline{x}^2)$
	$\displaystyle =$	$\displaystyle \Big(\frac{1}{n} \sum_{i=1}^n x_i^2\Big) - 2\overline{x}\Big(\frac{1}{n} \sum_{i=1}^n x_i\Big) +\overline{x}^2$
	$\displaystyle =$	$\displaystyle \Big(\frac{1}{n} \sum_{i=1}^n x_i^2\Big) -2\overline{x}^2 +\overline{x}^2$
	$\displaystyle =$	$\displaystyle \Big(\frac{1}{n} \sum_{i=1}^n x_i^2\Big) -\overline{x}^2\;.$

En el caso particular de datos binarios, codificados como 0 y

, la media es la frecuencia de

y la varianza no aporta ninguna información adicional. En efecto si todos los

valen 0 o

entonces

y por tanto:

suma1 suma2 Para de a suma1 suma1 suma2 suma2 finPara media suma1 varianza suma2mediamedia

Para muestras muy grandes hay que prestar atención a la imprecisión de las sumas acumuladas. Para evitar los errores se debe trabajar en doble precisión o aún reemplazar el lazo por dos lazos uno dentro del otro. En algunos casos, podemos simplificar los cálculos empleando la invarianza por traslación. Si para todo $i=1,\ldots,n$ ponemos

, entonces la varianza de $(y_1,\ldots,y_n)$ es

. Sea, por ejemplo, la muestra siguiente:

Una vez calculada la media, hemos visto que podíamos centrar los datos para situarnos en una media nula. La varianza de los datos centrados es la misma que la de la muestra inicial. Una vez calculada la varianza, podemos reducir los datos centrados dividiéndolos por la desviación estándar. Obtenemos así una nueva muestra cuya media es nula y con varianza igual a

. Hablamos de una muestra reducida. Observemos que los datos reducidos son números sin unidades. Por tanto podemos comparar dos muestras reducidas aún si los datos iniciales no están expresados en las mismas unidades.

El inconveniente de la desviación estándar, tal como lo hemos definido hasta ahora, es que tiene tendencia a subestimar ligeramente la dispersión de los datos con respecto a su media. La razón matemática de este defecto está ligada a la noción de sesgo de un estimador. Podemos tener una idea intuitiva a partir de un ejemplo simple.

Supongamos que jugamos tres veces a un juego cuya apuesta es

euro. El resultado de cada juego es

(gana) o

(pierde). Si el juego es equitativo debemos esperar que la media valga 0 y que la desviación estándar sea igual a

. Sin embargo sobre tres partidas, los resultados posibles sin contar el orden son los siguientes.

En ningún caso la desviación estándar empírica puede alcanzar el valor

. La forma de corregir esta subestimación sistemática es multiplicar la varianza por $n/(n\!-\!1)$ , donde

es el tamaño de la muestra. Hablamos entonces de varianza no sesgada. Esta es la razón de la presencia en algunas calculadoras de dos teclas para calcular la desviación estándar, una marcada $\sigma_n$ (nuestra

), la otra $\sigma_{n-1}$ que calcula $s\sqrt{\frac{n}{n-1}}$ .

A diferencia de la media, la varianza no es asociativa. Si reagrupamos los datos de una muestra en clases, por ejemplo de acuerdo con un carácter discreto, la varianza se divide en una componente correspondiente a la variabilidad en el interior de las clases y una componente de variabilidad entre las clases.

Proposición 1.8 Consideremos una serie estadística de tamaño

cuyos valores se dividen en

muestras de tamaño $n_1,\ldots,n_k$ respectivamente, con $n_1+\cdots+n_k=n$ . Denotamos:

$\bullet$: $(x^{(h)}_1,\ldots, x^{(h)}_{n_h})$ los datos de la -ésima clase,
$\bullet$: $\overline{x}^{(h)}$ la media empírica de la -ésima clase,
$\bullet$: $v^{(h)}$ la varianza empírica de la -ésima clase,
$\bullet$: $\overline{x}$ la media de la muestra total,
$\bullet$: $v_{intra} = \sum_{h=1}^k \frac{n_h}{n}v^{(h)}$ la media de las varianzas (varianza intra-clases),
$\bullet$: $v_{inter} = \sum_{h=1}^k \frac{n_h}{n} (\overline{x}^{(h)}-\overline{x})^2$ la varianza de las medias (varianza inter-clases),
$\bullet$: la varianza de la muestra total.

Entonces:

$\displaystyle s^2 = v_{intra} + v_{inter}\;.$

Supongamos por ejemplo que los datos recogidos sean dosis hormonales y que las clases corresponden a tratamientos diferentes aplicados a pacientes. Queremos saber si la variabilidad observada en los datos se debe exclusivamente al azar, o si existen efectivamente diferencias significativas (debidas a los tratamientos) entre las clases. La media de las varianzas (ponderada por los efectivos) resume la variabilidad en el interior de las clases, de ahí el nombre de varianza intra-clases o varianza residual. La varianza de las medias describe las diferencias entre las clases que pueden depender de los tratamientos, de ahí el nombre de varianza inter-clases o varianza explicada. Si los tratamientos tienen efectivamente una influencia sobre las dosis, esperaríamos que la varianza explicada sea mayor que la varianza residual. Esta descomposición de la varianza de una muestra en varianza explicada y varianza residual es la base de una técnica de análisis de datos empleada con frecuencia, el análisis de varianza o ANOVA.

$\displaystyle s^2$	$\displaystyle =$	$\displaystyle \frac{1}{n} \sum_{h=1}^k \sum_{i=1}^{n_h} (x^{(h)}_{i}- \overline{x})^2$
	$\displaystyle =$	$\displaystyle \sum_{h=1}^k \frac{n_h}{n} \frac{1}{n_h}\sum_{i=1}^{n_h} (x^{(h)}_{i}- \overline{x}^{(h)} +\overline{x}^{(h)}-\overline{x})^2$
	$\displaystyle =$	$\displaystyle \sum_{h=1}^k \frac{n_h}{n} \frac{1}{n_h}\sum_{i=1}^{n_h} (x^{(h)}... ..._{i=1}^{n_h}(x^{(h)}_{i}- \overline{x}^{(h)}) (\overline{x}^{(h)}-\overline{x})$
		$\displaystyle \hspace*{2cm}+\sum_{h=1}^k \frac{n_h}{n}\frac{1}{n_h}\sum_{i=1}^{n_h} (\overline{x}^{(h)}-\overline{x})^2$
	$\displaystyle =$	$\displaystyle v_{intra} + 0 + v_{inter}\;.$