Cuantiles

La función cuantil de una ley de probabilidad es la inversa (generalizada) de su función de distribución. Si

denota la función de distribución, la función cuantil

es la función que a $u\in ]0,1[$ hace corresponder:

Definición 2.4 Sean $x=(x_1,\ldots,x_n)$ una muestra y $(x_{(1)},\ldots,x_{(n)})$ el vector de sus estadígrafos de orden. La función cuantil empírica de la muestra es la función $\widehat{Q}$ que , para todo $i=1,\ldots,n$ , vale $x_{(i)}$ en el intervalo $]\frac{i-1}{n},\frac{i}{n}]$ .

$\displaystyle \forall u\in ]\frac{i-1}{n},\frac{i}{n}]\;,\quad \widehat{Q}(u) = x_{(i)}\;.$

La mediana es el valor central de la muestra: hay tantos valores inferiores a ella como valores superiores a ella. Si la distribución empírica de la muestra es poco disimétrica, como por ejemplo para una muestra simulada a partir de una ley uniforme o normal, la media y la mediana están cercanas. Si la muestra es asimétrica, con una distribución muy dispersa hacia la derecha, la mediana podrá ser mucho más pequeña que la media. A diferencia de la media, la mediana no es sensible a los valores aberrantes. Ella satisface una propiedad de optimalidad con respecto a la desviación absoluta media.

Proposición 2.5 Sea $x=(x_1,\ldots,x_n)$ una muestra donde los

son reales. Sea

(desviación absoluta) la función que a un número

asocia:

$\displaystyle EA(m) = \frac{1}{n} \sum_{i=1}^n \vert x_i - m\vert\;.$

Esta función alcanza un mínimo absoluto para $m=\widehat{Q}(0.5)$ (la mediana). Al valor de este mínimo se le denomina desviación absoluta media.

Demostración: Para evitar complicar las notaciones, supondremos que los valores

son todos diferentes. El gráfico de la función

está formado por segmentos de rectas. Sobre el intervalo $[x_{(i)},x_{(i+1)}]$ , ella vale:

$\displaystyle EA(m) = \frac{1}{n}\Big((2i-n) m -\sum_{j=1}^i x_{(j)}+ \sum_{j=i+1}^n x_{(j)}\Big)\;.$

Hay algo arbitrario en la definición de la función cuantil para una distribución empírica: para todos los puntos del intervalo $[x_{(i)},x_{(i+1)}[$ , la función de distribución vale

. Son sobre todo razones teóricas las que nos hacen seleccionar a $x_{(i)}$ en lugar de otro punto como valor de $\widehat{Q}(i/n)$ . Puede ser una selección bastante mala en la práctica. Consideremos la muestra siguiente, de tamaño

La mediana, tal y como la hemos definido, vale

. Sin embargo como valor central se impone claramente el punto medio del intervalo

, es decir

. En el caso de las muestras de tamaño par, el intervalo $[x_{(\frac{n}{2})},x_{(\frac{n}{2}+1)}[$ , se llama intervalo mediano. A veces la mediana se define como el punto medio del intervalo mediano.

Este problema se presenta en el caso de muestras pequeñas y para los cuantiles $\widehat{Q}(u)$ en los cuales

es de la forma

(más frecuente la mediana). Nosotros no lo tomaremos en cuenta y conservaremos la definición 2.4. Aún en muestras muy grandes, los cuantiles son poco complicados de calcular, pues es suficiente ordenar la muestra en orden creciente para calcular sus estadígrafos de orden y por tanto a la vez obtener todos los cuantiles. Ellos nos proveen una visualización fácil de la distribución empírica. Hemos visto que la mediana es un valor central. Para medir la dispersión, podemos calcular el recorrido, que es la diferencia entre el mayor y el menor valor. Pero este recorrido refleja más los valores extremos que la localización de la mayor parte de los valores. Comprendemos mejor la dispersión de una muestra por los intervalos inter-cuartiles e inter-deciles.

Definición 2.6 Llamamos intervalo inter-cuartiles al intervalo $[\widehat{Q}(0.25), \widehat{Q}(0.75)]$ , el cual contiene la mitad central de los valores de la muestra. Llamamos intervalo inter-deciles al intervalo $[\widehat{Q}(0.1), \widehat{Q}(0.9)]$ , el cual contiene $80\%$ de los valores de la muestra.

Estos intervalos forman la base de una representación muy compacta de la distribución empírica: el diagrama en caja (o caja y bigotes, box plot, box-and-whisker plot). No existe una definición general de esta representación. Ella consiste en una caja rectangular cuyos dos extremos son los cuartiles. Estos extremos se prolongan por trazos que terminan con segmentos ortogonales (los bigotes). La longitud de estos segmentos varía según el autor. Nosotros proponemos fijarlos en los deciles extremos. Representamos también la mediana por un trazo en la caja y a veces se representan también los valores extremos de la muestra. (ver la figura 8).

**Gráfico 8:** Diagrama en caja.
$\begin{figure} \unitlength=1mm \begin{center} \begin{picture}(100, 75) \lin... ...Q}(1)$} \put(50,67){$\max\{x_i\}$} \end{picture} \end{center} \end{figure}$

**Gráfico 9:** Estaturas de niños de 6 años. La zona sombreada corresponde a el intervalo inter-cuartiles. La mediana está en trazo continuo, los deciles $\widehat{Q}(0.1)$ y $\widehat{Q}(0.9)$ en punteado.

	$\widehat{Q}(u)$
	Mediana
,	Cuartiles
$0.1,\ldots,0.9$	Deciles
$0.01,\ldots,0.99$	Centiles