Sección : Datos bidimensionales
Previo : Datos bidimensionales
Siguiente : Covarianza

Representaciones bidimensionales


Es frecuente que varios carácteres sean observados en una misma población. En una encuesta de opinión, las personas encuestadas pueden hasta responder decenas de preguntas. Sobre una misma muestra de sangre, se miden usualmente varias variables (cantidades de glóbulos, tasas de colesterol, nivel de glucosa, ...). Un estudio descriptivo de cada carácter permite resumir las carácterísticas de sus distribuciones empíricas. Para concentrar en un mismo gráfico el conjunto de las distribuciones empíricas, podemos trazar paralelamente el diagrama de caja de cada uno de los carácteres. Pero estudiar los carácteres separadamente no suministra ninguna indicación sobre las relaciones eventuales entre ellos: se olvida que las muestras han sido tomadas de los mismos individuos. El problema consiste en estudiar simultáneamente los carácteres sin perder la información de que han sido observados en los mismos individuos.

Si varios carácteres $ x$, $ y$, $ z, \ldots$ han sido medidos en una misma población, podemos considerar los datos $ x_i$, $ y_i$, $ z_i,
\ldots$ correspondientes a un individuo $ i$ como las coordenadas de un punto en $ \mathbb {R}^d$, donde $ d$ es el número de carácteres. El conjunto de estos puntos constituye una '' nube de puntos'' en $ \mathbb {R}^d$. Para $ d=2$ o $ d=3$, podemos representar gráficamente esta nube de puntos (figura 13). Más allá es imposible hacerlo y estamos obligados a proyectarla sobre subespacios de dimensión $ 2$ o $ 3$. Las diferentes técnicas de proyección son el objeto del '' análisis multidimensional de datos'' (análisis discriminante, análisis de componentes principales, análisis factorial de correspondencias, etc...).

Gráfico 13: Nube de puntos: estaturas y peso de niños de 6 años.


En el caso en que se observan 2 carácteres cuantitativos, $ x$ e $ y$, podemos reagrupar sus valores en clases y representar en perspectiva un histograma bidimensional: el conjunto de pares de valores se divide en rectángulos sobre los cuales se dibuja un paralelepípedo cuyo volumen es la frecuencia empírica del rectángulo, es decir el número de pares $ (x_i,y_i)$ que pertenecen al rectángulo, dividido por el tamaño de la muestra. Si uno de los carácteres es cualitativo, por ejemplo $ x$, trazar un histograma bidimensional no tiene sentido. Frecuentemente se prefiere superponer histogramas unidimensionales de los valores de $ y$, para cada una de las modalidades de $ x$. Si $ x$ es binario e $ y$ continuo, por ejemplo $ x$ es el sexo e $ y$ es la edad, frecuentemente se representa el carácter cuantitativo en la ordenada y se trazan dos histogramas horizontales frente a frente, se obtiene así una ''pirámide de edades''.



Sección : Datos bidimensionales
Previo : Datos bidimensionales
Siguiente : Covarianza