Gráficas y estadística descriptiva univariada - variable categórica

Hanwen Zhang, Ph.D.

2022-II

Utilidad de una gráfica

Cuando se disponen de un conjunto de datos, la forma más directa de presentarlos es por medio de una gráfica, pues permite conocer de manera rápida la información contenida en los datos y entender su dinámica.

Utilidad de una gráfica

Al momento de elaborar una gráfica, hay que tener en cuenta:

Tipo de datos

Numérico, categórico ordinal, categórico nominal

Número de variables

Una variable, dos variables, más variables?

¡Empecemos con lo más simple!

Representación de una variable categórica

Ejemplo 1

Suponga que la oficina de talentos humanos elabora un informe para caracterizar los 40 empleados en una sucursal de una empresa.

Consideramos por ahora el tipo de contrato que tiene cada empleado, los posibles tipos de contratos son: jornada completa (JC), media jornada (MJ), boleta de honorarios (BH).

Así, los datos para el tipo de contrato de los 40 empleados serían: JC, JC, BH, MJ, MJ, …, BH, JC.

Ejemplo 1

Los datos están en el archivo datos gráfica.xlsx en canvas, hoja Contrato

  • 🚀 Variable cualitativa nominal

  • 🔑 Posibles valores: JC, MJ, BH

  • 👩🏻‍💼👨🏻‍💼 Unidad de observación: 40 empleados

Tabla de frecuencias

Una de las formas más sencillas de visualizar una variable categórica es con una gráfica de barras 📊, donde cada barra representa la frecuencia de cada posible valor.

Una forma de representar gráficamente un conjunto de datos o valores mediante barras rectangulares de longitud proporcional a los valores representados. Wikipedia

Distribución de ciertos modelos de autos según el número de cilindros

Distribución según especie y condición

Longitud total de trekking según ubicación en Washington.

Pirámide poblacional de Chile, 2019

Tabla de frecuencias

Hay dos tipos de frecuencias:

1. Frecuencia absoluta (FA)

conteos (número de veces que repite cada valor)

2. Frecuencia relativa (FR)

porcentajes (porcentaje de cada valor)

Tabla de frecuencias para una variable categórica

Una tabla de es donde se resume el número o el porcentaje de veces que aparece cada posible valor de una variable.

Tabla de frecuencias para una variable categórica

Para la variable “tipo de contrato” de 40 empleados, la tabla de frecuencias es:

BH JC MJ
11 19 10

👀 La suma de las frecuencias absolutas es igual al número total de datos (\(n\)).

\[11+19+10=40\]

Tabla de frecuencias para una variable categórica

Una frecuencias relativa (\(FR\)) se calcula como:

\[FR=\frac{FA}{n}\]

  • Cada FR debe estar entre 0 y 1

  • Las FR pueden ser representadas con %.

Tabla de frecuencias para una variable categórica

Una tabla de frecuencias relativas es donde se resume el porcentaje de veces que aparece cada posible valor de una variable.

BH JC MJ
0.275 0.475 0.25

La suma de las frecuencias relativas es igual al 1 o el 100%.

\[0.275+0.475+0.25=1\]

Gráfica de barras para una variable categórica

Pasos a seguir:

  1. Preparar los datos

  2. Tabular (calcular \(FR\) o \(FA\))

  3. Elaborar la gráfica de barras

Gráfica de barras para una variable categórica

Para un conjunto de datos de una variable categórica

gráfica de frecuencias relativas = gráfica de frecuencias absolutas

Gráfica de barras para una variable categórica

Frecuencias absolutas

Frecuencias relativas

Gráfica de pastel para una variable categórica

  • Diseñado para representar composición de un conjunto de elementos.

  • Permite mostrar los resultados de una variable categórica.

  • Amado por unos 😇 y odiado por otros 😈

  • John Tukey (padre del análisis exploratorio de datos) afirma que:

There is no data that can be displayed in a pie chart that cannot be displayed better in some other type of chart.

¿Por qué muchos odian a 🍰?

  • Los valores son representados por los trozos, y los ojos humanos no son buenos para estimar cantidades usando ángulos 🤯.
  • Es difícil decir entre dos trozos similares, cuál es más grande.
  • La gráfica de pastel falla cuando hay muchas categorías.
  • Difícil asociar las etiquetas con los trozos.
  • Los porcentajes muy pequeños no se visualizan bien.

¡Así no!

Gráfica de pastel para una variable categórica

Ejercicio ✍🏻

Para la variable TIPO DE CONTRATO en excel.

  1. Elaborar la tabla de frecuencias absoluta y relativa
  2. Elaborar la gráfica de barras (con título, colores amigables, con o sin valor de las frecuencias) ordenando las barras de mayor frecuencia a menor frecuencia.
  3. Escribir la lectura de la gráfica
  4. Elaborar la gráfica de pastel (con título, colores amigables, con o sin valor de las frecuencias)
  5. Escribir la lectura de la gráfica

Gráfica para una variable categórica ordinal

  • Los posibles valores tienen un orden natural.

  • Las barras deben respetar dicho orden, con el fin de facilitar la interpretación.

Ejemplo

Escala de Likert (psicólogo norteamericano Rensis Likert) para medir la percepción o satisfección en clientes.

Ejercicio ✍🏻

Elaborar la gráfica de barras para la variable el grado de satisfacción en excel. Descargar el arcyivo “Satisfacción.xlsx” de aula virtual.

  1. Elaborar la tabla de frecuencias absoluta y relativa
  2. Elaborar la gráfica de barras (con título, colores amigables, con o sin valor de las frecuencias)
  3. Escribir la lectura de la gráfica

Tarea 💻

Objetivo: Caracterizar el mercado de autos usados con datos provenientes de la página Chileautos - Caso Jeep

  1. Describir la base de datos 📝
  • Fuente de información

  • Información disponible: variables (descripción y clasificación de cada una) y unidades de observación

  1. Resumen de variables 📊
  • Para cada variable categórica, elaborar la tabla de frecuencias y la gráfica de barras.