Gráficas y estadística descriptiva univariada - variable numérica

Hanwen Zhang, Ph.D.

2022-II

Gráfica para una variable numérica

La gráfica de barras también es idónea para presentar los valores de una variable numérica. 🧞‍♂️

Para su elaboración se considera 2 casos:

  • La variable toma pocos valores (pocas unidades de observación)

  • La variable toma muchos valores (muchas unidades de observación): Histograma

Una variable numérica con pocas unidades de observación

Número total de activistas asesinados en 2019

asesinatos pais
64 Colombia
43 Filipinas
24 Brasil
18 México
14 Honduras
12 Guatemala
8 Venezuela
6 India
5 Nicaragua
3 Indonesia
2 RDC
2 Burkina Faso
2 Rumania
2 Kazajstán
1 Uganda
1 Perú
1 Camboya
1 Bolivia
1 Ghana
1 Kenia
1 Costa Rica

Una variable numérica con pocas unidades de observación

Una variable numérica con pocas unidades de observación

Una variable numérica con pocas unidades de observación

¡Esto no se hace!

Tarea 1 💻

Utilice los datos Desempleo 2020 latam.xlsx y elabore una gráfica de barras. Asegure que la gráfica tenga:

  • un título claro
  • una lectura (interpretación), no más de 3 frases
  • leyendas claras
  • colores amigables

¿Puedes destacar la cifra de Chile y de América Latina y el Caribe?

Tarea 2 💻

Ingresar a la página, sección Estadísticas y descargar el archivo de Pobreza por Ingreso Casen en Pandemia 2020 (revisado septiembre 2022)

Elabore una gráfica de barras que ilustre:

  • Distribución de la población según situación de pobreza por región para el 2020.

  • Compara tu gráfica con la publicada por el ministerio aquí (página 15)

  • Distribución de la población según situación de pobreza por región, comparativa para el 2017 y 2020.

Una variable numérica con muchas unidades de observación

Número de llamadas que realizan 80 operadores de telefonía entre 10-11am a promocionar cierto producto.

 [1] 14 21 21 16 22 17 24 17 17 12 20 24 19 17 23 17 20 17 20 19 23 17 15 23 24
[26] 35 27 13 26 15 25 17 15 14 17 22 20 16 15 28 22 31 19 17 17 14 19 21 25 29
[51] 19 21 20 20 16 16 33 20 20 16 19 23 23 22 18 19 14 18 31 17 30 25 24 22 21
[76] 20 23 22 18 29

¿Cómo podemos representar adecuada la información contenida en los datos?🧐

Una variable numérica con muchas unidades de observación

Intento 1: barras directamente (no se ve bien)

Una variable numérica con muchas unidades de observación

Intento 2: tabla de frecuencias + barras (un poco mejor)

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 33 35
1 1 4 4 5 12 3 7 9 5 6 6 4 3 1 1 1 2 1 2 1 1

Está bien si la variable no toma tantos valores distintos.

Una variable numérica con muchas unidades de observación

Una variable numérica con muchas unidades de observación

En general si la variable toma demasiados valores, una tabla de frecuencias no se ve muy bien.

Solución: Dividir todos los valores de la variable en grupos y contar el números de datos en cada grupo

Histograma

Histograma: gráfica de barras para datos agrupados. Visualiza en dónde están concentrados los datos

Interpretación

Lectura de la gráfica:

  • La mayoría de los operadores realizan alrededor de 18 llamadas

  • La mayoría de los operadores realizan entre 15 y 22 llamadas

  • Muy pocos operadores realizan más de 30 llamadas.

Ejercicio

Descargar el archivo “datos gráfica.xlsx” de canvas, usar datos Operador, variable Número de llamadas Mañana.

  1. Elaborar, de forma automática, un histograma para la variable Número de llamadas Mañana.

  2. Elaborar una tabla de frecuencias definiendo los rangos (clases).

  3. Elaborar un histograma con base en la tabla de frecuencias en el punto anterior.

  4. Repita el punto 2 y 3 con unos rangos diferentes, y compare las 3 gráficas obtenidas.

Interpretación de histograma

Ej 1. Datos simétricos: Puntaje PSU.

DEMRE normaliza el número de respuestas correctas.

El 50% está sobre los 500 puntos y la otra mitad bajo esa cifra

https://www.emol.com/noticias/Nacional/2018/12/28/932495/Siempre-el-16-obtiene-mas-de-600-puntos-en-la-PSU-DEMRE-explica-como-funciona-la-prueba.html

Interpretación de histograma

Interpretación de histograma

Interpretación de histograma

Ej 2. Datos asimétricos: Ingreso de hogares de la región de Maule (datos de CASEN 2007).

Interpretación de histograma

Ej 3. Datos bimodales (posibles mezclas de poblaciones distintas)

Gráfica para datos temporales

Un conjunto de datos temporales (mediciones en el tiempo) puede ser presentada con

  • unas barras

  • una línea

Ver gráficas de la página https://www.gob.cl/coronavirus/cifrasoficiales/

Tarea 3 💻

  1. Observar las gráficas en la página web

  2. Descargar el archivo de datos correspondientes a “Evolución casos confirmados por región 100.000 habitantes” (formato csv)

  3. Abrir el archivo en Excel

  4. Elaborar una gráfica de línea para el número de casos diarios de las regiones.

  5. Comparar tu gráfica con la publicada por el gobierno.

Tarea 4 💻

  1. Descargar el archivo de datos correspondientes a “Número de casos confirmados por día” (formato csv)

  2. Elaborar la gráfica de barras para el número de casos diarios nacional

  3. Elaborar la gráfica de líneas para el número de casos diarios nacional

  4. Elaborar la gráfica de barras para el número de casos diarios nacional junto con líneas para la Media móvil semanal (igual que el publicado por el gobierno)

Gráfica de cajas

Estadística descriptiva para datos numéricos

La medida más utilizada de todos los tiempos: Promedio (medida de tendencia central)

Si los datos se denotan por \(x_1,\cdots,x_n\), entonces el promedio se calcula como

\[\bar{x}=\frac{\sum_{i=1}^nx_i}{n}=\frac{x_1+\cdots+x_n}{n}\]

La Estadística es una ciencia que demuestra que si mi vecino tiene dos autos y yo ninguno, los dos tenemos uno cada uno

Media

Problema con \(\bar{x}\): se deja influenciar por datos atípicos.

  • Operadores jornada mañana: 7, 11, 10, 6, 11, 12, 10, 15

  • Operadores jornada tarde: 7, 11, 10, 6, 11, 12, 10, 1

Jornada mañana: \(\bar{x}=10.25\)

Jornada tarde: \(\bar{x}=8.5\)

Mediana

Cuando hay datos atípicos, usar la mediana \(x_{50}\) para describir la tendencia central de los datos.

La mediana es el valor que divide a los datos ordenados en la mitad.

Si tu ingreso mensual es igual a la mediana de la ciudad, entonces la mitad de las personas de la ciudad gana más (menos) que tú.

Jornada mañana: \(x_{50}=10.5\)

Jornada tarde: \(x_{50}=10\)

Medidas de posición: cuartiles

Cuartiles: 3 valores (\(Q_1,Q_2,Q_3\)) que dividen a los datos ordenados en 4 porciones iguales.

\[\text{Segundo cuartil}\ =\ \text{Mediana}\]

Para el peso de los reciente nacidos en el último año en Chile, \(Q_1=3100gr\), \(x_{50}=3300gr\), \(Q_3=3800gr\)

Medidas de posición: percentiles

  • Generalización del concepto de los cuartiles.

  • El percentil \(\alpha\) es el valor que es mayor al \(\alpha\)% de los datos.

  • 💰 ¡Mi sueldo está en el percentil 80 nacional de Chile!

  • 🥵 ¡La estatura de su hijo de 6 años está en el percentil 5!

  • https://personalfinancedata.com/income-percentile-calculator/

Percentiles

Para datos que corresponden al monto de compras (en miles de CLP) en un supermercado,

Percentil 10 15 30 50 65 90 95
Valor (miles de pesos) 20 26 40 70 120 137 200

Qué porcentaje de transacciones tiene monto

  • menor a 120?

  • menor a 40 mil?

  • mayor a 200 mil?

  • mayor a 20 mil

  • entre 20 mil y 40 mil?

  • entre 40 mil y 200 mil?

Percentiles

Percentil 10 15 30 50 65 90 95
Valor 20 26 40 70 120 137 200
  • El percentil 35 de estos datos es ______.

  • El primer cuartil de estos datos es ______.

Otros percentiles

Quintiles Los quintiles son 4 valores que dividen a los datos en 5 segmentos iguales

Deciles Los deciles son 9 valores que dividen a los datos en 10 segmentos iguales

https://psu.cl/2015/09/16/que-son-los-quintiles-y-para-que-sirven/

Moda

El dato (cuantitativo o cualitativo) que tenga mayor frecuencia.

No tiene en cuenta todos los datos.

Medidas para la dispersión

  • La dispersión es uno de los conceptos más importantes en la estadística.

  • Si no hay dispersión, no hay ningún análisis.

  • Dispersión, variación, homogeneidad

Rango intercuartílico

\[RQ=Q_3-Q_1\] Indica en dónde está concentrado el 50% de los

Rango

Rango \[Rango=x_{max}-x_{min}\] Entre mayor sea Rango y RQ, mayor dispersión hay en los datos.

  • No son las medidas más utilizadas para describir la dispersión.

  • No tiene en cuenta todos los datos.

Desviación media absoluta

¿Cómo se difieren los datos entre sí?

Medir la distancia entre los datos y la media.

Desviación media absoluta \[DMA=\frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\] Entre mayor sea DMA, mayor dispersión.

No es la medida más usual para la dispersión.

Varianza

Varianza muestral \[S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\]

Entre mayor sea \(S^2\), mayor dispersión.

La unidad de \(S^2\) es el cuadrado de la unidad de los datos.

La varianza del ingreso de los chilenos durante 2021 fue de 1,456,421 pesos al cuadrado 🤯

Desviación estándar

Desviación estándar muestral \[S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}\]

Entre mayor sea \(S\), mayor dispersión.

La unidad de \(S\) es la misma unidad de los datos.

La desviación estándar del ingreso de los chilenos durante 2021 fue de 256,421 pesos 😎

Coeficiente de variación

\[cv=\frac{S}{\bar{x}}\]

  • Entre mayor sea, más dispersión.

  • \(cv\) está libre de unidad.

  • Se interpreta como un porcentaje.

Tarea Jeep 💻

Objetivo: Caracterizar el mercado de autos usados con datos provenientes de la página Chileautos - Caso Jeep

Descripción de variables numéricas 📊

Para cada una de las dos variables numéricas: km y precio:

  • Elaborar el histograma e interpretar

  • Elaborar la gráfica de cajas e interpretar

  • Calcular medidas de: mínimo, máximo, promedio, desviación estándar e interpretar