Hanwen Zhang, Ph.D.
2022-II
La gráfica de barras también es idónea para presentar los valores de una variable numérica. 🧞♂️
Para su elaboración se considera 2 casos:
La variable toma pocos valores (pocas unidades de observación)
La variable toma muchos valores (muchas unidades de observación): Histograma
Número total de activistas asesinados en 2019
| asesinatos | pais |
|---|---|
| 64 | Colombia |
| 43 | Filipinas |
| 24 | Brasil |
| 18 | México |
| 14 | Honduras |
| 12 | Guatemala |
| 8 | Venezuela |
| 6 | India |
| 5 | Nicaragua |
| 3 | Indonesia |
| 2 | RDC |
| 2 | Burkina Faso |
| 2 | Rumania |
| 2 | Kazajstán |
| 1 | Uganda |
| 1 | Perú |
| 1 | Camboya |
| 1 | Bolivia |
| 1 | Ghana |
| 1 | Kenia |
| 1 | Costa Rica |
Utilice los datos Desempleo 2020 latam.xlsx y elabore una gráfica de barras. Asegure que la gráfica tenga:
¿Puedes destacar la cifra de Chile y de América Latina y el Caribe?
Ingresar a la página, sección Estadísticas y descargar el archivo de Pobreza por Ingreso Casen en Pandemia 2020 (revisado septiembre 2022)
Elabore una gráfica de barras que ilustre:
Distribución de la población según situación de pobreza por región para el 2020.
Compara tu gráfica con la publicada por el ministerio aquí (página 15)
Distribución de la población según situación de pobreza por región, comparativa para el 2017 y 2020.
Número de llamadas que realizan 80 operadores de telefonía entre 10-11am a promocionar cierto producto.
[1] 14 21 21 16 22 17 24 17 17 12 20 24 19 17 23 17 20 17 20 19 23 17 15 23 24
[26] 35 27 13 26 15 25 17 15 14 17 22 20 16 15 28 22 31 19 17 17 14 19 21 25 29
[51] 19 21 20 20 16 16 33 20 20 16 19 23 23 22 18 19 14 18 31 17 30 25 24 22 21
[76] 20 23 22 18 29
¿Cómo podemos representar adecuada la información contenida en los datos?🧐
Intento 1: barras directamente (no se ve bien)
Intento 2: tabla de frecuencias + barras (un poco mejor)
| 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 33 | 35 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 4 | 4 | 5 | 12 | 3 | 7 | 9 | 5 | 6 | 6 | 4 | 3 | 1 | 1 | 1 | 2 | 1 | 2 | 1 | 1 |
Está bien si la variable no toma tantos valores distintos.
En general si la variable toma demasiados valores, una tabla de frecuencias no se ve muy bien.
Solución: Dividir todos los valores de la variable en grupos y contar el números de datos en cada grupo
Histograma: gráfica de barras para datos agrupados. Visualiza en dónde están concentrados los datos
Lectura de la gráfica:

La mayoría de los operadores realizan alrededor de 18 llamadas
La mayoría de los operadores realizan entre 15 y 22 llamadas
Muy pocos operadores realizan más de 30 llamadas.
Descargar el archivo “datos gráfica.xlsx” de canvas, usar datos Operador, variable Número de llamadas Mañana.
Elaborar, de forma automática, un histograma para la variable Número de llamadas Mañana.
Elaborar una tabla de frecuencias definiendo los rangos (clases).
Elaborar un histograma con base en la tabla de frecuencias en el punto anterior.
Repita el punto 2 y 3 con unos rangos diferentes, y compare las 3 gráficas obtenidas.
Ej 1. Datos simétricos: Puntaje PSU.
DEMRE normaliza el número de respuestas correctas.
El 50% está sobre los 500 puntos y la otra mitad bajo esa cifra
https://www.emol.com/noticias/Nacional/2018/12/28/932495/Siempre-el-16-obtiene-mas-de-600-puntos-en-la-PSU-DEMRE-explica-como-funciona-la-prueba.html
Ej 2. Datos asimétricos: Ingreso de hogares de la región de Maule (datos de CASEN 2007).
Ej 3. Datos bimodales (posibles mezclas de poblaciones distintas)
Un conjunto de datos temporales (mediciones en el tiempo) puede ser presentada con
unas barras
una línea
Ver gráficas de la página https://www.gob.cl/coronavirus/cifrasoficiales/
Observar las gráficas en la página web
Descargar el archivo de datos correspondientes a “Evolución casos confirmados por región 100.000 habitantes” (formato csv)
Abrir el archivo en Excel
Elaborar una gráfica de línea para el número de casos diarios de las regiones.
Comparar tu gráfica con la publicada por el gobierno.
Descargar el archivo de datos correspondientes a “Número de casos confirmados por día” (formato csv)
Elaborar la gráfica de barras para el número de casos diarios nacional
Elaborar la gráfica de líneas para el número de casos diarios nacional
Elaborar la gráfica de barras para el número de casos diarios nacional junto con líneas para la Media móvil semanal (igual que el publicado por el gobierno)
La medida más utilizada de todos los tiempos: Promedio (medida de tendencia central)
Si los datos se denotan por \(x_1,\cdots,x_n\), entonces el promedio se calcula como
\[\bar{x}=\frac{\sum_{i=1}^nx_i}{n}=\frac{x_1+\cdots+x_n}{n}\]
La Estadística es una ciencia que demuestra que si mi vecino tiene dos autos y yo ninguno, los dos tenemos uno cada uno
Problema con \(\bar{x}\): se deja influenciar por datos atípicos.
Operadores jornada mañana: 7, 11, 10, 6, 11, 12, 10, 15
Operadores jornada tarde: 7, 11, 10, 6, 11, 12, 10, 1
Jornada mañana: \(\bar{x}=10.25\)
Jornada tarde: \(\bar{x}=8.5\)
Cuando hay datos atípicos, usar la mediana \(x_{50}\) para describir la tendencia central de los datos.
La mediana es el valor que divide a los datos ordenados en la mitad.
Si tu ingreso mensual es igual a la mediana de la ciudad, entonces la mitad de las personas de la ciudad gana más (menos) que tú.
Jornada mañana: \(x_{50}=10.5\)
Jornada tarde: \(x_{50}=10\)
Cuartiles: 3 valores (\(Q_1,Q_2,Q_3\)) que dividen a los datos ordenados en 4 porciones iguales.
\[\text{Segundo cuartil}\ =\ \text{Mediana}\]
Para el peso de los reciente nacidos en el último año en Chile, \(Q_1=3100gr\), \(x_{50}=3300gr\), \(Q_3=3800gr\)
Generalización del concepto de los cuartiles.
El percentil \(\alpha\) es el valor que es mayor al \(\alpha\)% de los datos.
💰 ¡Mi sueldo está en el percentil 80 nacional de Chile!
🥵 ¡La estatura de su hijo de 6 años está en el percentil 5!
https://personalfinancedata.com/income-percentile-calculator/
Para datos que corresponden al monto de compras (en miles de CLP) en un supermercado,
| Percentil | 10 | 15 | 30 | 50 | 65 | 90 | 95 |
|---|---|---|---|---|---|---|---|
| Valor (miles de pesos) | 20 | 26 | 40 | 70 | 120 | 137 | 200 |
Qué porcentaje de transacciones tiene monto
menor a 120?
menor a 40 mil?
mayor a 200 mil?
mayor a 20 mil
entre 20 mil y 40 mil?
entre 40 mil y 200 mil?
| Percentil | 10 | 15 | 30 | 50 | 65 | 90 | 95 |
|---|---|---|---|---|---|---|---|
| Valor | 20 | 26 | 40 | 70 | 120 | 137 | 200 |
El percentil 35 de estos datos es ______.
El primer cuartil de estos datos es ______.
Quintiles Los quintiles son 4 valores que dividen a los datos en 5 segmentos iguales
Deciles Los deciles son 9 valores que dividen a los datos en 10 segmentos iguales
https://psu.cl/2015/09/16/que-son-los-quintiles-y-para-que-sirven/
El dato (cuantitativo o cualitativo) que tenga mayor frecuencia.
No tiene en cuenta todos los datos.
La dispersión es uno de los conceptos más importantes en la estadística.
Si no hay dispersión, no hay ningún análisis.
Dispersión, variación, homogeneidad
\[RQ=Q_3-Q_1\] Indica en dónde está concentrado el 50% de los

Rango \[Rango=x_{max}-x_{min}\] Entre mayor sea Rango y RQ, mayor dispersión hay en los datos.
No son las medidas más utilizadas para describir la dispersión.
No tiene en cuenta todos los datos.
¿Cómo se difieren los datos entre sí?
Medir la distancia entre los datos y la media.
Desviación media absoluta \[DMA=\frac{1}{n}\sum_{i=1}^n|x_i-\bar{x}|\] Entre mayor sea DMA, mayor dispersión.
No es la medida más usual para la dispersión.
Varianza muestral \[S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\]
Entre mayor sea \(S^2\), mayor dispersión.
La unidad de \(S^2\) es el cuadrado de la unidad de los datos.
La varianza del ingreso de los chilenos durante 2021 fue de 1,456,421 pesos al cuadrado 🤯
Desviación estándar muestral \[S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}\]
Entre mayor sea \(S\), mayor dispersión.
La unidad de \(S\) es la misma unidad de los datos.
La desviación estándar del ingreso de los chilenos durante 2021 fue de 256,421 pesos 😎
\[cv=\frac{S}{\bar{x}}\]
Entre mayor sea, más dispersión.
\(cv\) está libre de unidad.
Se interpreta como un porcentaje.
Objetivo: Caracterizar el mercado de autos usados con datos provenientes de la página Chileautos - Caso Jeep
Descripción de variables numéricas 📊
Para cada una de las dos variables numéricas: km y precio:
Elaborar el histograma e interpretar
Elaborar la gráfica de cajas e interpretar