Gráficas y estadística descriptiva - dos variables numéricas
Hanwen Zhang, Ph.D.
2022-II
Un ejemplo
pais ingreso pc
1 Alemania 27610.0 48.47
2 Arabia Saudita 13230.0 13.67
3 Argentina 11410.0 8.20
4 Australia 28780.0 60.18
5 Bélgica 28920.0 31.81
6 Brasil 7510.0 7.48
7 Bulgaria 75.4 5.19
8 Canadá 30040.0 48.70
9 China 4980.0 2.76
10 Colombia 6410.0 4.93
11 Ecuador 3940.0 3.24
12 Egipto 3940.0 2.91
13 España 22150.0 19.60
14 Estados Unidos 37750.0 40.57
15 Francia 27640.0 34.71
16 Grecia 19900.0 8.17
17 Guatemala 4090.0 1.44
18 Hungría 13840.0 10.84
19 India 2880.0 0.72
20 Indonesia 3210.0 1.19
21 Italia 26830.0 23.07
22 Japón 28450.0 38.22
23 México 8980.0 8.30
24 PaísBajos 28560.0 46.66
25 Pakistán 2040.0 0.42
26 Polonia 11210.0 14.20
27 ReinoUnido 27690.0 40.57
28 RepúblCheca 15600.0 17.74
29 Rusia 8950.0 8.87
30 Sudáfrica 10130.0 7.26
31 Suecia 26710.0 62.13
32 Suiza 32220.0 70.87
33 Tailandia 7450.0 3.98
34 Venezuela 4750.0 6.09
Datos sobre el número de computadoras personales (PC) por cada 100 personas, y el ingreso per cápita ajustado por el poder adquisitivo en dólares
Una muestra de 34 países.
Corresponden a 2003 y se obtuvieron del Statistical Abstract of the United States, 2006.
Relación entre dos variables
¿Cómo se puede explicar la relación entre dos variables?
- ¿Qué tipo de relación es?
- ¿Qué tan fuerte es la relación?
- ¿Cómo se puede usar esta relación para predecir valores de una variable?
Gráfica de dispersión
La gráfica por excelencia para representar valores de 2 variables numéricas es la gráfica de dispersión.
Cada variable corresponde a un eje del plano cartesiano.
Gráfica de dispersión
Cada unidad de observación es un punto en el plano (xi,yi)
Tener en cuenta
Tener en cuenta
Gráfica de dispersión
Interpretación
Paises con más ingreso tieden a tener más computadores entres los habitantes.
Paises con menor ingreso tieden a tener menos computadores entres los habitantes.
No hay paises con bajo nivel de ingreso pero muchos computadores entre sus habitantes.
No hay (casi no hay) paises con alto nivel de ingreso pero pocos computadores entre sus habitantes.
Mayor ingreso está asociado con mayor cantidad de PC
Menor ingreso está asociado con menor cantidad de PC
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
Relación entre dos variables
![]()
Cambios de y no depende de x
Relación entre dos variables
![]()
Cambios en x no produce cambios en y
Relación entre dos variables
Una gráfica de dispersión permite detectar diferentes tipos de relaciones entre dos variables.
Las relaciones pueden ser:
- lineales
- no lineales (cuadrática, cúbica, exponencial, logarítmica, etc.)
Por ahora, solo consideramos relación lineal entre x y y
Tarea 1 💻
Utilice los datos Datos_Venta_Propiedades.xlsx
Elige una de las comunas de la Región Metropolitana
Elabora la gráfica de dispersión entre el área y el precio (recuerda estandarizar la unidad de medición del precio).
¿Qué tipo de relación observas entre las dos variables? (directamente o inversamente proporcional)
¿Consideras que la relación es fuerte? ¿Por qué?
Covarianza entre dos variables
Para dos variables numéricas medidas en un conjunto de n individuos: x1,x2,⋯,xn y y1,y2,⋯,yn, se define la covarianza entre x e y como Cov(x,y)=Sxy=1n−1n∑i=1(xi−ˉx)(yi−ˉy)
Si Sxy>0, la relación lineal entre x y y es directamente proporcional.
Si Sxy<0, la relación lineal entre x y y es inversamente proporcional.
Desventajas de la covarianza
- La unidad de la covarianza es la unidad de x multiplicado por la unidad de y
- La covarianza entre el número de empleados y el ingreso mensual de una empresa es de: 43,670 pesos*persona.
- La covarianza puede tomar cualquier valor (dependiendo de los valores de x e y), difícil de determinar si representa una relación fuerte o débil.
Solución: estandarizar diviendo por la desviación estándar de x y de y.
Correlación entre dos variables
Para datos de dos variables numéricas: x1,x2,⋯,xn y y1,y2,⋯,yn, se define el coeficiente de correlación como ρ=SxySxSy=Cov(x,y)sd(x)sd(y)=∑ni=1(xi−ˉx)(yi−ˉy)√∑ni=1(xi−ˉx)2√∑ni=1(yi−ˉy)2
¿Qué mide ρ?
Mide la magnitud de la relación lineal entre dos variables.
No mide qué tan fuerte es la relación, sino solo qué tan fuerte es la relación lineal.
Si ρ=0, decimos que x e y son incorrelacioadas.
Si ρ=0, entonces no hay relación lineal entre x e y, puede existir otras relaciones.
Si entre x e y no existe relación, entonces necesariamente ρ=0
Correlación no implica causalidad
Relación entre el número de artículos vendidos (x) y la ganancia (y).
Mayor número de artículos vendidos están relacionados con mayores ganancias.
Existe correlación entre x e y.
Existe causalidad entre x e y.
Valores grandes de y se deben a (son causados por) valores grandes de x
Correlación no implica causalidad
Relación entre el número de semáforos en las ciudades (x) y el número de habitantes con cáncer (y).
Ciudades con más semáforos tienen más habitantes con cáncer.
Ciudades con menos semáforos tienen menos habitantes con cáncer.
Existe correlación entre x e y.
No existe causalidad entre x e y.
x e y están siendo influenciadas por otro factor: número de habitantes.
Interpretación del signo de ρ
Interpretación de la magnitud de ρ:
−1≤ρ≤1
- La relación lineal entre las variables es directamente proporcional y es fuerte
- La relación lineal entre las variables es inversamente proporcional y es fuerte
- La relación lineal entre las variables es débil
Interpretación de la magnitud de ρ:
La correlación entre la variable PC y el Ingreso es:
Relación lineal fuerte y directamente proporcional.
Entre mayor sea el ingreso de un país, mayor tiende a ser el número de PC por cada 100 habitantes.
Paises con mayores ingresos tieden a tener mayor número de PC por cada 100 habitantes.
Tarea 2 💻
Con los datos Datos_Venta_Propiedades.xlsx correspondiente a la comuna que elegiste en la tarea 1.
Calcular la correlación entre el área y el precio.
¿Consideras que esta correlación es fuerte?
Entre _______ sea el área de un departamento, _______ es el precio.
Elige otras 2 comunas, repite el proceso, y compara los resultados.
Gráficas y estadística descriptiva - dos variables numéricas Hanwen Zhang, Ph.D. 2022-II