Gráficas y estadística descriptiva - dos variables numéricas

Hanwen Zhang, Ph.D.

2022-II

Un ejemplo

             pais ingreso    pc
1        Alemania 27610.0 48.47
2  Arabia Saudita 13230.0 13.67
3       Argentina 11410.0  8.20
4       Australia 28780.0 60.18
5         Bélgica 28920.0 31.81
6          Brasil  7510.0  7.48
7        Bulgaria    75.4  5.19
8          Canadá 30040.0 48.70
9           China  4980.0  2.76
10       Colombia  6410.0  4.93
11        Ecuador  3940.0  3.24
12         Egipto  3940.0  2.91
13         España 22150.0 19.60
14 Estados Unidos 37750.0 40.57
15        Francia 27640.0 34.71
16         Grecia 19900.0  8.17
17      Guatemala  4090.0  1.44
18        Hungría 13840.0 10.84
19          India  2880.0  0.72
20      Indonesia  3210.0  1.19
21         Italia 26830.0 23.07
22          Japón 28450.0 38.22
23         México  8980.0  8.30
24      PaísBajos 28560.0 46.66
25       Pakistán  2040.0  0.42
26        Polonia 11210.0 14.20
27     ReinoUnido 27690.0 40.57
28    RepúblCheca 15600.0 17.74
29          Rusia  8950.0  8.87
30      Sudáfrica 10130.0  7.26
31         Suecia 26710.0 62.13
32          Suiza 32220.0 70.87
33      Tailandia  7450.0  3.98
34      Venezuela  4750.0  6.09
  • Datos sobre el número de computadoras personales (PC) por cada 100 personas, y el ingreso per cápita ajustado por el poder adquisitivo en dólares

  • Una muestra de 34 países.

  • Corresponden a 2003 y se obtuvieron del Statistical Abstract of the United States, 2006.

Relación entre dos variables

¿Cómo se puede explicar la relación entre dos variables?

  • ¿Qué tipo de relación es?
  • ¿Qué tan fuerte es la relación?
  • ¿Cómo se puede usar esta relación para predecir valores de una variable?

Gráfica de dispersión

La gráfica por excelencia para representar valores de 2 variables numéricas es la gráfica de dispersión.

Cada variable corresponde a un eje del plano cartesiano.

Gráfica de dispersión

Cada unidad de observación es un punto en el plano \((x_i, y_i)\)

Gráfica de dispersión

  • Mayor ingreso: Alemania

  • Mayor cantidad de PC: Alemania

Gráfica de dispersión

  • Mayor ingreso: Estados Unidos

  • Mayor cantidad de PC: Alemania

Gráfica de dispersión

  • Mayor ingreso: Estados Unidos

  • Misma cantidad de PC

Gráfica de dispersión

  • Mismo nivel de ingreso

  • Mayor cantidad PC: Polonia

Tener en cuenta

Tener en cuenta

Gráfica de dispersión

Interpretación

  • Paises con más ingreso tieden a tener más computadores entres los habitantes.

  • Paises con menor ingreso tieden a tener menos computadores entres los habitantes.

  • No hay paises con bajo nivel de ingreso pero muchos computadores entre sus habitantes.

  • No hay (casi no hay) paises con alto nivel de ingreso pero pocos computadores entre sus habitantes.

  • Mayor ingreso está asociado con mayor cantidad de PC

  • Menor ingreso está asociado con menor cantidad de PC

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Relación entre dos variables

Cambios de \(y\) no depende de \(x\)

Relación entre dos variables

Cambios en \(x\) no produce cambios en \(y\)

Relación entre dos variables

Una gráfica de dispersión permite detectar diferentes tipos de relaciones entre dos variables.

Las relaciones pueden ser:

  • lineales
  • no lineales (cuadrática, cúbica, exponencial, logarítmica, etc.)

Por ahora, solo consideramos relación lineal entre \(x\) y \(y\)

Tarea 1 💻

Utilice los datos Datos_Venta_Propiedades.xlsx

  • Elige una de las comunas de la Región Metropolitana

  • Elabora la gráfica de dispersión entre el área y el precio (recuerda estandarizar la unidad de medición del precio).

  • ¿Qué tipo de relación observas entre las dos variables? (directamente o inversamente proporcional)

  • ¿Consideras que la relación es fuerte? ¿Por qué?

Covarianza entre dos variables

Para dos variables numéricas medidas en un conjunto de \(n\) individuos: \(x_1,x_2,\cdots,x_n\) y \(y_1,y_2,\cdots,y_n\), se define la covarianza entre \(x\) e \(y\) como \[Cov(x,y)=S_{xy}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\]

  • Si \(S_{xy}>0\), la relación lineal entre \(x\) y \(y\) es directamente proporcional.

  • Si \(S_{xy}<0\), la relación lineal entre \(x\) y \(y\) es inversamente proporcional.

Desventajas de la covarianza

  1. La unidad de la covarianza es la unidad de \(x\) multiplicado por la unidad de \(y\)
  • La covarianza entre el número de empleados y el ingreso mensual de una empresa es de: 43,670 pesos*persona.
  1. La covarianza puede tomar cualquier valor (dependiendo de los valores de \(x\) e \(y\)), difícil de determinar si representa una relación fuerte o débil.

Solución: estandarizar diviendo por la desviación estándar de \(x\) y de \(y\).

Correlación entre dos variables

Para datos de dos variables numéricas: \(x_1,x_2,\cdots,x_n\) y \(y_1,y_2,\cdots,y_n\), se define el coeficiente de correlación como \[\rho=\frac{S_{xy}}{S_xS_y}=\frac{Cov(x,y)}{sd(x)sd(y)}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}\]

¿Qué mide \(\rho\)?

Mide la magnitud de la relación lineal entre dos variables.

No mide qué tan fuerte es la relación, sino solo qué tan fuerte es la relación lineal.

Si \(\rho=0\), decimos que \(x\) e \(y\) son incorrelacioadas.

Si \(\rho=0\), entonces no hay relación lineal entre \(x\) e \(y\), puede existir otras relaciones.

Si entre \(x\) e \(y\) no existe relación, entonces necesariamente \(\rho=0\)

Correlación no implica causalidad

Relación entre el número de artículos vendidos (\(x\)) y la ganancia (\(y\)).

  • Mayor número de artículos vendidos están relacionados con mayores ganancias.

  • Existe correlación entre \(x\) e \(y\).

  • Existe causalidad entre \(x\) e \(y\).

  • Valores grandes de \(y\) se deben a (son causados por) valores grandes de \(x\)

Correlación no implica causalidad

Relación entre el número de semáforos en las ciudades (\(x\)) y el número de habitantes con cáncer (\(y\)).

  • Ciudades con más semáforos tienen más habitantes con cáncer.

  • Ciudades con menos semáforos tienen menos habitantes con cáncer.

  • Existe correlación entre \(x\) e \(y\).

  • No existe causalidad entre \(x\) e \(y\).

  • \(x\) e \(y\) están siendo influenciadas por otro factor: número de habitantes.

Interpretación del signo de \(\rho\)

\(\rho>0\)

  • La relación lineal entre \(x\) y \(y\) es directamente proporcional.

  • Valores grandes de \(x\) están asociados con valores grandes de \(y\)

\(\rho<0\)

  • La relación lineal entre \(x\) y \(y\) es inversamente proporcional.

  • Valores grandes de \(x\) están asociados con valores pequeños de \(y\)

Interpretación de la magnitud de \(\rho\):

\(-1\leq\rho \leq 1\)

\(\rho \approx 1\)

  • La relación lineal entre las variables es directamente proporcional y es fuerte

\(\rho \approx -1\)

  • La relación lineal entre las variables es inversamente proporcional y es fuerte

\(\rho \approx 0\)

  • La relación lineal entre las variables es débil

Interpretación de la magnitud de \(\rho\):

La correlación entre la variable PC y el Ingreso es:

[1] 0.8891738
  • Relación lineal fuerte y directamente proporcional.

  • Entre mayor sea el ingreso de un país, mayor tiende a ser el número de PC por cada 100 habitantes.

  • Paises con mayores ingresos tieden a tener mayor número de PC por cada 100 habitantes.

Tarea 2 💻

Con los datos Datos_Venta_Propiedades.xlsx correspondiente a la comuna que elegiste en la tarea 1.

  • Calcular la correlación entre el área y el precio.

  • ¿Consideras que esta correlación es fuerte?

  • Entre _______ sea el área de un departamento, _______ es el precio.

  • Elige otras 2 comunas, repite el proceso, y compara los resultados.