Regresión lineal simple con X categórica

Hanwen Zhang, Ph.D.

2022-II

Modelo de regresión lineal simple con \(X\) dicotómica

¿El factor de ser un país suramericano influye en la variable PC?

               Suramericana    pc
Alemania                 No 48.47
Arabia Saudita           No 13.67
Argentina               Yes  8.20
Australia                No 60.18
Bélgica                  No 31.81
Brasil                  Yes  7.48
Bulgaria                 No  5.19
Canadá                   No 48.70
China                    No  2.76
Colombia                Yes  4.93
Ecuador                 Yes  3.24
Egipto                   No  2.91
España                   No 19.60
EstadosUnidos            No 40.57
Francia                  No 34.71
Grecia                   No  8.17
Guatemala               Yes  1.44
Hungría                  No 10.84
India                    No  0.72
Indonesia                No  1.19
Italia                   No 23.07
Japón                    No 38.22
México                  Yes  8.30
PaísBajos                No 46.66
Pakistán                 No  0.42
Polonia                  No 14.20
ReinoUnido               No 40.57
RepúblCheca              No 17.74
Rusia                    No  8.87
Sudáfrica                No  7.26
Suecia                   No 62.13
Suiza                    No 70.87
Tailandia                No  3.98
Venezuela               Yes  6.09

Los paises de suramérica tienden a tener menos PC

ggplot(datos, aes(x=Suramericana, y=pc)) + geom_boxplot()

Modelo de regresión lineal simple con \(X\) dicotómica

lm(pc ~ Suramericana, data = datos)

Call:
lm(formula = pc ~ Suramericana, data = datos)

Coefficients:
    (Intercept)  SuramericanaYes  
          24.57           -18.90  

¿Cómo se estima \(\beta_0\) y \(\beta_1\) cuando \(x\) es categórica?

Se crea una variable Dummy para la categoría Yes de la variable \(Sura\)

País Sura Dummy Yes
Alemania No 0
Arabia Saudita No 0
Argentina Yes 1
..
Tailandia No 0
Venezuela Yes 1

Variable Dummy

\[Dummy_{yes, i}=\begin{cases} 1 & \text{si el país $i$ es de Suramérica}\\ 0 & \text{si no} \end{cases}\]

Una Dummy también se conoce como una variable indicadora.

\(I_{yes,i}=\begin{cases} 1 & \text{si el país $i$ es de Suramérica}\\ 0 & \text{si no} \end{cases}\)

Interpretación de los coeficientes

Interpretación del modelo \[y_i = \beta_0 + \beta_1 I_{cat,i}\]

  • Intercepto: \(\hat{\beta_0}=E(y_i|I_{cat,i}=0)\), representa el promedio de \(y\) para individuos de la categoría base.
  • Pendiente: \(\hat{\beta_1}=E(y_i|I_{cat,i}=1)-E(y_i|I_{cat,i}=0)\), representa diferencia en el valor promedio de \(y\) entre las dos categorías.

Modelo de regresión lineal simple con \(X\) dicotómica

\[PC = 24 - 14*I_{Suramericana,i}\]

  • El número promedio de pc por 100 habitantes en países fuera de Suramérica es de 24 pcs: \(\hat{\beta_0}=\bar{y}_{\text{paises no suramericanos}}\)

  • El número promedio de pc por 100 habitantes en países de Suramérica es 14 menos comparado con los no suramericanos: \(\hat{\beta_1}=\bar{y}_{\text{paises suramericanos}}-\bar{y}_{\text{paises no suramericanos}}\)

  • ¿Cuál es el número promedio de pc por 100 habitantes en países de Suramérica?

  • ¿Cómo hubiera sido el modelo estimado si hubiera usando la variable Dummy \(I_{no,\ i}\)?

Modelo de regresión lineal simple con \(X\) dicotómica

Equivale a una prueba \(t\) de dos muestras

t.test(pc ~ Suramericana, data=datos)

    Welch Two Sample t-test

data:  pc by Suramericana
t = 4.4357, df = 28.644, p-value = 0.0001241
alternative hypothesis: true difference in means between group No and group Yes is not equal to 0
95 percent confidence interval:
 10.18337 27.62615
sample estimates:
 mean in group No mean in group Yes 
        24.573333          5.668571 

Tarea 1 💻

Utilizando los datos de ventas de autos usados de marca Jeep.

  1. Elabora una gráfica de caja para ilustrar la diferencia de precios entre los automáticos y los manuales, interpretar.

  2. Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.

  3. Interpretar los valores de intercepto y la pendiente.

  4. Calcular el precio promedio según el sistema de transmisión, y compáralos con los resultados del modelo de regresión.

Tarea 2 💻

Utilizando únicamente los datos de Jeep Compass

  1. Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.

  2. Interpretar los valores de intercepto y la pendiente.

Utilizando únicamente los datos de Jeep Compass Jeep Renegade:

  1. Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.

  2. Interpretar los valores de intercepto y la pendiente.

Tarea 2 💻

  1. Compara los resultados obtenidos.

  2. Calcular el precio promedio según el modelo y el sistema de transmisión, y compáralos con los resultados de regresión.