Modelo de regresión lineal simple con X dicotómica
¿El factor de ser un país suramericano influye en la variable PC?
Suramericana pc
Alemania No 48.47
Arabia Saudita No 13.67
Argentina Yes 8.20
Australia No 60.18
Bélgica No 31.81
Brasil Yes 7.48
Bulgaria No 5.19
Canadá No 48.70
China No 2.76
Colombia Yes 4.93
Ecuador Yes 3.24
Egipto No 2.91
España No 19.60
EstadosUnidos No 40.57
Francia No 34.71
Grecia No 8.17
Guatemala Yes 1.44
Hungría No 10.84
India No 0.72
Indonesia No 1.19
Italia No 23.07
Japón No 38.22
México Yes 8.30
PaísBajos No 46.66
Pakistán No 0.42
Polonia No 14.20
ReinoUnido No 40.57
RepúblCheca No 17.74
Rusia No 8.87
Sudáfrica No 7.26
Suecia No 62.13
Suiza No 70.87
Tailandia No 3.98
Venezuela Yes 6.09
Modelo de regresión lineal simple con X dicotómica
lm(pc ~ Suramericana, data = datos)
Call:
lm(formula = pc ~ Suramericana, data = datos)
Coefficients:
(Intercept) SuramericanaYes
24.57 -18.90
¿Cómo se estima β0 y β1 cuando x es categórica?
Se crea una variable Dummy para la categoría Yes de la variable Sura
País
Sura
Dummy Yes
Alemania
No
0
Arabia Saudita
No
0
Argentina
Yes
1
…
..
…
Tailandia
No
0
Venezuela
Yes
1
Variable Dummy
Dummyyes,i={1si el país i es de Suramérica0si no
Una Dummy también se conoce como una variable indicadora.
Iyes,i={1si el país i es de Suramérica0si no
Interpretación de los coeficientes
Interpretación del modelo yi=β0+β1Icat,i
Intercepto: ^β0=E(yi|Icat,i=0), representa el promedio de y para individuos de la categoría base.
Pendiente: ^β1=E(yi|Icat,i=1)−E(yi|Icat,i=0), representa diferencia en el valor promedio de y entre las dos categorías.
Modelo de regresión lineal simple con X dicotómica
PC=24−14∗ISuramericana,i
El número promedio de pc por 100 habitantes en países fuera de Suramérica es de 24 pcs: ^β0=ˉypaises no suramericanos
El número promedio de pc por 100 habitantes en países de Suramérica es 14 menos comparado con los no suramericanos: ^β1=ˉypaises suramericanos−ˉypaises no suramericanos
¿Cuál es el número promedio de pc por 100 habitantes en países de Suramérica?
¿Cómo hubiera sido el modelo estimado si hubiera usando la variable Dummy Ino,i?
Modelo de regresión lineal simple con X dicotómica
Equivale a una prueba t de dos muestras
t.test(pc ~ Suramericana, data=datos)
Welch Two Sample t-test
data: pc by Suramericana
t = 4.4357, df = 28.644, p-value = 0.0001241
alternative hypothesis: true difference in means between group No and group Yes is not equal to 0
95 percent confidence interval:
10.18337 27.62615
sample estimates:
mean in group No mean in group Yes
24.573333 5.668571
Tarea 1 💻
Utilizando los datos de ventas de autos usados de marca Jeep.
Elabora una gráfica de caja para ilustrar la diferencia de precios entre los automáticos y los manuales, interpretar.
Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.
Interpretar los valores de intercepto y la pendiente.
Calcular el precio promedio según el sistema de transmisión, y compáralos con los resultados del modelo de regresión.
Tarea 2 💻
Utilizando únicamente los datos de Jeep Compass
Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.
Interpretar los valores de intercepto y la pendiente.
Utilizando únicamente los datos de Jeep Compass Jeep Renegade:
Ajusta un modelo de regresión simple para explicar el precio en términos del sistema de transmisión.
Interpretar los valores de intercepto y la pendiente.
Tarea 2 💻
Compara los resultados obtenidos.
Calcular el precio promedio según el modelo y el sistema de transmisión, y compáralos con los resultados de regresión.
Regresión lineal simple con X categórica Hanwen Zhang, Ph.D. 2022-II