7  Regresión Lineal

La referencia principal de esta sección es el Capítulo 3. Linear Regression, del libro An Introduction to Statistical Learning de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani.

7.1 Regresión lineal simple

Modelo paramétrico para predecir una variable de respuesta cuantitativa Y a partir de una sola variable X, suponiendo que existe una relación lineal entre X y Y

Yβ0+β1X

Donde β0 y β1 son constantes (desconocidas) que representan la intersección y la pendiente del modelo lineal; son denominados coeficientes o parámetros del modelo. Se calculan valores estimados de tales parámetros, los cuales son denotados por β0^ y β^1, entonces

y^=β^0+β^1x

donde y^ indica el valor estimado de Y.

7.1.1 Estimación de los coeficientes

Para estimar los coeficientes β0, β1, sean

(x1,y1),(x2,y2),,(xn,yn)

n parejas de observaciones, cada una consiste en un valor observado de X y de Y. El objetivo es obtener valores estimados β0^, β1^ tales que el modelo lineal ajuste bien los datos disponibles. El criterio más utilizado es el de mínimos cuadrados.

Sea y^i=β^0+β^1xi el valor estimado para Y considerando el i-ésimo valor de X. Entonces ei=yiy^i representa el i-ésimo residuo. Se define la suma del cuadrado de los residuos (RSS) como

RSS=e12+e22++en2,

o de manera equivalente

RSS=(y1β^0β^1x1)2+(y2β^0β^1x2)2++(ynβ^0β^1xn)2.

Los valores estimados de los coeficientes β^0 y β^1 calculados por medio de mínimos cuadrados minimizan el RSS (multiplicadores de Lagrange) y están dados por

β^1=i=1n(xix¯)(yiy¯)i=1n(xix¯)2β^0=y¯β^1x¯

donde

y¯=1ni=1nyi y x¯=1ni=1nxi

son las medias muestrales.

7.1.2 Evaluación de la precisión de los coeficientes estimados

La suposición es que la relación verdadera entre X y Y es de la forma

Y=f(X)+ϵ

para alguna función desconocida f, donde ϵ, el término de error aleatorio tiene media cero. Si f es aproximada por una función lineal, podemos escribir tal relación como

Y=β0+β1X+ϵ.

Donde β0 es el término de la intersección- es decir, el valor esperado de Y cuando X=0, y β1 es la pendiente- el incremento promedio de Y cuando X incrementa una unidad. El término del error captura el hecho que la verdadera relación probablemente sea no lineal, que quizá haya otras variables que causan la variación de Y o que haya algún error en las mediciones.

Para calcular los errores estándar asociados con β^0 y β^1 se utilizan las siguientes fórmulas

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2],SE(β^1)2=σ2i=1n(xix¯)2,

donde σ2=Var(ϵ). Para que estas fórmulas sean estrictamente válidas es necesario suponer que los errorres ϵi para cada observación no estén correlacionados y tengan la misma varianza, σ2. De la fórmula de SE(β^1) se concluye que este valor será menor cuando las xi estén más dispersas. También se observa que SE(β^0) sería igual a SE(μ^) si x¯ fuera cero (en tal caso β^0 sería igual a y¯).

En general σ2 es desconocida, pero se puede estimar a partir de los datos. El valor estimado de σ es conocido como el error residual estándar y está dado por

RSE=RSSn2.

Los errores estándar pueden ser utilizados para calcular los intervalos de confianza. Un intervalo al 95% de confianza se define como el rango de valores tales que con una probabilidad de 0.95, tal intervalo contiene el valor verdadero del parámetro. Para la regresión lineal, el intervalo de confianza al 95% para β1 es de la forma

β^1±2SE(β^1).

Es decir, hay una probabilidad de 0.95 que el intervalo

[β^12SE(β^1),β^1+2SE(β^1)]

contenga el valor verdadero de β1. De manera análoga, un intervalo de confianza para β0 es de la forma

β^0±2SE(β^0).

Los errores estándar pueden ser utilizados para llevar a cabo pruebas de hipótesis (respecto a los coeficientes), comúmente se evalúa la siguiente hipótesis nula:

H0: no existe relación entre X y Y

contra la hipótesis alternativa

Ha: existe alguna relación entre X y Y.

Es decir

H0:β1=0 y Ha:β10,

pues, si β1=0 el modelo de regresión lineal se reduce a Y=β0+ϵ, y X no tiene relación con Y. Para probar la hipótesis nula, es necesario determinar cuándo β^1 (el valor estimado de β1) es suficientemente distinto de cero. Si SE(β^1) es pequeño, entonces incluso bajos valores de β^1 podrían brindar fuerte evidencia que β10, y por lo tanto, que existe relación entre X y Y. En contraste, si SE(β^1) es grande, entonces β^1 tiene que tener un valor mayor (en valor absoluto) para poder rechazar la hipótesis nula. En la práctica, se calcula la t-estadística dada por

t=β^10SE(β^1),

que cuantifica el número de desviaciones estándar que β^1 difiere de cero. Si no existe relación entre X y Y se espera que t tenga distribución t con n2 grados de libertad. Posteriormente se calcula la probabilidad de observar cualquier número igual o mayor |t|, suponiendo que β1=0. Esta probabilidad es denominada p-value. Si se observa un p-value pequeño, se puede inferir que existe cierta relación entre el predictor y la variable de respuesta y se rechaza la hipótesis nula.

7.1.3 Evaluación de la precisión del modelo

Una vez que se lleva la prueba de hipótesis expuesta previamente, se cuantifica qué tan bien el modelo ajusta los datos. Esto se evalúa usando dos cantidades: el error residual estándar (RSE) y la estadística R2.

Error residual estándar

Recordemos que cada observación tiene asociada un término de error ϵ, luego, incluso si se conoce la verdadera línea de regresión no se podría predecir exactamente Y a partir de X. El RSE es una estimación de la desviación estándar de ϵ. A grandes rasgos, es la cantidad promedio que la variable de respuesta se desvía de la línea de regresión. Se calcula por medio de

RSE=1n2RSS=1n2i=1n(yiy^i)2

El RSE es considerado como una medida de falta de ajuste del modelo. Si las estimaciones obtenidas usando el modelo son muy cercanas a los valores verdaderos- es decir, si y^iyi para i=1,...,n- entonces el valor del RSE será pequeño y se concluye que el modelo ajusta bien los datos.

Estadística R2

El RSE brinda una medida absoluta de la falta de ajuste del modelo, pero, dado que tiene las mismas unidades que Y, no siempre es claro cual sería un buen RSE. La estadística R2 brinda una alternativa de medida de ajuste. Toma la forma de una proporción -la proporción de varianza explicada-, por lo que toma un valor entre 0 y 1, y es independiente de la escala de Y.

Para calcular R2 se considera

R2=TSSRSSTSS=1RSSTSS

donde

TSS=i=1n(yiy¯)2

es la suma total de cuadrados, y RSS es la suma estándar residual. TSS cuantifica la varianza total de la variable de respuesta Y, y puede interpretarse como la cantidad de variabilidad inherente a la variable de respuesta antes de llevar a cabo la regresión. En contraste RSS mide la cantidad de variabilidad que se deja sin explicar despues de llevar a cabo la regresión. Por lo tanto TSSRSS expresa la cantidad de variabilidad en la variable de respuesta que es explicada al llevar a cabo la regresión, y R2 mide la proporción de variabiliddad en Y que puede ser explicada usando X. Una estadística R2 cercana a 1 indica que una proporción considerable de la variabilidad en la variable de respuesta puede ser explicada por la regresión.

La estadística R2 es una medida de la relación lineal entre X y Y. Recordemos que la correlación, definida como

Cor(X,Y)=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2,

es también una medida de la relación lineal entre X y Y. En el caso de la regresión lineal simple, R2=r2, donde r=Cor(X,Y).

7.2 Regresión lineal múltiple

Consideremos p variables explicativas (predictores) {X1,Xp}, entonces el modelo de la regresión lineal múltiple es de la forma

Y=β0+β1X1+β2X2++βpXp+ϵ,

donde βj cuantifica la asociación entre Xj y Y y se interpreta como el efecto promedio en Y por una unidad de incremento en Xj manteniendo las demás variables independientes fijas.

7.2.1 Estimación de los coeficientes de regresión

Los coeficientes β0,β1,,βp son desconocidos. Dados los valores estimados β^0,β^1,,β^p, se calculan predicciones por medio de

y^=β^0+β^1x1+β^2x2+,β^pxp.

Los coeficientes β0,β1,,βp minimizan la suma del cuadrado de los residuos

RSS=i=1n(yiy^i)2=i=1n(yiβ^0β^1xi1β^2xi2β^pxip)2.

7.2.2 Relación entre la variable de respuesta y las variables explicativas.

En la regresión lineal múltiple con p variables indpendientes se evalúa si todos los coeficientes de la regresión lineal son cero, es decir, si β1=β2==βp=0. Esto se lleva a cabo por medio de una prueba de hipótesis, donde la hipótesis nula es

H0:β1=β2==βp=0

contra la alternativa

Ha: al menos una de las βj es diferente de cero.

La prueba de hipótesis se realiza calculando la estadística F,

F=(TSSRSS)/pRSS/(np1)

donde, como en la regresión lineal simple TSS=(yiy¯) y RSS=(yiy^i)2. Si las suposiciones del modelo lineal son correctas, se puede demostrar que

E{RSS/np1}=σ2

y que, considerando que H0 es verdadera

E{(TSSRSS)/p}=σ2.

Por lo tanto, cuando no existe relación entre la variable de respuesta y los predictores, se esperaría que la estadística F tome valores cercanos a 1. Por otro lado, si Ha es verdadera, entonces E{(TSSRSS/p)}>σ2, luego, se tendrían valores de F mayores que 1.

Cuando n es grande, una estadística F que sea ligeramente mayor que 1 aún podría brindar evidencia contra H0. En contraste, es necesaria una estadística F mucho mayor que 1 para rechazar H0 si el número de observaciones no es muy grande. Cuando H0 es verdadera y los errores ϵi tienen distribución normal, la estadística F tiene distribución F. Para cualquier valor de n y p se calcula el valor p asociado con la estadística F usando tal distribución.