La referencia principal de esta sección es el Capítulo 3. Linear Regression, del libro An Introduction to Statistical Learning de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani.
Regresión lineal simple
Modelo paramétrico para predecir una variable de respuesta cuantitativa a partir de una sola variable , suponiendo que existe una relación lineal entre y
Donde y son constantes (desconocidas) que representan la intersección y la pendiente del modelo lineal; son denominados coeficientes o parámetros del modelo. Se calculan valores estimados de tales parámetros, los cuales son denotados por y , entonces
donde indica el valor estimado de .
Estimación de los coeficientes
Para estimar los coeficientes , , sean
parejas de observaciones, cada una consiste en un valor observado de y de . El objetivo es obtener valores estimados , tales que el modelo lineal ajuste bien los datos disponibles. El criterio más utilizado es el de mínimos cuadrados.
Sea el valor estimado para considerando el -ésimo valor de . Entonces representa el -ésimo residuo. Se define la suma del cuadrado de los residuos (RSS) como
o de manera equivalente
Los valores estimados de los coeficientes y calculados por medio de mínimos cuadrados minimizan el RSS (multiplicadores de Lagrange) y están dados por
donde
son las medias muestrales.
Evaluación de la precisión de los coeficientes estimados
La suposición es que la relación verdadera entre y es de la forma
para alguna función desconocida , donde , el término de error aleatorio tiene media cero. Si es aproximada por una función lineal, podemos escribir tal relación como
Donde es el término de la intersección- es decir, el valor esperado de cuando , y es la pendiente- el incremento promedio de cuando incrementa una unidad. El término del error captura el hecho que la verdadera relación probablemente sea no lineal, que quizá haya otras variables que causan la variación de o que haya algún error en las mediciones.
Para calcular los errores estándar asociados con y se utilizan las siguientes fórmulas
donde . Para que estas fórmulas sean estrictamente válidas es necesario suponer que los errorres para cada observación no estén correlacionados y tengan la misma varianza, . De la fórmula de se concluye que este valor será menor cuando las estén más dispersas. También se observa que sería igual a si fuera cero (en tal caso sería igual a ).
En general es desconocida, pero se puede estimar a partir de los datos. El valor estimado de es conocido como el error residual estándar y está dado por
Los errores estándar pueden ser utilizados para calcular los intervalos de confianza. Un intervalo al de confianza se define como el rango de valores tales que con una probabilidad de 0.95, tal intervalo contiene el valor verdadero del parámetro. Para la regresión lineal, el intervalo de confianza al para es de la forma
Es decir, hay una probabilidad de 0.95 que el intervalo
contenga el valor verdadero de . De manera análoga, un intervalo de confianza para es de la forma
Los errores estándar pueden ser utilizados para llevar a cabo pruebas de hipótesis (respecto a los coeficientes), comúmente se evalúa la siguiente hipótesis nula:
contra la hipótesis alternativa
Es decir
pues, si el modelo de regresión lineal se reduce a , y no tiene relación con . Para probar la hipótesis nula, es necesario determinar cuándo (el valor estimado de ) es suficientemente distinto de cero. Si es pequeño, entonces incluso bajos valores de podrían brindar fuerte evidencia que , y por lo tanto, que existe relación entre y . En contraste, si es grande, entonces tiene que tener un valor mayor (en valor absoluto) para poder rechazar la hipótesis nula. En la práctica, se calcula la -estadística dada por
que cuantifica el número de desviaciones estándar que difiere de cero. Si no existe relación entre y se espera que tenga distribución con grados de libertad. Posteriormente se calcula la probabilidad de observar cualquier número igual o mayor , suponiendo que . Esta probabilidad es denominada p-value. Si se observa un p-value pequeño, se puede inferir que existe cierta relación entre el predictor y la variable de respuesta y se rechaza la hipótesis nula.
Evaluación de la precisión del modelo
Una vez que se lleva la prueba de hipótesis expuesta previamente, se cuantifica qué tan bien el modelo ajusta los datos. Esto se evalúa usando dos cantidades: el error residual estándar () y la estadística .
Error residual estándar
Recordemos que cada observación tiene asociada un término de error , luego, incluso si se conoce la verdadera línea de regresión no se podría predecir exactamente a partir de . El es una estimación de la desviación estándar de . A grandes rasgos, es la cantidad promedio que la variable de respuesta se desvía de la línea de regresión. Se calcula por medio de
El es considerado como una medida de falta de ajuste del modelo. Si las estimaciones obtenidas usando el modelo son muy cercanas a los valores verdaderos- es decir, si para - entonces el valor del será pequeño y se concluye que el modelo ajusta bien los datos.
Estadística
El brinda una medida absoluta de la falta de ajuste del modelo, pero, dado que tiene las mismas unidades que , no siempre es claro cual sería un buen . La estadística brinda una alternativa de medida de ajuste. Toma la forma de una proporción -la proporción de varianza explicada-, por lo que toma un valor entre 0 y 1, y es independiente de la escala de .
Para calcular se considera
donde
es la suma total de cuadrados, y es la suma estándar residual. cuantifica la varianza total de la variable de respuesta , y puede interpretarse como la cantidad de variabilidad inherente a la variable de respuesta antes de llevar a cabo la regresión. En contraste mide la cantidad de variabilidad que se deja sin explicar despues de llevar a cabo la regresión. Por lo tanto expresa la cantidad de variabilidad en la variable de respuesta que es explicada al llevar a cabo la regresión, y mide la proporción de variabiliddad en que puede ser explicada usando . Una estadística cercana a 1 indica que una proporción considerable de la variabilidad en la variable de respuesta puede ser explicada por la regresión.
La estadística es una medida de la relación lineal entre y . Recordemos que la correlación, definida como
es también una medida de la relación lineal entre y . En el caso de la regresión lineal simple, , donde .
Regresión lineal múltiple
Consideremos variables explicativas (predictores) , entonces el modelo de la regresión lineal múltiple es de la forma
donde cuantifica la asociación entre y y se interpreta como el efecto promedio en por una unidad de incremento en manteniendo las demás variables independientes fijas.
Estimación de los coeficientes de regresión
Los coeficientes son desconocidos. Dados los valores estimados , se calculan predicciones por medio de
Los coeficientes minimizan la suma del cuadrado de los residuos
Relación entre la variable de respuesta y las variables explicativas.
En la regresión lineal múltiple con variables indpendientes se evalúa si todos los coeficientes de la regresión lineal son cero, es decir, si . Esto se lleva a cabo por medio de una prueba de hipótesis, donde la hipótesis nula es
contra la alternativa
La prueba de hipótesis se realiza calculando la estadística ,
donde, como en la regresión lineal simple y . Si las suposiciones del modelo lineal son correctas, se puede demostrar que
y que, considerando que es verdadera
Por lo tanto, cuando no existe relación entre la variable de respuesta y los predictores, se esperaría que la estadística tome valores cercanos a 1. Por otro lado, si es verdadera, entonces , luego, se tendrían valores de mayores que 1.
Cuando es grande, una estadística que sea ligeramente mayor que 1 aún podría brindar evidencia contra . En contraste, es necesaria una estadística mucho mayor que 1 para rechazar si el número de observaciones no es muy grande. Cuando es verdadera y los errores tienen distribución normal, la estadística tiene distribución . Para cualquier valor de y se calcula el valor asociado con la estadística usando tal distribución.