Regresión lineal explicada
Para investigar la relación entre dos variables numéricas, x e y, medimos los valores de x e y en cada uno de los n individuos de nuestra muestra. Trazamos los puntos en un diagrama de dispersión (Capítulos 4 y 26), y decimos que tenemos una relación lineal si los datos se aproximan a una línea recta. Si creemos que y depende de x, y que un cambio en y se atribuye a un cambio en x, y no al revés, podemos determinar la línea de regresión lineal (la regresión de y sobre x) que mejor describe la relación en línea recta entre las dos variables. En general, describimos la regresión como univariable porque sólo nos preocupa una variable x en el análisis; esto contrasta con la regresión multivariable que implica dos o más x (véanse los capítulos 29-31).
a y b se denominan coeficientes de regresión de la recta estimada, aunque este término suele reservarse sólo para b. En el capítulo 28 se muestra cómo evaluar estos coeficientes. La regresión lineal simple puede ampliarse para incluir más de una variable explicativa; en este caso, se conoce como regresión lineal multivariable o múltiple (Capítulo 29).
Parámetros de regresión lineal
El análisis de regresión lineal se utiliza para predecir el valor de una variable a partir del valor de otra variable. La variable que se desea predecir se denomina variable dependiente. La variable que se utiliza para predecir el valor de la otra variable se denomina variable independiente.
Esta forma de análisis estima los coeficientes de la ecuación lineal, en la que intervienen una o más variables independientes, que mejor predicen el valor de la variable dependiente. La regresión lineal ajusta una línea recta o superficie que minimiza las discrepancias entre los valores de salida predichos y los reales. Existen calculadoras de regresión lineal sencillas que utilizan un método de “mínimos cuadrados” para descubrir la línea que mejor se ajusta a un conjunto de datos emparejados. A continuación, se estima el valor de X (variable dependiente) a partir de Y (variable independiente).
Los modelos de regresión lineal son relativamente sencillos y proporcionan una fórmula matemática fácil de interpretar que puede generar predicciones. La regresión lineal puede aplicarse a diversos ámbitos empresariales y académicos.
Ejemplo de regresión lineal
Residuos: La distancia entre el valor real y los valores predichos se denomina residuo. Si los puntos observados están lejos de la línea de regresión, entonces el residual será alto, y por tanto la función de coste será alta. Si los puntos de dispersión están cerca de la línea de regresión, entonces el residual será pequeño y, por tanto, la función de coste.
La bondad del ajuste determina cómo se ajusta la línea de regresión al conjunto de observaciones. El proceso de encontrar el mejor modelo entre varios modelos se denomina optimización. Se puede lograr mediante el método siguiente:
Regresión lineal Aprendizaje automático
En estadística, la regresión lineal es un enfoque lineal para modelizar la relación entre una respuesta escalar y una o más variables explicativas (también conocidas como variables dependientes e independientes). El caso de una variable explicativa se denomina regresión lineal simple; para más de una, el proceso se denomina regresión lineal múltiple[1]. Este término se distingue de la regresión lineal multivariante, en la que se predicen múltiples variables dependientes correlacionadas, en lugar de una única variable escalar[2].
En la regresión lineal, las relaciones se modelan utilizando funciones predictoras lineales cuyos parámetros desconocidos del modelo se estiman a partir de los datos. Estos modelos se denominan modelos lineales[3]. Lo más habitual es que se suponga que la media condicional de la respuesta dados los valores de las variables explicativas (o predictoras) es una función afín de dichos valores; con menos frecuencia, se utiliza la mediana condicional o algún otro cuantil. Como todas las formas de análisis de regresión, la regresión lineal se centra en la distribución de probabilidad condicional de la respuesta dados los valores de los predictores, en lugar de en la distribución de probabilidad conjunta de todas estas variables, que es el dominio del análisis multivariante.