Recta de regresión
La recta de regresión es un modelo estadístico que permite observar la tendencia lineal de una nube de puntos obtenida de los posibles resultados de una ecuación de regresión lineal simple.
De forma sencilla, es una representación gráfica de la relación entre dos variables, una dependiente y otra independiente. Así, la nube de puntos que forman esos valores puede reducirse, en este caso, a una línea recta que nos permite observar la tendencia en el tiempo.
Por ejemplo, imaginemos que existe una relación entre las horas de estudio y el nivel de notas. A mayor número de horas, mejores notas. Al dibujar la recta veremos que esta tiene una pendiente creciente que confirma esta conclusión.
La ecuación de la recta de regresión
Toda representación gráfica tiene una ecuación matemática asociada. En este caso, sería la de una recta en la que Y es la variable dependiente y X la independiente. Además, también está el término independiente (a) y la pendiente de dicha recta (b). Se puede escribir de esta forma:
El término (a), que es un número, representa un valor constante de la ecuación. Si fuera 0, solo aparecería la pendiente (b) y la variable X, como puede verse y se simplificaría la expresión.
Respecto al coeficiente (b), su valor absoluto (sin signo) nos indica si la recta está más o menos inclinada. Además, puede ser mayor, igual o menor que 0. Esto indicaría que, ante variaciones de X, Y lo hace en menor, igual o mayor medida. Veamos esto en el gráfico de la curva:
El signo de b indica si la recta crece (positivo) o decrece (negativo). En el primer caso, habrá una relación directa entre las variables, se mueven en la misma dirección. En el segundo, la relación es inversa y si una aumenta, la otra disminuye. Veamos esto en el gráfico de la curva:
Podemos observar una relación (ficticia) entre tasa de variación del PIB y del empleo. La recta nos estaría indicando qué, al aumentar el PIB, aumenta el empleo (relación directa). El coeficiente parece bajo, aunque en economía los valores próximos a 0,6 se consideran aceptables.
Para qué sirve la recta de regresión
Esta recta de regresión sirve para observar con mayor claridad la relación entre dos variables. En el eje vertical estaría la dependiente y en el horizontal la independiente. De esta forma, podemos ver qué pasa con una cuando varía la otra.
Eso sí, esta representación gráfica es útil solo cuando tenemos dos variables. De esta forma, el gráfico tiene dos ejes y es fácil visualizarlo. Al aumentar el número de variables, en el caso de la regresión múltiple, representarlo podría ser demasiado confuso.
Por ejemplo, sabemos que existe una relación inversa entre el crecimiento económico y el desempleo. Cuando una economía crece en términos económicos, la tasa de paro se reduce. Si representamos la recta, esta sería decreciente, con una pendiente negativa (signo negativo).
Ejemplo de recta de regresión en Excel
Para terminar, vamos a trabajar con un ejemplo ficticio. Imaginemos que tenemos dos variables, de manera que la independiente es el número de horas de estudio y la dependiente, la nota obtenida. Escogemos una muestra de alumnos y creamos una tabla. Sería algo así:
Se pueden realizar una serie de cálculos matemáticos para obtener la ecuación de la recta, pero este proceso está automatizado en una hoja de cálculo y existen muchos tutoriales que nos serán de ayuda. Veamos cuál sería el proceso:
En primer lugar, debemos construir una tabla con los datos de ambas variables. En la primera columna pondremos los de X y en la segunda los de Y. La figura muestra como quedaría:
A continuación, insertamos un gráfico de dispersión en el que aparecerá la nube de puntos de ambas variables. Ya podremos observar una posible relación lineal, exponencial o de otro tipo en esa nube. Algo parecido a lo que aparece en la figura:
Por otro lado, con ella realizamos el gráfico de dispersión y calculamos la ecuación de regresión y el coeficiente de determinación. En las opciones del gráfico elegimos línea de tendencia y escogemos la lineal, con ecuación de la recta y coeficiente de determinación (R cuadrado).
Nota: La ecuación de la recta en las hojas de cálculo suele aparecer como Y=bX+a.
El aspecto final sería parecido al de la siguiente figura:
Si observamos el gráfico, veremos que la nube de puntos parece agruparse en torno a una recta. Al dibujar esta, la hoja de cálculo nos muestra la ecuación y el R cuadrado. El término independiente (a) es 2.502, la pendiente (b) que acompaña a X es 0,1478 y R cuadrado es 0,9201.
La ecuación de la recta de regresión muestra que, si aumentamos el tiempo de estudio en una hora, la nota aumentaría 0,1478 puntos. De esta forma, la calificación se incrementa en menor proporción que el tiempo. R cuadrado es próximo a 1, por tanto, la recta tiene un buen ajuste y es válida para observar la relación creciente entre ambas variables.