Coeficiente de determinación (R cuadrado): qué es y cómo funciona
- R cuadrado varía entre 0 y 1.
- Valores cercanos a 1 indican un buen ajuste del modelo.
- Se usa para evaluar la precisión de modelos estadísticos.
¿Qué es el coeficiente de determinación?
El coeficiente de determinación es la proporción de la varianza total de una variable explicada por una regresión. También conocido como R cuadrado, indica qué tan bien un modelo se ajusta a la variable que pretende explicar.
Coeficiente de determinación: Explicación sencilla
El resultado del coeficiente de determinación varía entre 0 y 1. Cuanto más cerca esté de 1, mejor se ajusta el modelo a la variable. Si está cerca de 0, el modelo es menos ajustado y menos fiable.
Para entender esto mejor, dividimos la fórmula en dos partes. Primero, el numerador, que es la parte superior.
Si no conoces la varianza, te recomiendo leer nuestro artículo sobre ella. Si la conoces, verás que es similar a la varianza, pero con dos diferencias clave.
La primera es que la Y tiene un sombrerito, indicando que es una estimación del modelo, no el valor real.
En segundo lugar, normalmente se divide por T o N, el número de observaciones. Para simplificar, eliminamos estos denominadores.
Ahora, veamos el denominador, que es la parte inferior.
Aquí, la diferencia es la ausencia del denominador. Así, hemos explicado ambas partes de la fórmula del R cuadrado. Veamos un ejemplo práctico para entender mejor.
Interpretación del coeficiente de determinación
Supongamos que queremos explicar la cantidad de goles que anota Cristiano Ronaldo según la cantidad de partidos que juega. Suponemos que, a mayor cantidad de partidos jugados, más goles meterá. Los datos pertenecen a las últimas 8 temporadas. De tal manera, tras extraer los datos, el modelo arroja la siguiente estimación:
Cómo podemos ver en el gráfico, la relación es positiva. A más partidos jugados, como es lógico, más goles anota en la temporada. El ajuste, según el cálculo del R cuadrado, es de 0,835. Esto quiere decir que es un modelo cuyas estimaciones se ajustan bastante bien a la variable real. Aunque técnicamente no sería correcto, podríamos decir algo así como que el modelo explica en un 83,5% a la variable real.
El problema del coeficiente de determinación
El problema del coeficiente de determinación, y razón por el cual surge el coeficiente de determinación ajustado, radica en que no penaliza la inclusión de variables explicativas no significativas. Es decir, si al modelo se añaden cinco variables explicativas que guardan poca relación con los goles que anota Cristiano Ronaldo en una temporada, el R cuadrado aumentará. Es por ello que muchos expertos económetras, estadísticos y matemáticos se oponen al uso del R cuadrado como medida representativa de la bondad del ajuste real.
El coeficiente de determinación ajustado
El coeficiente de determinación ajustado (R cuadrado ajustado) es la medida que define el porcentaje explicado por la varianza de la regresión en relación con la varianza de la variable explicada. Es decir, lo mismo que el R cuadrado, pero con una diferencia: El coeficiente de determinación ajustado penaliza la inclusión de variables.
Como hemos dicho anteriormente, el coeficiente de determinación de un modelo aumenta aunque las variables que incluyamos no sean relevantes. Ya que esto supone un problema, para intentar solventarlo, el R cuadrado ajustado queda tal que:
En la fórmula, N es el tamaño de la muestra y k el número de variables explicativas. Por deducción matemática, a valores más altos de k, más alejado estará el R cuadrado ajustado del R cuadrado normal. Al revés, a valores más bajos de k, más cerca estará de 1 la fracción central y, por tanto, más parecidos serán el R cuadrado ajustado y el R cuadrado normal.
Recordando que k es el número de variables explicativas, deducimos que este no puede ser cero. Si fuese cero, no existiría modelo. Como mínimo tendremos que explicar una variable en función de otra variable. Dado que k debe ser como mínimo 1, el R cuadrado ajustado y el R cuadrado normal no pueden tener el mismo valor. Es más, el R cuadrado ajustado será siempre inferior al R cuadrado normal.
En Economipedia, queremos resolver todas tus dudas. Por eso, hemos recopilado las preguntas más frecuentes sobre este tema. Si no encuentras la respuesta que buscas, no dudes en dejarnos un comentario.
¿Qué indica un coeficiente de determinación alto?: Un valor alto indica que el modelo explica bien la variabilidad de los datos.
¿Cómo se interpreta un coeficiente de determinación bajo?: Un valor bajo sugiere que el modelo no ajusta bien los datos.
¿Puede el coeficiente de determinación ser negativo?: No, siempre está entre 0 y 1.