Correlación versus regresión: ¿Cuál es la diferencia?

La correlación y la regresión son dos términos en las estadísticas que están relacionados, pero no son exactamente iguales.

En este tutorial, proporcionaremos una breve explicación de ambos términos y explicaremos en qué se parecen y en qué se diferencian.

¿Qué es la correlación?

Correlación medidas la asociación lineal entre dos variables, x y y . Tiene un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Por ejemplo, suponga que tenemos el siguiente conjunto de datos que contiene dos variables: (1) Horas estudiadas y (2) Puntaje de examen recibido para 20 estudiantes diferentes:

Si creáramos un diagrama de dispersión de las horas estudiadas frente a la puntuación del examen, así se vería:

Con solo mirar la trama, podemos decir que los estudiantes que estudian más tienden a obtener puntajes más altos en los exámenes. En otras palabras, podemos ver visualmente que existe una correlación positiva entre las dos variables.

Usando una calculadora, podemos encontrar que la correlación entre estas dos variables es r = 0.915 . Dado que este valor es cercano a 1, confirma que existe una fuerte correlación positiva entre las dos variables.

¿Qué es la regresión?

La regresión es un método que podemos usar para comprender cómo el cambio de los valores de la variable x afecta los valores de la variable y .

Un modelo de regresión utiliza una variable, x , como variable predictora, y la otra variable, y , como variable de respuesta . Luego encuentra una ecuación con la siguiente forma que describe mejor la relación entre las dos variables:

ŷ = segundo 0 + segundo 1 x

dónde:

  • ŷ: el valor predicho de la variable de respuesta
  • b 0 : La intersección con el eje y (el valor de y cuando x es igual a cero)
  • b 1 : El coeficiente de regresión (el aumento promedio en y para un aumento de una unidad en x)
  • x: el valor de la variable predictora

Por ejemplo, considere nuestro conjunto de datos de antes:

Usando una calculadora de regresión lineal , encontramos que la siguiente ecuación describe mejor la relación entre estas dos variables:

Puntaje de examen previsto = 65,47 + 2,58 * (horas estudiadas)

La forma de interpretar esta ecuación es la siguiente:

  • La puntuación del examen prevista para un estudiante que estudia cero horas es 65,47 .
  • El aumento promedio en el puntaje del examen asociado con una hora adicional estudiada es 2.58 .

También podemos usar esta ecuación para predecir la puntuación que recibirá un estudiante en función del número de horas estudiadas.

Por ejemplo, se espera que un estudiante que estudia 6 horas reciba una puntuación de 80,95 :

Puntuación prevista del examen = 65,47 + 2,58 * (6) = 80,95 .

También podemos trazar esta ecuación como una línea en un diagrama de dispersión:

Correlación frente a línea de regresión en el diagrama de dispersión

Podemos ver que la línea de regresión «se ajusta» bastante bien a los datos.

Recuerde anteriormente que la correlación entre estas dos variables era r = 0,915 . Resulta que podemos elevar al cuadrado este valor y obtener un número llamado “r-cuadrado” que describe la proporción total de varianza en la variable de respuesta que se puede explicar mediante la variable predictora.

En este ejemplo, r 2 = 0,915 2 = 0,837 . Esto significa que el 83,7% de la variación en las puntuaciones de los exámenes puede explicarse por el número de horas estudiadas.

Correlación versus regresión: similitudes y diferencias

A continuación, se muestra un resumen de las similitudes y diferencias entre la correlación y la regresión:

Similitudes:

  • Ambos cuantifican la dirección de una relación entre dos variables.
  • Ambos cuantifican la fuerza de una relación entre dos variables.

Diferencias:

  • La regresión puede mostrar una relación de causa y efecto entre dos variables. La correlación no hace esto.
  • La regresión es capaz de usar una ecuación para predecir el valor de una variable, basándose en el valor de otra variable. La correlación no hace esto.
  • La regresión usa una ecuación para cuantificar la relación entre dos variables. La correlación utiliza un solo número.

Recursos adicionales

Los siguientes tutoriales ofrecen explicaciones más detalladas de los temas cubiertos en esta publicación.

Introducción al coeficiente de correlación de Pearson
Introducción a la regresión
lineal simple Calculadora de regresión lineal simple
¿Qué es un buen valor R cuadrado?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Dos pruebas estadísticas de que los estudiantes a menudo se levantan mixta son la prueba F y el T-Test .…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!