Cómo leer una matriz de correlación

Actualizado por ultima vez el 7 de mayo de 2021, por .

En estadística, a menudo nos interesa comprender la relación entre dos variables.

Por ejemplo, es posible que queramos comprender la relación entre la cantidad de horas que estudia un estudiante y la puntuación del examen que recibe.

Una forma de cuantificar esta relación es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Tiene un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Cuanto más lejos esté el coeficiente de correlación de cero, más fuerte será la relación entre las dos variables.

Relacionado: ¿Qué se considera una correlación “fuerte”?

Pero en algunos casos queremos comprender la correlación entre más de un par de variables. En estos casos, podemos crear una matriz de correlación , que es una tabla cuadrada que muestra los coeficientes de correlación entre varias variables.

Ejemplo de una matriz de correlación

La siguiente matriz de correlación muestra los coeficientes de correlación entre varias variables relacionadas con la educación:

Ejemplo de matriz de correlación

Cada celda de la tabla muestra la correlación entre dos variables específicas.Por ejemplo, la celda resaltada a continuación muestra que la correlación entre “horas dedicadas a estudiar” y “puntaje del examen” es 0.82 , lo que indica que están fuertemente correlacionados positivamente. Más horas dedicadas a estudiar está fuertemente relacionado con puntajes más altos en los exámenes.

Ejemplo de cómo leer una matriz de correlación

Y la celda resaltada a continuación muestra que la correlación entre «horas dedicadas a estudiar» y «horas dedicadas a dormir» es -0,22 , lo que indica que tienen una correlación débilmente negativa. Más horas dedicadas al estudio se asocia con menos horas dedicadas a dormir.

Ejemplo de correlación negativa en una matriz de correlación

Y la celda resaltada a continuación muestra que la correlación entre «horas dedicadas a dormir» y «puntaje de CI» es 0.06 , lo que indica que básicamente no están correlacionados. Existe muy poca asociación entre la cantidad de horas que duerme un estudiante y su puntaje de CI.

Ejemplo de matriz de correlación sin correlación

También observe que los coeficientes de correlación a lo largo de la diagonal de la tabla son todos iguales a 1 porque cada variable está perfectamente correlacionada consigo misma. Estas celdas no son útiles para la interpretación.

Ejemplo de celdas diagonales en una matriz de correlación

Variaciones de la matriz de correlación

Observe que una matriz de correlación es perfectamente simétrica. Por ejemplo, la celda superior derecha muestra exactamente el mismo valor que la celda inferior izquierda:

Ejemplo simétrico de matriz de correlación

Esto se debe a que ambas celdas miden la correlación entre «horas dedicadas a estudiar» y «calificación de la escuela».

Debido a que una matriz de correlación es simétrica, la mitad de los coeficientes de correlación que se muestran en la matriz son redundantes e innecesarios. Por lo tanto, a veces solo se mostrará la mitad de la matriz de correlación:

La mitad de una matriz de correlación

Y a veces, una matriz de correlación se coloreará como un mapa de calor para que los coeficientes de correlación sean aún más fáciles de leer:

Ejemplo de matriz de correlación de mapa de calor

Cuándo usar una matriz de correlación

En la práctica, una matriz de correlación se usa comúnmente por tres razones:

1. Una matriz de correlación resume convenientemente un conjunto de datos.

Una matriz de correlación es una forma sencilla de resumir las correlaciones entre todas las variables en un conjunto de datos. Por ejemplo, supongamos que tenemos el siguiente conjunto de datos que tiene la siguiente información para 1,000 estudiantes:

Ejemplo de conjunto de datos sin procesar para matriz de correlación

Sería muy difícil entender la relación entre cada variable simplemente mirando los datos sin procesar. Afortunadamente, una matriz de correlación puede ayudarnos a comprender rápidamente las correlaciones entre cada par de variables.

2. Una matriz de correlación sirve como diagnóstico para la regresión.

Un supuesto clave de la regresión lineal múltiple es que ninguna variable independiente en el modelo está altamente correlacionada con otra variable en el modelo. Cuando dos variables independientes están altamente correlacionadas, esto da como resultado un problema conocido como multicolinealidad y puede dificultar la interpretación de los resultados de la regresión.

Una de las formas más fáciles de detectar un posible problema de multicolinealidad es mirar una matriz de correlación y verificar visualmente si alguna de las variables está altamente correlacionada entre sí.

3. Se puede utilizar una matriz de correlación como entrada en otros análisis.

Una matriz de correlación se utiliza como entrada para otros análisis complejos, como el análisis factorial exploratorio y los modelos de ecuaciones estructurales.

Recursos adicionales

Cómo crear una matriz de correlación en Excel
Cómo crear una matriz de correlación en SPSS
Cómo crear una matriz de correlación en Stata
Cómo crear una matriz de correlación en Python
Cómo crear una matriz de correlación en Matlab

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La prueba de rachas es una prueba estadística que se utiliza para determinar si un conjunto de datos proviene o…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!