Cómo crear una matriz de correlación en Python

Una forma de cuantificar la relación entre dos variables es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Toma un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa.
  • 0 indica que no hay correlación lineal.
  • 1 indica una correlación lineal perfectamente positiva.

Cuanto más lejos esté el coeficiente de correlación de cero, más fuerte será la relación entre las dos variables.

Pero en algunos casos queremos comprender la correlación entre más de un par de variables. En estos casos, podemos crear una matriz de correlación , que es una tabla cuadrada que muestra los coeficientes de correlación entre varias combinaciones de variables por pares.

Este tutorial explica cómo crear e interpretar una matriz de correlación en Python.

Cómo crear una matriz de correlación en Python

Utilice los siguientes pasos para crear una matriz de correlación en Python.

Paso 1: crea el conjunto de datos.

importar pandas como pd

data = {'asiste': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebotes': [12, 14, 13, 7, 8, 8, 9, 13],
        'puntos': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd.DataFrame (datos, columnas = ['asistencias', 'rebotes', 'puntos'])
df

   ayudar rebotes puntos
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Paso 2: Cree la matriz de correlación.

#crear matriz de correlación
df.corr ()

                ayuda a los puntos de rebote
asiste 1.000000 -0.244861 -0.329573
rebotes -0.244861 1.000000 -0.522092
puntos -0,329573 -0,522092 1,000000

#crear la misma matriz de correlación con coeficientes redondeados a 3 decimales 
df.corr (). ronda (3)
	       ayuda a los puntos de rebote
asiste 1.000 -0,245 -0,330
rebotes -0,245 1,000 -0,522
puntos -0,330 -0,522 1,000

Paso 3: Interprete la matriz de correlaciones.

Los coeficientes de correlación a lo largo de la diagonal de la tabla son todos iguales a 1 porque cada variable está perfectamente correlacionada consigo misma.

Todos los demás coeficientes de correlación indican la correlación entre diferentes combinaciones de variables por pares. Por ejemplo:

  • El coeficiente de correlación entre asistencias y rebotes es -0,245 .
  • El coeficiente de correlación entre asistencias y puntos es -0,330 .
  • El coeficiente de correlación entre rebotes y puntos es -0,522 .

Paso 4: Visualice la matriz de correlaciones (opcional).

Puede visualizar la matriz de correlación utilizando las opciones de estilo disponibles en pandas:

corr = df.corr ()
corr.style.background_gradient (cmap = 'coolwarm')

Matriz de correlación en Python

También puede cambiar el argumento de cmap para producir una matriz de correlación con diferentes colores.

corr = df.corr ()
corr.style.background_gradient (cmap = ' RdYlGn ')

Matriz de correlación con matplotlib en Python

corr = df.corr ()
corr.style.background_gradient (cmap = ' bwr ')

Matriz de correlación usando Pandas

corr = df.corr ()
corr.style.background_gradient (cmap = ' PuOr ')

Ejemplo de matriz de correlación en Python

Para obtener una lista completa de los argumentos de cmap, consulte la documentación de matplotlib .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Un ANOVA de una vía ("análisis de varianza") compara las medias de tres o más grupos independientes para determinar si…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!