Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson (también conocido como “coeficiente de correlación producto-momento”) es una medida de la asociación lineal entre dos variables X e Y. Tiene un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

La fórmula para encontrar el coeficiente de correlación de Pearson

La fórmula para encontrar el coeficiente de correlación de Pearson, denotado como r , para una muestra de datos es (a través de Wikipedia ):

Es probable que nunca tenga que calcular esta fórmula a mano, ya que puede usar software para hacerlo por usted, pero es útil comprender qué hace exactamente esta fórmula al analizar un ejemplo.

Supongamos que tenemos el siguiente conjunto de datos:

Si trazáramos estos pares (X, Y) en un diagrama de dispersión, se vería así:

Ejemplo de correlación de Pearson en diagrama de dispersión

Con solo mirar este diagrama de dispersión podemos decir que existe una asociación positiva entre las variables X e Y: cuando X aumenta, Y tiende a aumentar también.Pero para cuantificar exactamente cuán positivamente asociadas están estas dos variables, necesitamos encontrar el coeficiente de correlación de Pearson.

Centrémonos solo en el numerador de la fórmula:

{ Displaystyle r_ {xy} = { frac { sum _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) (y_ {i} - { bar {y}) })} {{ sqrt { sum _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) ^ {2}}} { sqrt { sum _ {i = 1} ^ {n} (y_ {i} - { bar {y}}) ^ {2}}}}}}

Para cada par (X, Y) en nuestro conjunto de datos, necesitamos encontrar la diferencia entre el valor de x y el valor de x medio, la diferencia entre el valor de y y el valor de y medio, luego multiplicar estos dos números.

Por ejemplo, nuestro primer par (X, Y) es (2, 2). El valor de x medio en este conjunto de datos es 5 y el valor de y medio en este conjunto de datos es 7. Entonces, la diferencia entre el valor de x en este par y el valor de x medio es 2 – 5 = -3. La diferencia entre el valor de y en este par y el valor medio de y es 2 – 7 = -5. Entonces, cuando multiplicamos estos dos números, obtenemos -3 * -5 = 15.

Correlación de Pearson a mano

Aquí hay un vistazo visual de lo que acabamos de hacer:

Ejemplo de correlación de Pearson

A continuación, solo necesitamos hacer esto para cada par:

Ejemplo de correlación de PearsonEjemplo de correlación de Pearson en un diagrama de dispersión

El último paso para obtener el numerador de la fórmula es simplemente sumar todos estos valores:

15 + 3 +3 + 15 = 36

A continuación, el denominador de la fórmula nos dice que encontremos la suma de todas las diferencias al cuadrado tanto para x como para y, luego multiplique estos dos números juntos, luego saque la raíz cuadrada:

{ Displaystyle r_ {xy} = { frac { sum _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) (y_ {i} - { bar {y}) })} {{ sqrt { sum _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) ^ {2}}} { sqrt { sum _ {i = 1} ^ {n} (y_ {i} - { bar {y}}) ^ {2}}}}}}

Entonces, primero encontraremos la suma de las diferencias al cuadrado tanto para x como para y:

Luego, multiplicaremos estos dos números: 20 * 68 = 1360.

Por último, sacaremos la raíz cuadrada: √ 1,360 = 36,88

Entonces, encontramos que el numerador de la fórmula es 36 y el denominador es 36.88. Esto significa que nuestro coeficiente de correlación de Pearson es r = 36 / 36,88 = 0,976

Este número está cerca de 1, lo que indica que hay una relación lineal positiva entre las variables X y Y . Esto confirma la relación que vimos en el diagrama de dispersión.

Visualización de correlaciones

Recuerde que un coeficiente de correlación de Pearson nos dice el tipo de relación lineal (positiva, negativa, ninguna) entre dos variables, así como la fuerza de esa relación (débil, moderada, fuerte).

Cuando hacemos un diagrama de dispersión de dos variables, podemos ver la relación real entre dos variables. Estos son los diferentes tipos de relaciones lineales que podemos ver:

Relación fuerte y positiva: a medida que aumenta la variable del eje x, también aumenta la variable del eje y. Los puntos están muy juntos, lo que indica una fuerte relación.

Coeficiente de correlación de Pearson: 0,94

Relación débil y positiva: a medida que aumenta la variable del eje x, también aumenta la variable del eje y. Los puntos están bastante dispersos, lo que indica una relación débil.

Coeficiente de correlación de Pearson: 0,44

Sin relación: no existe una relación clara (positiva o negativa) entre las variables.

Coeficiente de correlación de Pearson: 0,03

Relación fuerte y negativa: a medida que aumenta la variable en el eje x, la variable en el eje y disminuye. Los puntos están muy juntos, lo que indica una fuerte relación.

Coeficiente de correlación de Pearson: -0,87

Relación débil y negativa: a medida que aumenta la variable en el eje x, la variable en el eje y disminuye. Los puntos están bastante dispersos, lo que indica una relación débil.

Coeficiente de correlación de Pearson: – 0,46

Prueba de la significancia de un coeficiente de correlación de Pearson

Cuando encontramos el coeficiente de correlación de Pearson para un conjunto de datos, a menudo estamos trabajando con una muestra de datos que proviene de una población más grande . Esto significa que es posible encontrar una correlación distinta de cero para dos variables incluso si en realidad no están correlacionadas en la población general.

Por ejemplo, supongamos que hacemos una gráfica de dispersión para las variables X e Y para cada punto de datos en la población completa y se ve así:

Ejemplo de correlación cero

Claramente, estas dos variables no están correlacionadas. Sin embargo, es posible que cuando tomamos una muestra de 10 puntos de la población, elijamos los siguientes puntos:

Ejemplo de correlación

Podemos encontrar que el coeficiente de correlación de Pearson para esta muestra de puntos es 0.93, lo que indica una fuerte correlación positiva a pesar de que la correlación poblacional es cero.

Para probar si una correlación entre dos variables es estadísticamente significativa, podemos encontrar el siguiente estadístico de prueba:

Estadístico de prueba T = r * √ (n-2) / (1-r 2 )

donde n es el número de pares en nuestra muestra, r es el coeficiente de correlación de Pearson y el estadístico de prueba T sigue una distribución con n-2 grados de libertad.

Veamos un ejemplo de cómo probar la significancia de un coeficiente de correlación de Pearson.

Ejemplo

El siguiente conjunto de datos muestra la altura y el peso de 12 personas:

El diagrama de dispersión a continuación muestra el valor de estas dos variables:

Diagrama de dispersión de correlación

El coeficiente de correlación de Pearson para estas dos variables es r = 0,836.

El estadístico de prueba T = .836 * √ ( 12-2 ) / (1-.836 2 ) = 4.804.

Según nuestra calculadora de distribución t , una puntuación de 4.804 con 10 grados de libertad tiene un valor p de .0007. Dado que .0007 <.05, podemos concluir que la correlación entre el peso y la altura en este ejemplo es estadísticamente significativa en alfa = .05.

Precauciones

Si bien un coeficiente de correlación de Pearson puede ser útil para decirnos si dos variables tienen o no una asociación lineal, debemos tener en cuenta tres cosas al interpretar un coeficiente de correlación de Pearson:

1. La correlación no implica causalidad. El hecho de que dos variables estén correlacionadas no significa que una esté causando necesariamente que la otra ocurra con más o menos frecuencia. Un ejemplo clásico de esto es la correlación positiva entre las ventas de helados y los ataques de tiburones. Cuando las ventas de helados aumentan durante ciertas épocas del año, los ataques de tiburones también tienden a aumentar.

¿Significa esto que el consumo de helado está provocando ataques de tiburones? ¡Por supuesto que no! Solo significa que durante el verano, tanto el consumo de helados como los ataques de tiburones tienden a aumentar, ya que el helado es más popular durante el verano y más personas van al océano durante el verano.

2. Las correlaciones son sensibles a los valores atípicos.Un valor atípico extremo puede cambiar drásticamente un coeficiente de correlación de Pearson. Considere el siguiente ejemplo:

Ejemplo de valores atípicos de correlación

Las variables X e Y tienen un coeficiente de correlación de Pearson de 0,00 . Pero imagina que tenemos un valor atípico en el conjunto de datos:

Ejemplo de valores atípicos de correlación de Pearson

Ahora el coeficiente de correlación de Pearson para estas dos variables es 0,878 . Este valor atípico lo cambia todo. Por eso, cuando calcula la correlación para dos variables, es una buena idea visualizar las variables usando un diagrama de dispersión para verificar valores atípicos.

3. Un coeficiente de correlación de Pearson no captura relaciones no lineales entre dos variables.Imagina que tenemos dos variables con la siguiente relación:

Correlación para una relación no lineal

El coeficiente de correlación de Pearson para estas dos variables es 0,00 porque no tienen una relación lineal. Sin embargo, estas dos variables tienen una relación no lineal: los valores de y son simplemente los valores de x al cuadrado.

Cuando utilice el coeficiente de correlación de Pearson, tenga en cuenta que simplemente está probando para ver si dos variables están relacionadas linealmente . Incluso si un coeficiente de correlación de Pearson nos dice que dos variables no están correlacionadas, aún podrían tener algún tipo de relación no lineal. Esta es otra razón por la que es útil crear un diagrama de dispersión al analizar la relación entre dos variables; puede ayudarlo a detectar una relación no lineal.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Hay tres formas de encontrar el puntaje z que corresponde a un área dada bajo una curva de distribución normal…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!