Coeficientes de regresión estandarizados versus no estandarizados

La regresión lineal múltiple es una forma útil de cuantificar la relación entre dos o más variables predictoras y una variable de respuesta .

Normalmente, cuando realizamos una regresión lineal múltiple, los coeficientes de regresión resultantes no están estandarizados , lo que significa que utilizan los datos sin procesar para encontrar la línea de mejor ajuste.

Sin embargo, cuando las variables predictoras se miden en escalas drásticamente diferentes, puede ser útil realizar una regresión lineal múltiple utilizando datos estandarizados, lo que da como resultado coeficientes estandarizados .

Para ayudarlo a comprender esta idea, veamos un ejemplo simple.

Ejemplo: coeficientes de regresión estandarizados frente a no estandarizados

Supongamos que tenemos el siguiente conjunto de datos que contiene información sobre la edad, los pies cuadrados y el precio de venta de 12 casas:

Supongamos que luego realizamos una regresión lineal múltiple, utilizando la edad y la superficie cuadrada como variables predictoras y el precio como variable de respuesta . Aquí está el resultado de la regresión :

Ejemplo de coeficientes de regresión no estandarizados

Los coeficientes de regresión en esta tabla no están estandarizados , lo que significa que utilizaron los datos sin procesar para ajustar este modelo de regresión. A primera vista, parece que la edad tiene un efecto mucho mayor en el precio de la vivienda, ya que su coeficiente en la tabla de regresión es -409,833 en comparación con solo 100,866 para la variable de predicción en pies cuadrados .

Sin embargo, el error estándar es mucho mayor para la edad en comparación con los pies cuadrados, por lo que el valor p correspondiente es realmente grande para la edad (p = 0.520) y pequeño para los pies cuadrados (p = 0.000).

La razón de las diferencias extremas en los coeficientes de regresión se debe a las diferencias extremas en las escalas para las dos variables:

  • Los valores para la edad oscilan entre los 4 y los 44 años.
  • Los valores de los pies cuadrados oscilan entre 1200 y 2800.

Supongamos que, en cambio, estandarizamos los datos sin procesar originales convirtiendo cada valor de datos originales en una puntuación z:

Estandarizar datos en Excel

Si luego realizamos una regresión lineal múltiple utilizando los datos estandarizados, obtendremos el siguiente resultado de regresión:

Coeficientes de regresión estandarizados

Los coeficientes de regresión en esta tabla están estandarizados , lo que significa que utilizaron datos estandarizados para ajustarse a este modelo de regresión. La forma de interpretar los coeficientes de la tabla es la siguiente:

  • Un aumento de una desviación estándar en la edad se asocia con una disminución de la desviación estándar de 0.92 en el precio de la vivienda, asumiendo que los pies cuadrados se mantienen constantes.
  • Un aumento de una desviación estándar en pies cuadrados se asocia con un aumento de 0,885 desviación estándar en el precio de la vivienda, suponiendo que la edad se mantenga constante.

Inmediatamente podemos ver que los pies cuadrados tienen un efecto mucho mayor en el precio de la vivienda que la edad. También tenga en cuenta que los valores p para cada variable predictora son exactamente los mismos que los del modelo de regresión anterior.

Relacionado: Cómo calcular las puntuaciones Z en Excel

Cuándo utilizar coeficientes de regresión estandarizados frente a no estandarizados

Los coeficientes de regresión estandarizados y no estandarizados pueden ser útiles dependiendo de la situación. En particular:

Los coeficientes de regresión no estandarizados son útiles cuando desea interpretar el efecto que tiene un cambio de una unidad en una variable predictora sobre una variable de respuesta. En el ejemplo anterior, podríamos usar los coeficientes de regresión no estandarizados de la primera regresión para comprender la relación exacta entre las variables predictoras y la variable de respuesta:

  • Un aumento de una unidad en la edad se asoció con una disminución promedio de $ 409 en el precio de la vivienda, suponiendo que los pies cuadrados se mantuvieran constantes. Este coeficiente resultó no ser estadísticamente significativo (p = 0,520).
  • Un aumento de una unidad en pies cuadrados se asoció con un aumento promedio de $ 100 en el precio de la vivienda, asumiendo que la edad se mantuvo constante. Este coeficiente también resultó ser estadísticamente significativo (p = 0,000).

Los coeficientes de regresión estandarizados son útiles cuando desea comparar el efecto que tienen diferentes variables predictoras en una variable de respuesta. Dado que cada variable está estandarizada, puede ver qué variable tiene el mayor efecto en la variable de respuesta.

Una desventaja de los coeficientes de regresión estandarizados es que son un poco más difíciles de interpretar. Por ejemplo, es más fácil comprender el efecto que tiene un aumento de una unidad en la edad sobre el precio de la vivienda en comparación con el efecto que tiene un aumento de una desviación estándar en el precio de la vivienda.

Recursos adicionales

Cómo leer e interpretar una tabla de regresión
Cómo interpretar los coeficientes de regresión
Cómo realizar una regresión lineal múltiple en Excel

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Se utiliza una prueba de Kruskal-Wallis para determinar si existe o no una diferencia estadísticamente significativa entre las medianas de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!