Cómo realizar una regresión lineal en Google Sheets

La regresión lineal es un método que se puede utilizar para cuantificar la relación entre una o más variables explicativas y una variable de respuesta .

Utilizamos la regresión lineal simple cuando solo hay una variable explicativa y la regresión lineal múltiple cuando hay dos o más variables explicativas.

Es posible realizar ambos tipos de regresiones usando la función LINEST () en Google Sheets, que usa la siguiente sintaxis:

LINEST (datos_conocidos_y, datos_conocidos_x, calcular_b, detallado)

dónde:

  • datos_conocidos_y: matriz de valores de respuesta
  • datos_conocidos_x: matriz de valores explicativos
  • calcular_b: indica si se debe calcular o no la intersección con el eje y. Esto es TRUE por defecto y lo dejamos así para la regresión lineal.
  • detallado: indica si se deben proporcionar estadísticas de regresión adicionales más allá de la pendiente y la intersección. Esto es FALSO por defecto, pero especificaremos que es VERDADERO en nuestros ejemplos.

Los siguientes ejemplos muestran cómo utilizar esta función en la práctica.

Regresión lineal simple en Google Sheets

Supongamos que estamos interesados ​​en comprender la relación entre las horas estudiadas y la puntuación del examen. estudios para un examen y la puntuación del examen que reciben. Para explorar esta relación, podemos realizar una regresión lineal simple utilizando las horas estudiadas como variable explicativa y la puntuación del examen como variable de respuesta.

La siguiente captura de pantalla muestra cómo realizar una regresión lineal simple utilizando un conjunto de datos de 20 estudiantes con la siguiente fórmula utilizada en la celda D2:

= LINEST ( B2: B21 , A2: A21 , VERDADERO , VERDADERO )

Regresión lineal en Google Sheets

La siguiente captura de pantalla proporciona anotaciones para el resultado:Salida de regresión en Hojas de cálculo de Google

A continuación, se explica cómo interpretar los números más relevantes en la salida:

Cuadrado R: 0,72725 . Esto se conoce como coeficiente de determinación. Es la proporción de la varianza en la variable de respuesta que se puede explicar por la variable explicativa. En este ejemplo, aproximadamente el 72,73% de la variación en los puntajes del examen se puede explicar por el número de horas estudiadas.

Error estándar: 5.2805 . Esta es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 5.2805 unidades de la línea de regresión.

Coeficientes: Los coeficientes nos dan los números necesarios para escribir la ecuación de regresión estimada. En este ejemplo, la ecuación de regresión estimada es:

Puntuación del examen = 67,16 + 5,2503 * (horas)

Interpretamos que el coeficiente de horas significa que por cada hora adicional estudiada, se espera que el puntaje del examen aumente en 5.2503 , en promedio. Interpretamos que el coeficiente de la intersección significa que la puntuación del examen esperada para un estudiante que estudia cero horas es 67,16 .

Podemos usar esta ecuación de regresión estimada para calcular el puntaje esperado del examen para un estudiante, en función de la cantidad de horas que estudian. Por ejemplo, se espera que un estudiante que estudia durante tres horas reciba una puntuación en el examen de 82,91 :

Puntuación del examen = 67,16 + 5,2503 * (3) = 82,91

Regresión lineal múltiple en hojas de Google

Supongamos que queremos saber si el número de horas dedicadas al estudio y el número de exámenes de preparación realizados afectan la puntuación que recibe un estudiante en un determinado examen de ingreso a la universidad. Para explorar esta relación, podemos realizar una regresión lineal múltiple usando las horas estudiadas y los exámenes de preparación tomados como variables explicativas y la puntuación del examen como una variable de respuesta.

La siguiente captura de pantalla muestra cómo realizar una regresión lineal múltiple utilizando un conjunto de datos de 20 estudiantes con la siguiente fórmula utilizada en la celda E2:

= LINEST ( C2: C21 , A2: B21 , VERDADERO , VERDADERO )

Regresión lineal múltiple en Google Sheets

A continuación, se explica cómo interpretar los números más relevantes en la salida:

Cuadrado R: 0,734 . Esto se conoce como coeficiente de determinación. Es la proporción de la varianza en la variable de respuesta que se puede explicar por las variables explicativas. En este ejemplo, el 73,4% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas y el número de exámenes de preparación realizados.

Error estándar: 5.3657 . Esta es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 5.3657 unidades de la línea de regresión.

Ecuación de regresión estimada: podemos usar los coeficientes de la salida del modelo para crear la siguiente ecuación de regresión estimada:

Puntuación del examen = 67,67 + 5,56 * (horas) – 0,60 * (exámenes de preparación)

Podemos usar esta ecuación de regresión estimada para calcular la puntuación de examen esperada para un estudiante, según la cantidad de horas que estudian y la cantidad de exámenes de preparación que toman. Por ejemplo, se espera que un estudiante que estudia durante tres horas y toma un examen de preparación reciba una puntuación de 83,75 :

Puntuación del examen = 67,67 + 5,56 * (3) – 0,60 * (1) = 83,75

Recursos adicionales

Cómo realizar una regresión polinomial en Google Sheets
Introducción a la regresión lineal simple
Comprender el error estándar de la regresión

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una media móvil es una técnica que se puede utilizar para suavizar los datos de series de tiempo para reducir…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!