Cómo crear variables ficticias en Excel (paso a paso)

Una variable ficticia es un tipo de variable que creamos en el análisis de regresión para que podamos representar una variable categórica como una variable numérica que toma uno de dos valores: cero o uno.

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar la edad y el estado civil para predecir los ingresos :

Para utilizar el estado civil como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar tres valores diferentes (“Soltero”, “Casado” o “Divorciado”), necesitamos crear k -1 = 3-1 = 2 variables ficticias.

Para crear esta variable ficticia, podemos dejar que “Único” sea nuestro valor de referencia, ya que ocurre con mayor frecuencia. Así es como convertiríamos el estado civil en variables ficticias:

Este tutorial proporciona un ejemplo paso a paso de cómo crear variables ficticias para este conjunto de datos exacto en Excel y luego realizar un análisis de regresión utilizando estas variables ficticias como predictores.

Paso 1: crear los datos

Primero, creemos el conjunto de datos en Excel:

Paso 2: cree las variables ficticias

A continuación, podemos copiar los valores en las columnas A y B a las columnas E y F, luego usar la función IF () en Excel para definir dos nuevas variables ficticias: Casado y Divorciado.

Variables ficticias en Excel

Aquí está la fórmula que usamos en la celda G2 , que copiamos al resto de las celdas en la columna G:

= SI (C2 = "Casado", 1, 0)

Y aquí está la fórmula que usamos en la celda H2 , que copiamos al resto de las celdas en la columna H:

= SI (C2 = "Divorciado", 1, 0)

A continuación, podemos utilizar estas variables ficticias en un modelo de regresión para predecir los ingresos.

Paso 3: realizar una regresión lineal

Para realizar una regresión lineal múltiple, debemos hacer clic en la pestaña Datos a lo largo de la cinta superior, luego Análisis de datos dentro de la sección Análisis :

Si no ve esta opción disponible, primero debe cargar el paquete de herramientas de análisis .

En la ventana que aparece, haga clic en Regresión y luego haga clic en Aceptar .

A continuación, complete la siguiente información y luego haga clic en Aceptar .

Variables ficticias en regresión en Excel

Esto produce la siguiente salida:

Regresión con variables ficticias en Excel

De la salida podemos ver que la línea de regresión ajustada es:

Ingresos = 14,276.12 + 1,471.67 * (edad) + 2,479.75 * (casado) – 8,397.40 * (divorciado)

Podemos usar esta ecuación para encontrar los ingresos estimados de una persona en función de su edad y estado civil. Por ejemplo, se estima que una persona que tiene 35 años y está casada tiene un ingreso de $ 68,264 :

Ingresos = 14,276.12 + 1,471.67 * (35) + 2,479.75 * (1) – 8,397.40 * (0) = $ 68,264

A continuación, se explica cómo interpretar los coeficientes de regresión de la tabla:

  • Intercepción: La intersección representa el ingreso promedio de una sola persona que tiene cero años. Dado que un individuo no puede tener cero años, no tiene sentido interpretar la intersección por sí misma en este modelo de regresión en particular.
  • Edad: Cada aumento de un año en la edad está asociado con un aumento promedio de $ 1,471.67 en ingresos. Dado que el valor p (.004) es menor que .05, la edad es un predictor estadísticamente significativo del ingreso.
  • Casado: una persona casada, en promedio, gana $ 2,479.75 más que una sola persona. Dado que el valor p (0,800) no es menor que 0,05, esta diferencia no es estadísticamente significativa.
  • Divorciado: Una persona divorciada, en promedio, gana $ 8,397.40 menos que una sola persona. Dado que el valor p (0,532) no es menor que 0,05, esta diferencia no es estadísticamente significativa.

Dado que ambas variables ficticias no fueron estadísticamente significativas, podríamos eliminar el estado civil como predictor del modelo porque no parece agregar ningún valor predictivo para los ingresos.

Recursos adicionales

Cómo realizar una regresión lineal simple en Excel
Cómo calcular la suma residual de cuadrados en Excel
Cómo realizar una regresión polinomial en Excel
Cómo crear una gráfica residual en Excel

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

“Normalizar” un conjunto de valores de datos significa escalar los valores de manera que la media de todos los valores…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!