¿Qué es la trampa variable ficticia? (Definición y ejemplo)

La regresión lineal es un método que podemos utilizar para cuantificar la relación entre una o más variables predictoras y una variable de respuesta .

Normalmente usamos regresión lineal con variables cuantitativas . A veces denominadas variables «numéricas», son variables que representan una cantidad medible. Ejemplos incluyen:

  • Cantidad de pies cuadrados en una casa
  • Tamaño de la población de una ciudad
  • Edad de un individuo

Sin embargo, a veces deseamos utilizar variables categóricas como variables predictoras. Estas son variables que toman nombres o etiquetas y pueden encajar en categorías. Ejemplos incluyen:

  • Color de ojos (por ejemplo, «azul», «verde», «marrón»)
  • Género (p. Ej., «Masculino», «femenino»)
  • Estado civil (por ejemplo, «casado», «soltero», «divorciado»)

Cuando se utilizan variables categóricas, no tiene sentido simplemente asignar valores como 1, 2, 3 a valores como «azul», «verde» y «marrón» porque no tiene sentido decir que el verde es dos veces tan colorido como el azul o que el marrón es tres veces más colorido que el azul.

En cambio, la solución es utilizar variables ficticias . Estas son variables que creamos específicamente para el análisis de regresión que toman uno de dos valores: cero o uno.

El número de variables ficticias que debemos crear es igual a k -1 donde k es el número de valores diferentes que puede asumir la variable categórica.

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar el estado civil y la edad para predecir los ingresos :

Para utilizar el estado civil como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar tres valores diferentes (“Soltero”, “Casado” o “Divorciado”), necesitamos crear k -1 = 3-1 = 2 variables ficticias.

Para crear esta variable ficticia, podemos dejar que “Único” sea nuestro valor de referencia, ya que ocurre con mayor frecuencia. Por lo tanto, así es como convertiríamos el estado civil en variables ficticias:

Variable ficticia con tres valores

Luego, podríamos usar Edad , Casado y Divorciado como variables predictoras en un modelo de regresión.

Al crear variables ficticias, un problema que puede surgir se conoce como trampa de variable ficticia . Esto ocurre cuando creamos k variables ficticias en lugar de k -1 variables ficticias.

Cuando esto sucede, al menos dos de las variables ficticias sufrirán una multicolinealidad perfecta . Es decir, estarán perfectamente correlacionados. Esto provoca cálculos incorrectos de los coeficientes de regresión y sus correspondientes valores p.

Trampa de variable ficticia : cuando el número de variables ficticias creadas es igual al número de valores que puede asumir el valor categórico. Esto conduce a la multicolinealidad, lo que provoca cálculos incorrectos de los coeficientes de regresión y los valores p.

Por ejemplo, supongamos que convertimos el estado civil en las siguientes variables ficticias:

Ejemplo de trampa de variable ficticia

En este caso, Soltero y Casado están perfectamente correlacionados y tienen un coeficiente de correlación de -1.

Por lo tanto, cuando vayamos a realizar una regresión lineal múltiple, los cálculos de los coeficientes de regresión serán incorrectos.

Cómo evitar la trampa variable ficticia

Solo necesita recordar una regla para evitar la trampa de la variable ficticia:

Si una variable categórica puede tomar k valores diferentes, entonces solo debe crear k-1 variables ficticias para usar en el modelo de regresión.

Por ejemplo, suponga que le gustaría convertir una variable categórica «año escolar» en variables ficticias. Supongamos que esta variable toma los siguientes valores:

  • Estudiante de primer año
  • Estudiante de segundo año
  • Júnior
  • Mayor

Dado que esta variable puede tomar 4 valores diferentes, solo crearemos 3 variables ficticias. Por ejemplo, nuestras variables ficticias podrían ser:

  • X 1 = 1 si es estudiante de segundo año; 0 de lo contrario
  • X 2 = 1 si es Junior; 0 de lo contrario
  • X 3 = 1 si es mayor; 0 de lo contrario

Dado que el número de variables ficticias es uno menos que el número de valores que puede asumir el “año escolar”, podemos evitar la trampa de las variables ficticias y el problema de la multicolinealidad.

Recursos adicionales

Cómo utilizar variables ficticias en el análisis de regresión
Introducción a la regresión lineal múltiple
Una guía para la multicolinealidad en la regresión

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Para normalizar los valores de un conjunto de datos entre 0 y 1, puede utilizar la siguiente fórmula: z i…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!