Introducción a la regresión logística

Cuando queremos comprender la relación entre una o más variables predictoras y una variable de respuesta continua, a menudo usamos regresión lineal .

Sin embargo, cuando la variable de respuesta es categórica, podemos utilizar la regresión logística .

La regresión logística es un tipo de algoritmo de clasificación porque intenta «clasificar» las observaciones de un conjunto de datos en categorías distintas.

Aquí hay algunos ejemplos de cuándo podríamos usar la regresión logística:

  • Queremos usar el puntaje crediticio y el saldo bancario para predecir si un cliente determinado incumplirá o no con un préstamo. (Variable de respuesta = «Predeterminado» o «No predeterminado»)
  • Queremos utilizar el promedio de rebotes por juego y el promedio de puntos por juego para predecir si un jugador de baloncesto determinado será seleccionado en la NBA (variable de respuesta = «reclutado» o «no reclutado»)
  • Queremos usar los pies cuadrados y la cantidad de baños para predecir si una casa en una determinada ciudad se cotizará o no a un precio de venta de $ 200k o más. (Variable de respuesta = «Sí» o «No»)

Observe que la variable de respuesta en cada uno de estos ejemplos solo puede tomar uno de dos valores. Compare esto con la regresión lineal en la que la variable de respuesta adquiere un valor continuo.

La ecuación de regresión logística

La regresión logística utiliza un método conocido como estimación de máxima verosimilitud (los detalles no se cubrirán aquí) para encontrar una ecuación de la siguiente forma:

log [p (X) / (1-p (X))] = β 0 + β 1 X 1 + β 2 X 2 +… + β p X p

dónde:

  • X j : La j- ésima variable predictora
  • β j : la estimación del coeficiente para la j- ésima variable predictora

La fórmula del lado derecho de la ecuación predice las probabilidades logarítmicas de la variable de respuesta tomando un valor de 1.

Por lo tanto, cuando ajustamos un modelo de regresión logística, podemos usar la siguiente ecuación para calcular la probabilidad de que una observación dada tome un valor de 1:

p (X) = e β 0 + β 1 X 1 + β 2 X 2 +… + β p X p / (1 + e β 0 + β 1 X 1 + β 2 X 2 +… + β p X p )

Luego usamos algún umbral de probabilidad para clasificar la observación como 1 o 0.

Por ejemplo, podríamos decir que las observaciones con una probabilidad mayor o igual a 0.5 se clasificarán como «1» y todas las demás observaciones se clasificarán como «0».

Cómo interpretar la salida de regresión logística

Supongamos que usamos un modelo de regresión logística para predecir si un jugador de baloncesto determinado será seleccionado en la NBA en función de su promedio de rebotes por juego y de puntos promedio por juego.

Aquí está el resultado del modelo de regresión logística:

Interpretar el resultado de la regresión logística

Usando los coeficientes, podemos calcular la probabilidad de que cualquier jugador sea reclutado en la NBA en función de su promedio de rebotes y puntos por juego usando la siguiente fórmula:

P (redactado) = e -2.8690 + 0.0698 * (rebs) + 0.1694 * (puntos) / (1 + e -2.8690 + 0.0698 * (rebs) + 0.1694 * (puntos) )

Por ejemplo, supongamos que un jugador determinado promedia 8 rebotes por juego y 15 puntos por juego. Según el modelo, la probabilidad de que este jugador sea reclutado en la NBA es de 0,557 .

P (redactado) = e -2,8690 + 0,0698 * (8) + 0,1694 * (15) / (1 + e -2,8690 + 0,0698 * (8) + 0,1694 * (15) ) = 0,557

Dado que esta probabilidad es mayor que 0.5, predeciríamos que este jugador será reclutado.

Compare esto con un jugador que solo promedia 3 rebotes y 7 puntos por juego. La probabilidad de que este jugador sea reclutado en la NBA es de 0,186 .

P (redactado) = e -2,8690 + 0,0698 * (3) + 0,1694 * (7) / (1 + e -2,8690 + 0,0698 * (3) + 0,1694 * (7) ) = 0,186

Dado que esta probabilidad es inferior a 0,5, predeciríamos que este jugador no será seleccionado.

Supuestos de regresión logística

La regresión logística utiliza los siguientes supuestos:

1. La variable de respuesta es binaria. Se supone que la variable respuesta solo puede asumir dos posibles resultados.

2. Las observaciones son independientes. Se supone que las observaciones del conjunto de datos son independientes entre sí. Es decir, las observaciones no deben provenir de mediciones repetidas del mismo individuo ni estar relacionadas entre sí de ninguna manera.

3. No existe una multicolinealidad severa entre las variables predictoras . Se supone que ninguna de las variables predictoras está altamente correlacionada entre sí.

4. No hay valores atípicos extremos. Se supone que no hay valores atípicos extremos ni observaciones influyentes en el conjunto de datos.

5. Existe una relación lineal entre las variables predictoras y el logit de la variable de respuesta . Esta suposición se puede probar mediante una prueba de Box-Tidwell.

6. El tamaño de la muestra es suficientemente grande. Como regla general, debe tener un mínimo de 10 casos con el resultado menos frecuente para cada variable explicativa. Por ejemplo, si tiene 3 variables explicativas y la probabilidad esperada del resultado menos frecuente es 0,20, entonces debería tener un tamaño de muestra de al menos (10 * 3) / 0,20 = 150.

Consulte esta publicación para obtener una explicación detallada de cómo verificar estas suposiciones.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

El rango intercuartílico , a menudo denominado IQR, es una forma de medir la dispersión del 50% medio de un…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!