Introducción al análisis discriminante lineal

Actualizado por ultima vez el 7 de mayo de 2021, por .

Cuando tenemos un conjunto de variables predictoras y nos gustaría clasificar una variable de respuesta en una de dos clases, normalmente usamos regresión logística .

Por ejemplo, podemos usar la regresión logística en el siguiente escenario:

  • Queremos usar el puntaje crediticio y el saldo bancario para predecir si un cliente determinado incumplirá o no con un préstamo. (Variable de respuesta = «Predeterminado» o «No predeterminado»)

Sin embargo, cuando una variable de respuesta tiene más de dos clases posibles, normalmente preferimos utilizar un método conocido como análisis discriminante lineal , a menudo denominado LDA.

Por ejemplo, podemos usar LDA en el siguiente escenario:

  • Queremos usar puntos por juego y rebotes por juego para predecir si un jugador de baloncesto de la escuela secundaria determinado será aceptado en una de estas tres escuelas: División 1, División 2 o División 3.

Aunque los modelos LDA y de regresión logística se utilizan para la clasificación , resulta que LDA es mucho más estable que la regresión logística cuando se trata de hacer predicciones para múltiples clases y, por lo tanto, es el algoritmo preferido para usar cuando la variable de respuesta puede asumir más de dos clases.

LDA también funciona mejor cuando los tamaños de muestra son pequeños en comparación con la regresión logística, lo que lo convierte en un método preferido para usar cuando no puede recopilar muestras grandes.

Cómo construir modelos LDA

LDA hace las siguientes suposiciones sobre un conjunto de datos determinado:

(1) Los valores de cada variable predictora se distribuyen normalmente . Es decir, si hiciéramos un histograma para visualizar la distribución de valores para un predictor dado, tendría aproximadamente una «forma de campana».

(2) Cada variable predictora tiene la misma varianza . Este casi nunca es el caso en los datos del mundo real, por lo que normalmente escalamos cada variable para que tenga la misma media y varianza antes de ajustar realmente un modelo LDA.

Una vez que se cumplen estos supuestos, LDA estima los siguientes valores:

  • μ k : La media de todas las observaciones de entrenamiento de la k- ésima clase.
  • σ 2 : El promedio ponderado de las varianzas muestrales para cada una de las k clases.
  • π k : La proporción de las observaciones de entrenamiento que pertenecen a la k- ésima clase.

LDA luego inserta estos números en la siguiente fórmula y asigna cada observación X = xa la clase para la cual la fórmula produce el valor más grande:

D k (x) = x * (μ k / σ 2 ) – (μ k 2 / 2σ 2 ) + log (π k )

Tenga en cuenta que LDA tiene lineal en su nombre porque el valor producido por la función anterior proviene del resultado de funciones lineales de x.

Cómo preparar datos para LDA

Asegúrese de que sus datos cumplan con los siguientes requisitos antes de aplicarles un modelo LDA:

1. La variable de respuesta es categórica . Los modelos LDA están diseñados para usarse en problemas de clasificación, es decir, cuando la variable de respuesta se puede colocar en clases o categorías.

2. Las variables predictoras siguen una distribución normal . Primero, verifique que cada variable de predicción tenga una distribución aproximadamente normal. Si este no es el caso, puede optar por transformar primero los datos para que la distribución sea más normal.

3. Cada variable predictora tiene la misma varianza . Como se mencionó anteriormente, LDA supone que cada variable predictora tiene la misma varianza. Dado que este rara vez es el caso en la práctica, es una buena idea escalar cada variable en el conjunto de datos de manera que tenga una media de 0 y una desviación estándar de 1.

4. Tenga en cuenta los valores atípicos extremos. Asegúrese de verificar si hay valores atípicos extremos en el conjunto de datos antes de aplicar LDA. Por lo general, puede verificar visualmente los valores atípicos simplemente usando diagramas de caja o diagramas de dispersión .

Ejemplos de uso de análisis discriminante lineal

Los modelos LDA se aplican en una amplia variedad de campos en la vida real. Algunos ejemplos incluyen:

1. Comercialización . Las empresas minoristas suelen utilizar LDA para clasificar a los compradores en una de varias categorías. Por ejemplo, pueden construir un modelo LDA para predecir si un comprador determinado gastará poco, gastará medio o gastará mucho utilizando variables de predicción como ingresos , gasto total anual y tamaño del hogar .

2. Médico . Los hospitales y los equipos de investigación médica a menudo usan LDA para predecir si es probable que un grupo determinado de células anormales dé lugar a una enfermedad leve, moderada o grave.

3. Desarrollo de producto . Las empresas pueden crear modelos LDA para predecir si un determinado consumidor utilizará su producto diariamente, semanalmente, mensualmente o anualmente en función de una variedad de variables predictoras como el género , los ingresos anuales y la frecuencia de uso de productos similares .

4. Ecología. Los investigadores pueden construir modelos LDA para predecir si un arrecife de coral determinado tendrá una salud general buena, moderada, mala o en peligro de extinción en función de una variedad de variables predictoras como el tamaño , la contaminación anual y la edad .

LDA en R y Python

Los siguientes tutoriales proporcionan ejemplos paso a paso de cómo realizar análisis discriminantes lineales en R y Python:

Análisis discriminante lineal en R (paso a paso)
Análisis discriminante lineal en Python (paso a paso)

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La prueba de McNemar es una prueba que podemos usar para determinar si existe una diferencia estadísticamente significativa en las…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!