Introducción a los mínimos cuadrados parciales

Uno de los problemas más comunes que encontrará en el aprendizaje automático es la multicolinealidad . Esto ocurre cuando dos o más variables predictoras en un conjunto de datos están altamente correlacionadas.

Cuando esto ocurre, un modelo puede ajustarse bien a un conjunto de datos de entrenamiento, pero puede funcionar mal en un nuevo conjunto de datos que nunca ha visto porque se sobreajusta al conjunto de entrenamiento.

Una forma de solucionar el problema de la multicolinealidad es usar la regresión de componentes principales , que calcula M combinaciones lineales (conocidas como «componentes principales») de las variables predictoras p originales y luego usa el método de mínimos cuadrados para ajustar un modelo de regresión lineal usando los componentes principales como predictores.

El inconveniente de la regresión de componentes principales (PCR) es que no considera la variable de respuesta al calcular los componentes principales.

En cambio, solo considera la magnitud de la varianza entre las variables predictoras capturadas por los componentes principales. Debido a esto, es posible que, en algunos casos, los componentes principales con las mayores variaciones no sean capaces de predecir bien la variable de respuesta.

Una técnica relacionada con la PCR se conoce como mínimos cuadrados parciales . Similar a la PCR, los mínimos cuadrados parciales calculan M combinaciones lineales (conocidas como “componentes PLS”) de las variables predictoras p originales y usa el método de mínimos cuadrados para ajustar un modelo de regresión lineal usando los componentes PLS como predictores.

Pero a diferencia de la PCR, los mínimos cuadrados parciales intentan encontrar combinaciones lineales que expliquen la variación tanto en la variable de respuesta como en las variables predictoras.

Pasos para realizar mínimos cuadrados parciales

En la práctica, los siguientes pasos se utilizan para realizar mínimos cuadrados parciales.

1. S tandardice los datos de manera que todas las variables predictoras y la variable de respuesta tengan una media de 0 y una desviación estándar de 1. Esto asegura que cada variable se mida en la misma escala.

2. Calcule Z 1 ,…, Z M para que sean las M combinaciones lineales de los p predictores originales .

  • Z m = ΣΦ jm X j para algunas constantes Φ 1m , Φ 2m , Φ pm , m = 1,…, M.
  • Para calcular Z 1 , establezca Φ j1 igual al coeficiente de la regresión lineal simple de Y sobre X j es la combinación lineal de los predictores que captura la mayor varianza posible.
  • Para calcular Z 2 , haga una regresión de cada variable en Z 1 y tome los residuos. Luego calcule Z 2 usando estos datos ortogonalizados exactamente de la misma manera en que se calculó Z 1 .
  • Repita este proceso M veces para obtener los componentes M PLS.

3. Utilice el método de mínimos cuadrados para ajustar un modelo de regresión lineal utilizando los componentes PLS Z 1 ,…, Z M como predictores.

4. Por último, utilice la validación cruzada de k veces para encontrar el número óptimo de componentes PLS para mantener en el modelo. El número “óptimo” de componentes PLS que se debe mantener es típicamente el número que produce el error cuadrático medio (MSE) de prueba más bajo.

Conclusión

En los casos en que la multicolinealidad está presente en un conjunto de datos, los mínimos cuadrados parciales tienden a funcionar mejor que la regresión de mínimos cuadrados ordinarios. Sin embargo, es una buena idea ajustar varios modelos diferentes para que podamos identificar el que se generaliza mejor para los datos invisibles.

En la práctica, ajustamos muchos tipos diferentes de modelos (PLS, PCR , Ridge , Lasso , Regresión lineal múltiple , etc.) a un conjunto de datos y usamos la validación cruzada de k-veces para identificar el modelo que produce el MSE de prueba más bajo en datos nuevos. .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee fusionar dos Pandas DataFrames en varias columnas. Afortunadamente, esto es fácil de hacer usando…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!