Una simple introducción a los bosques aleatorios

Cuando la relación entre un conjunto de variables predictoras y una variable de respuesta es muy compleja, a menudo usamos métodos no lineales para modelar la relación entre ellas.

Uno de estos métodos son los árboles de clasificación y regresión (a menudo abreviado CART), que utilizan un conjunto de variables predictoras para construir árboles de decisión que predicen el valor de una variable de respuesta.

Ejemplo de un árbol de regresión que usa años de experiencia y jonrones promedio para predecir el salario de un jugador de béisbol profesional.

El beneficio de los árboles de decisión es que son fáciles de interpretar y visualizar. La reducción es que tienden a sufrir una gran variación . Es decir, si dividimos un conjunto de datos en dos mitades y aplicamos un árbol de decisión a ambas mitades, los resultados podrían ser bastante diferentes.

Una forma de reducir la varianza de los árboles de decisión es utilizar un método conocido como ensacado , que funciona de la siguiente manera:

1. Tome b muestras de arranque del conjunto de datos original.

2. Construya un árbol de decisiones para cada muestra bootstrap.

3. Promedio de las predicciones de cada árbol para llegar a un modelo final.

El beneficio de este enfoque es que un modelo empaquetado generalmente ofrece una mejora en la tasa de error de prueba en comparación con un árbol de decisión único.

La desventaja es que las predicciones de la colección de árboles en bolsas pueden estar altamente correlacionadas si hay un predictor muy fuerte en el conjunto de datos. En este caso, la mayoría o todos los árboles empaquetados usarán este predictor para la primera división, lo que dará como resultado árboles que son similares entre sí y tienen predicciones altamente correlacionadas.

Por lo tanto, cuando promediamos las predicciones de cada árbol para obtener un modelo final empaquetado, es posible que este modelo no reduzca mucho la varianza en comparación con un solo árbol de decisión.

Una forma de solucionar este problema es utilizar un método conocido como bosques aleatorios .

¿Qué son los bosques aleatorios?

De manera similar al ensacado, los bosques aleatorios también toman muestras b bootstrap de un conjunto de datos original.

Sin embargo, al construir un árbol de decisión para cada muestra bootstrap, cada vez que se considera una división en un árbol, solo una muestra aleatoria de m predictores se considera como candidatos divididos del conjunto completo de p predictores.

Entonces, aquí está el método completo que usan los bosques aleatorios para construir un modelo:

1. Tome b muestras de arranque del conjunto de datos original.

2. Construya un árbol de decisiones para cada muestra bootstrap.

  • Al construir el árbol, cada vez que se considera una división, solo una muestra aleatoria de m predictores se considera como candidatos de división del conjunto completo de p predictores.

3. Promedio de las predicciones de cada árbol para llegar a un modelo final.

Al usar este método, la recolección de árboles en un bosque aleatorio está descorrelacionada en comparación con los árboles producidos por ensacado.

Por lo tanto, cuando tomamos las predicciones promedio de cada árbol para llegar a un modelo final, tiende a tener menos variabilidad y da como resultado una tasa de error de prueba más baja en comparación con un modelo empaquetado.

Cuando usamos bosques aleatorios, normalmente consideramos predictores m = √ p como candidatos divididos cada vez que dividimos un árbol de decisión.

Por ejemplo, si tenemos p = 16 predictores totales en un conjunto de datos, normalmente solo consideramos m = √16 = 4 predictores como posibles candidatos de división en cada división.

Nota tecnica:

Es interesante notar que si elegimos m = p (es decir, consideramos todos los predictores como candidatos divididos en cada división), entonces esto es equivalente a usar simplemente ensacado.

Estimación del error fuera de la bolsa

De manera similar al ensacado, podemos calcular el error de prueba de un modelo de bosque aleatorio utilizando la estimación fuera de bolsa .

Se puede demostrar que cada muestra bootstrap contiene aproximadamente 2/3 de las observaciones del conjunto de datos original. El 1/3 restante de las observaciones que no se utilizaron para ajustarse al árbol se denominan observaciones fuera de la bolsa (OOB) .

Podemos predecir el valor de la i-ésima observación en el conjunto de datos original tomando la predicción promedio de cada uno de los árboles en los que esa observación fue OOB.

Podemos usar este enfoque para hacer una predicción para todas las n observaciones en el conjunto de datos original y así calcular una tasa de error, que es una estimación válida del error de prueba.

El beneficio de utilizar este enfoque para estimar el error de prueba es que es mucho más rápido que la validación cruzada de k veces , especialmente cuando el conjunto de datos es grande.

Los pros y contras de los bosques aleatorios

Los bosques aleatorios ofrecen los siguientes beneficios :

  • En la mayoría de los casos, los bosques aleatorios ofrecerán una mejora en la precisión en comparación con los modelos en bolsas y especialmente en comparación con los árboles de decisión únicos.
  • Los bosques aleatorios son resistentes a los valores atípicos.
  • No se requiere procesamiento previo para utilizar bosques aleatorios.

Sin embargo, los bosques aleatorios tienen los siguientes posibles inconvenientes:

  • Son difíciles de interpretar.
  • Pueden ser computacionalmente intensivos (es decir, lentos) para construir grandes conjuntos de datos.

En la práctica, los científicos de datos suelen utilizar bosques aleatorios para maximizar la precisión predictiva, por lo que el hecho de que no sean fácilmente interpretables no suele ser un problema.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, el análisis de regresión es una técnica que utilizamos para comprender la relación entre una variable predictora, x,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!