Introducción a los árboles de clasificación y regresión

Cuando la relación entre un conjunto de variables predictoras y una variable de respuesta es lineal, métodos como la regresión lineal múltiple pueden producir modelos predictivos precisos.

Sin embargo, cuando la relación entre un conjunto de predictores y una respuesta es altamente no lineal y compleja, los métodos no lineales pueden funcionar mejor.

Un ejemplo de un método no lineal son los árboles de clasificación y regresión , a menudo abreviado CART .

Como su nombre lo indica, los modelos CART utilizan un conjunto de variables predictoras para construir árboles de decisión que predicen el valor de una variable de respuesta.

Por ejemplo, suponga que tenemos un conjunto de datos que contiene las variables predictoras Años jugados y jonrones promedio junto con la variable de respuesta Salario anual para cientos de jugadores de béisbol profesionales.

Así es como se vería un árbol de regresión para este conjunto de datos:

Ejemplo de un árbol de regresión

La forma de interpretar el árbol es la siguiente:

  • Los jugadores con menos de 4.5 años jugados tienen un salario previsto de $ 225.8k.
  • Los jugadores con más de 4.5 años jugados y menos de 16.5 jonrones promedio tienen un salario previsto de $ 577.6k.
  • Los jugadores con más de o igual 4.5 años jugados y mayor o igual a 16.5 jonrones promedio tienen un salario previsto de $ 975.6k.

Los resultados de este modelo deberían tener sentido intuitivamente: los jugadores con más años de experiencia y más jonrones promedio tienden a ganar salarios más altos.

Luego, podemos usar este modelo para predecir el salario de un nuevo jugador.

Por ejemplo, suponga que un jugador determinado ha jugado 8 años y promedia 10 jonrones por año. Según nuestro modelo, predeciríamos que este jugador tiene un salario anual de $ 577.6k.

Modelo CART

Un par de notas sobre el árbol:

  • La primera variable de predicción en la parte superior del árbol es la más importante, es decir, la más influyente en la predicción del valor de la variable de respuesta. En este caso, los años jugados son capaces de predecir el salario mejor que los jonrones promedio .
  • Las regiones en la parte inferior del árbol se conocen como nodos terminales . Este árbol en particular tiene tres nodos terminales.

Pasos para construir modelos CART

Podemos usar los siguientes pasos para construir un modelo CART para un conjunto de datos dado:

Paso 1: use la división binaria recursiva para hacer crecer un árbol grande en los datos de entrenamiento.

Primero, usamos un algoritmo codicioso conocido como división binaria recursiva para hacer crecer un árbol de regresión usando el siguiente método:

  • Considere todas las variables predictoras X 1 , X 2 ,…, X py todos los valores posibles de los puntos de corte para cada uno de los predictores, luego elija el predictor y el punto de corte de manera que el árbol resultante tenga el RSS más bajo (error estándar residual) .
    • Para los árboles de clasificación, elegimos el predictor y el punto de corte de modo que el árbol resultante tenga la tasa de clasificación errónea más baja.
  • Repita este proceso, deteniéndose solo cuando cada nodo terminal tenga menos de un número mínimo de observaciones.

Este algoritmo es codicioso porque en cada paso del proceso de construcción del árbol determina la mejor división a realizar basándose solo en ese paso, en lugar de mirar hacia adelante y elegir una división que conducirá a un mejor árbol general en algún paso futuro.

Paso 2: Aplique la poda de costo complejo al árbol grande para obtener una secuencia de los mejores árboles, en función de α.

Una vez que hemos hecho crecer el árbol grande, necesitamos podar el árbol usando un método conocido como poda de complejidad de costos, que funciona de la siguiente manera:

  • Para cada árbol posible con nodos terminales T, encuentre el árbol que minimiza RSS + α | T |.
  • Tenga en cuenta que a medida que aumentamos el valor de α, se penalizan los árboles con más nodos terminales. Esto asegura que el árbol no se vuelva demasiado complejo.

Este proceso da como resultado una secuencia de mejores árboles para cada valor de α.

Paso 3: utilice la validación cruzada de k-veces para elegir α.

Una vez que hayamos encontrado el mejor árbol para cada valor de α, podemos aplicar la validación cruzada de k veces para elegir el valor de α que minimice el error de prueba.

Paso 4: elige el modelo final.

Por último, elegimos que el modelo final sea el que corresponda al valor elegido de α.

Pros y contras de los modelos CART

Los modelos CART ofrecen las siguientes ventajas :

Sin embargo, los modelos CART vienen con la siguiente desventaja:

  • Tienden a no tener tanta precisión predictiva como otros algoritmos de aprendizaje automático no lineal. Sin embargo, al agregar muchos árboles de decisión con métodos como ensacado, refuerzo y bosques aleatorios, se puede mejorar su precisión predictiva.

Relacionado: Cómo ajustar árboles de clasificación y regresión en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

El sesgo de falta de respuesta es el sesgo que se produce cuando las personas que responden a una encuesta…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!