Aplicar Random Forest en un proyecto de inteligencia artificial

Este sistema de machine learning es clave para desarrollar sistemas inteligentes

¿Cuáles son las ventajas y desventajas de los Bosques Aleatorios en IA?

by Overstand Intelligence, 23/12/2022

Los Raondom Forests son una técnica de aprendizaje automático muy popular. Los también llamados Bosques Aleatorios tienen una capacidad de generalización muy alta para muchos casos. En este breve artículo veremos sus pros y contras.

¿Qué es un Random Forest?

Un Random Forest es un conjunto de árboles de decisión combinados con bagging. Al usar bagging, lo que en realidad está pasando, es que distintos árboles ven distintas porciones de los datos. Ningún árbol ve todos los datos de entrenamiento. Esto hace que cada árbol se entrene con distintas muestras de datos para un mismo problema. De esta forma, al combinar sus resultados, unos errores se compensan con otros y tenemos una predicción que generaliza mejor.

¿Cómo se combinan las predicciones?

Para problemas de clasificación, se suelen combinar los resultados de los árboles de decisión usando soft-voting (voto suave). En el voto suave, se le da más importancia a los resultados en los que los árboles estén muy seguros.
Para problemas de regresión, la forma más habitual de combinar los resultados de los árboles de decisión es tomando su media aritmética.
Dado que un random forest es un conjunto de árboles de decisión, y los árboles son modelos no-paramétricos, los árboles aleatorios tienen las mismas ventajas y desventajas de los modelos no-paramétricos:
Ventaja-> pueden aprender cualquier correspondencia entre datos de entrada y resultado a predecir
Desventaja-> no son buenos extrapolando … porque no siguen un modelo conocido

Limitaciones de los Árboles de Decisión

Los árboles de decisión tienen la tendencia de sobre ajustar (overfit). Esto quiere decir que tienden a aprender muy bien los datos de entrenamiento, pero su generalización no es tan buena. Una forma de mejorar la generalización de los árboles de decisión es usar regularización. Para mejorar mucho más la capacidad de generalización de los árboles de decisión, deberemos combinar varios árboles.

Pedir presupuesto