Mediciones del Random Forest
Este post fue publicado originalmente en Data Mining con R por noreply@blogger.com (Enmanuel Santana)
Para conocer la eficiencia de un modelo de Random Forest (ver detalle de randomForest AQUI), puede usarse las siguientes medidas, todas obtenidas con funciones incluidas en el package randomForest.
OOB error (out of bag error)
GRAFICAR ERROR DEL MODELO
Notas:
• En este gráfico existirán tantas lineas como cantidad de clases que se quieran predecir. En el ejemplo anterior solo hay dos: churn=si y churn=no. Cuando la predicción sea de un valor numérico (regresión), entonces solo se graficará la linea del OOB error.
• Cuando todas las lineas se superponen, indica que todas las medidas tienen mismo error y no tiene sentido idenficarlas.
• Estas lineas tienen otro significado si al crear el modelo se especifica el parametro ytest. Para detalle, ejecutar ayuda con ?plot.randomForest
IMPORTANCIA DE VARIABLES
varImpPlot(modelo.rf) Grafica importancia de las variables.
importance(modelo.rf) Imprime lista con importancia de variables.
Nota: para especificar la medida que usa para importancia, ver el parametro type, tanto en la funcion varImpPlot como en importance
ejemplo:
OTRAS MEDIDAS
getTree(modelo_rf, 1)
Imprime reglas de un arbol especifico del randomforest
partialPlot(modelo_rf, datos, total_day_charge, “yes”)
Grafíca los PCA de la matriz de proximidad. Para esto se debe especificar parametro proximity=T en la cracion del modelo así: modelo_rf <- randomForest(churn ~ ., data=datos,proximity=TRUE). Para detalle ver referencia No.2
Referencia
1. Coneptos sobre RandomForest: https://www.stat.berkeley.edu/~breiman/Using_random_forests_v4.0.pdf
2. Funcion MDSplot:
http://stats.stackexchange.com/questions/2344/best-way-to-present-a-random-forest-in-a-publication
3. Funcion partialPlot:
https://github.com/srisatish/randomForest/blob/master/R/partialPlot.R