Meritocracia y Educación (versión ampliada)

INFORME 2023 MERITOCRACIA Y EDUCACIÓN

· Regression Tree (o árbol de regresión): El Regression Tree (en adelante, RT) es el pilar sobre el que se construyen todos los métodos basados en árboles, como el Random Forest o el Boosting. El RT es un algoritmo que genera una estructura jerár- quica dividiendo repetidamente los datos en diferentes conjuntos excluyentes según las variables explicativas. Cada división se rea- liza seleccionando una variable explicativa y hallando el umbral que mejor separa los datos en función de algún criterio de fiabi - lidad. Más concretamente, el árbol intenta encontrar todas las divisiones posibles para generar subconjuntos y elige aquella que más fiabilidad genera. Posteriormente, cada submuestra se trata como una nueva muestra y se repite el primer paso. Esto se repite hasta que se cumple algún criterio de parada, como alcanzar un número mínimo de observaciones en un nodo o no mejo- rar significativamente la precisión de las predicciones. Una vez se finaliza el proceso de división, se asigna a cada observación una predicción según la media en el nodo terminal u “hoja” a la que pertenece. Des- pués de construir el árbol, podemos tomar la decisión de podar el árbol ("prune the tree"). Esto implica eliminar algunas divi- siones innecesarias o poco relevantes para simplificar el modelo y evitar el sobreajuste. Al podar el árbol, reducimos su profundidad y complejidad, lo que puede ayudar a me- jorar la generalización y la interpretabilidad del modelo. Para tomar la decisión sobre podar el árbol utilizamos un proceso de CV quíntuple. · Random Forest (o bosque aleatorio): El Random Forest (en adelante, RF) es una técnica basada en “ensamblar” varios árbo- les de regresión independientes. En particu- lar, el RF construye varios árboles de regre- sión entrenando diferentes submuestras seleccionadas a través de “bootstrapping” (i.e., muestreo aleatorio con reemplazo). Para entrenar cada árbol de manera inde- pendiente, se selecciona de manera alea-

toria un conjunto de variables explicativas, lo que permite “decorrelar” los árboles y así mejorar las predicciones. Intuitivamente, cada árbol se construye de manera similar a un árbol de regresión habitual, dividien- do los datos en diferentes subconjuntos utilizando las variables explicativas selec- cionadas de forma aleatoria. Aquí es donde radica una de las mejoras principales del RF: en cada división, solo se considera un subconjunto aleatorio de variables expli- cativas para realizar la separación, lo que ayuda a reducir la correlación entre árboles y a mejorar la robustez del modelo. Una vez construidos todos los árboles, se toma la media de las predicciones de todos los árboles para construir la predicción. Debido a que el RF suele ofrecer bastantes buenas predicciones sin la necesidad de optimizar los “hiperparámetros”, empleamos dos aproximaciones complementarias. Por un lado, generamos un bosque empleando 1.000 árboles que utilizan k/3 variables explicativas, donde k es el número total de circunstancias (Tibshirani et al., 2017). Por otro lado, construimos un bosque utilizando CV quíntuple mediante “random grid search” que optimiza el número total de árboles, número de predictores, la profundidad total de los árboles y la proporción de muestreo. · Boosting (o potenciación del gradiente): “Gradient boosting” es un algoritmo de aprendizaje automático que construye un modelo predictivo mediante la combinación de varios árboles de regresión en forma secuencial. La aproximación del Boosting difiere del RF en la forma de generar y agre - gar los distintos árboles de regresión. En lu- gar de producir muchos árboles completos y promediarlos, el Boosting construye los árboles de manera secuencial para intentar corregir los errores de predicción hallados en los árboles anteriores. Intuitivamente, el Boosting empieza por construir un árbol de regresión simple para obtener una predic- ción inicial. Sin embargo, esta predicción inicial probablemente contenga errores y no

77

Made with FlippingBook - Online Brochure Maker