INFORME 2023 MERITOCRACIA Y EDUCACIÓN
una muestra y evaluar su rendimiento en otra independiente (i.e., la combinación de “sample splitting” y “out-of-sample prediction”) permite la posibilidad de comparar varios modelos y seleccionar aquel que ofrecen una mayor fiabilidad, reduciendo así el riesgo de “overfit - ting” o “underfitting”. En el Anexo B se puede encontrar una explicación más técnica sobre el tema. Si el lector se encuentra especialmente interesado, recomendamos además el artículo escrito por Mullainathan & Spiess (2017) que ofrece una introducción relativamente accesi- ble. Las técnicas de ML son particularmente adecuadas para estimar la desigualdad de oportunidades. Esto se debe a que construir la distribución contrafactual del rendimiento educativo es fundamentalmente “un problema de predicción”, que es exactamente lo que las técnicas de ML tratan de resolver. En este sen- tido, nuestra aproximación de ML se basa en obtener una predicción ŷ i del resultado de mate- máticas (nuestra variable objetivo) a través de las circunstancias C i de los estudiantes (nues- tras variables explicativas). Aunque el enfoque tradicional también realiza una predicción similar, las técnicas de ML nos permiten anali- zar interacciones de manera automática para considerar las circunstancias e interrelaciones más importantes y así ofrecer una predicción más precisa y fiable. En este ejercicio, construimos varios modelos de predicción que explican la relación entre el resultado en matemáticas y las circunstancias de los estudiantes de manera independiente para cada país. Posteriormente, utilizamos estos modelos para predecir el rendimiento educativo de cada estudiante en función de sus circunstancias. Para evaluar el desempe- ño de distintas técnicas de ML, consideramos varios tipos de algoritmos basados en la re- gularización (i.e., Ridge, Lasso y Elastic Net) y en la construcción de árboles (i.e., Regression
Tree, Random Forest y Boosting). Para evaluar las posibles ventajas del ML sobre el enfoque tradicional, también consideramos el análisis mediante regresión (OLS). Para describir la desigualdad de oportunidades, seleccionamos el modelo que ofrece el mejor rendimiento pre- dictivo (medido a través del R2) en cada país. Entre los algoritmos considerados, el algoritmo Boosting supera al resto de modelos en la gran mayoría de los casos (29/35 países). Pese a esta aparente superioridad del Boosting, preferimos seleccionar el algoritmo que me- jores predicciones ofrece para cada país a la hora de presentar y discutir los resultados. En el Anexo B se puede encontrar una explicación detallada de los distintos algoritmos, así como del procedimiento de “sample splitting” y de optimización de “hiperparámetros”. F2-Fase de medición de la des- igualdad: Construir un índice de DOp Una vez realizada la fase de estimación, se procede a computar un índice que resuma la DOp en cada país. Para ello, nos centramos en un índice ampliamente utilizado en la literatura de desigualdad de oportunidades educativas (Ferreira & Gignoux, 2014; Marrero et al., 2022): (DOP) =var ŷ /var(y) × 100, donde y representa el resultado observado en matemáticas de los estudiantes e ŷ la predic- ción del rendimiento según las circunstancias del alumnado (i.e. la puntuación que se estima que obtendría el estudiante si “solo importaran sus circunstancias”). El índice en cuestión tiene una interpretación intuitiva al capturar el por- centaje de la desigualdad total, capturada por la varianza del denominador, que se encuentra explicada por las circunstancias, capturada por la varianza en el numerador. 11
11.En circunstancias habituales, este indicador corresponde al coeficiente de determinación R2 de la regresión. Debido a nuestra aproximación de técnicas de ML y el uso de “sample-splitting” existen ciertas discrepancias (aunque modestas) entre el R2 y el DOp.
38
Made with FlippingBook - Online Brochure Maker