Meritocracia y Educación (versión ampliada)

INFORME 2023 MERITOCRACIA Y EDUCACIÓN

Intuiciones técnicas básicas: ¿Qué es el ML y por qué es útil? El Machine Learning (ML) se refiere a la apli - cación de algoritmos capaces de ofrecer una predicción fiable de una variable objetivo en una nueva base de datos (“out of sample”) uti- lizando una serie de variables explicativas. Por ejemplo, podemos estar interesados en prede- cir los resultados en PISA y de un estudiante de acuerdo a sus características personales X. Para ello, las técnicas de ML estiman una función f (X) para conseguir una predicción y ̂ que sea lo más precisa posible en función de las variables explicativas. Esto se logra a través de un proceso computacional destinado a minimizar el error de predicción (medido, por ejemplo, a través del coeficiente de determina - ción o R2) en una nueva muestra de datos. Las técnicas econométricas convencionales (p.ej.: la regresión lineal) se consideran habitualmen- te métodos adecuados para realizar prediccio- nes. Entonces, ¿en qué se diferencia el ML y qué ventajas ofrece? Por un lado, se encuentra la capacidad del ML para explorar interacciones complejas sin requerir supuestos rígidos sobre la forma fun- cional de los modelos. El método estadístico por excelencia, la regresión lineal OLS, requiere tomar varias decisiones sobre el modelo de estimación. Consideremos nuestro ejemplo de intentar predecir los resultados en PISA. Para realizar dichas predicciones, OLS requiere decidir manualmente tanto la forma funcional de las variables continuas (¿lineal, cuadrática, cúbica…?) así como las interacciones entre las variables (p.ej.: ¿interactuamos el género y el nivel socioeconómico?). En situaciones donde el número de variables explicativas es elevado, este proceso es costoso y altamente arbitrario. Una de las principales ventajas del ML es precisamente su capacidad para relajar estas restricciones sobre las relaciones entre las variables. En lugar de asumir una forma específica para la relación entre las variables, el ML permite explorar automáticamente las

interacciones entre ellas. Esto significa que el algoritmo puede detectar patrones complejos y no lineales, identificando relaciones que po - drían pasar desapercibidas mediante el enfo- que tradicional. Por otro lado, se encuentra la técnica de “sample splitting” en el proceso de estimación. Una técnica común en ML es la división de la muestra en conjuntos de entrenamiento (training set) y prueba (test set). En el enfoque tradicional de "estimación dentro de la mues- tra" (in-sample estimation), se utiliza toda la muestra para ajustar el modelo y evaluar su desempeño. Sin embargo, esto puede llevar a problemas de “underfitting” (el modelo es demasiado simple y no captura las complejida- des de los datos) u “overfitting” (el modelo se ajusta demasiado a los datos de entrenamien- to y no generaliza bien a nuevos datos). Al se- parar la muestra en conjuntos de entrenamien- to y prueba, se puede evaluar el rendimiento del modelo en datos no vistos previamente. Esto ayuda a proporcionar una estimación más precisa del desempeño real del modelo en situaciones reales.

División de la muestra para predicción

El objetivo principal de la estimación es prede- cir el resultado en matemáticas de PISA según las circunstancias del alumnado (véase CUA- DRO 1 ). Para ello, entrenamos varios modelos de predicción utilizando distintos algoritmos. La construcción de estos modelos se realiza de manera independiente en cada país, ya que el impacto de las circunstancias puede variar entre los sistemas educativos. Para construir y evaluar la fiabilidad de los modelos de predicción, asignamos a los estudiantes de cada país a dos submuestras mutuamente excluyentes: muestra A y mues- tra B. Posteriormente, realizamos el proceso de estimación en dos fases. En primer lugar, entrenamos una serie de algoritmos en la muestra A para predecir los resultados del

75

Made with FlippingBook - Online Brochure Maker