Revista Ceneval Investiga #6

6 REVISTA DE EVALUACIÓN E INVESTIGACIÓN EDUCATIVA Número 6 | 2022

LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

CENEVAL INVESTIGA

Revista de evaluación e investigación educativa Ceneval Investiga

Presentación

El Centro Nacional de Evaluación para la Educación Superior (Ceneval) tiene el agrado de presentar a la comunidad de académicos e investigadores en educación, evaluación y al público en general, como parte de su línea editorial digital sobre te - mas de evaluación e investigación educativa, el sexto número de la revista Ceneval Investiga . Se trata de una publicación periódica que aparece tres veces al año, que busca constituirse en un foro para mostrar investigaciones y ensayos realizados por personal del Ceneval y de otros especialistas, organismos e instituciones interesa - dos en temas de educación y evaluación educativa. En este número se presenta la entrevista que se realizó al Dr. Bernardo Gonzá - lez-Aréchiga, Secretario General de la Federación de Instituciones Mexicanas Parti - culares de Educación Superior ( FIMPES ), en la que destaca el importante papel que juega este organismo en el fomento de la calidad y acreditación de la educación superior. Por otro lado, se incluye un artículo, cuyo objetivo es ofrecer al lector un panorama general de lo que significa la puntuación de propensión y cuáles son sus usos. El autor expone un ejemplo sencillo y concluye que con estos puntajes se pueden conformar grupos balanceados y comparables para investigar efectos causales de eventos o tratamientos. En el segundo artículo se muestran los resul - tados del análisis de funcionamiento diferencial ( DIF ) de 120 reactivos del EXANI-II , según la modalidad de aplicación (en línea y desde casa). Los datos provienen de las respuestas de 5 959 sustentantes de este examen. Se emplearon tres métodos de detección, a través de los cuales se identificó que el 1.7% de los reactivos mostra - ron DIF moderado, por lo tanto, los autores afirman que la modalidad de aplicación no afecta el desempeño de los sustentantes, es decir, estos habrían obtenido el mismo resultado si lo hubieran contestado en línea o desde casa.

En esta ocasión, se hace una relatoría de lo que se mencionó en dos conferencias a las que asistió personal técnico del Ceneval, las cuales hacen referencia a: 1) la im - portancia del contexto sociocultural de la evaluación con énfasis en la diversidad y la equidad, y cómo estos aspectos influyen en la forma en que los estudiantes inter - pretan y responden los reactivos, y 2) los retos a los que se enfrentaron las agencias evaluadoras ante la pandemia por covid-19 y la responsabilidad social que tienen respecto a difundir los alcances y limitaciones de las evaluaciones a gran escala. La primera conferencia fue organizada por el National Council on Measurement in Edu - cation ( NCME ) y la segunda por la Association of Test Publishers ( ATP ). Nuevamente, se invita a los académicos e investigadores interesados en los te - mas de esta revista a enviar sus colaboraciones a: revista.investigacion@ceneval. edu.mx , para que sean evaluadas e incluidas en los números subsecuentes de esta publicación. El propósito es que la revista de evaluación e investigación educativa Ceneval Investiga se constituya en un instrumento más que contribuya a nuestro mandato social, la mejora de la calidad educativa en nuestro país.

Antonio Ávila Díaz Director General del Ceneval

CENEVAL INVESTIGA | REVISTA DE EVALUACIÓN E INVESTIGACIÓN EDUCATIVA

D.R. © 2022 Centro Nacional de Evaluación para la Educación Superior, A.C. (Ceneval) Av. Camino al Desierto de los Leones 19

Col. San Ángel, Alc. Álvaro Obregón C.P. 01000, México, Ciudad de México www.ceneval.edu.mx

Octubre de 2022

Contenido

08 Entrevista al Dr. Bernardo González-Aréchiga. Secretario General de la FIMPES

38 16 28 52

Métodos alternativos para estudios observacionales en investigación educativa: puntuación de propensión y emparejamiento para estimar efectos causales

Comparabilidad en las aplicaciones remotas y presenciales del EXANI-II

Conferencia del NCME 2022: Contexto sociocultural de la evaluación

Seminario web del ATP 2021: Resalta tu valor. ¿Cómo los programas de evaluación estandarizada pueden demostrar de manera más efectiva su importancia, relevancia y propósito?

8

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

Entrevista al Dr. Bernardo González-Aréchiga. Secretario General de la FIMPES

La FIMPES y la calidad de la educación superior en México

El doctor Bernardo González-Aréchiga cuenta con una sólida trayectoria como académico e investigador. Ha colaborado en diversas instituciones educativas y del sector público. Durante nueve años estuvo al frente de la Rectoría Institucional de la Universidad del Valle de México y el último año fue vicepresidente académico de Laureate México. Fue vicepresidente del Con - sejo Directivo de la Federación de Instituciones Mexicanas Particulares de Educación Superior ( FIMPES ) de 2020 a 2022. Fue presidente de la Comisión Ejecutiva de Investigación de dicha federación desde el año 2020, liderando los trabajos de los académicos adscritos al Sistema Nacional de Investigadores que laboran en IES particulares. Desde el 15 de junio de este año es el secretario general de esta Federación. Es licenciado en Economía por el Tecnológico de Monterrey y maestro en Economía por la Universidad Essex en Inglaterra. Asimismo, obtuvo el grado de doctor en Economía por la Universidad del Sur de California. Ha participado en el área de investigación y docencia en diversas instituciones del sector público y privado; es autor de diez libros y de más de 60 artículos. Fue director de Estudios Económicos del Colegio de la Frontera Norte, director de Planeación y director general adjunto de Derivados en la Bolsa Mexicana de Valores, director general fundador de MexDer, coordinador de la Oficina de la Presidencia de la República para las Políticas Públicas, vocal independiente de la Junta de Gobierno del IPAB y director nacio- nal de EGAP del Tecnológico de Monterrey.

CENEVAL INVESTIGA 9

Agradezco la oportunidad de conversar con la comunidad del Ceneval y reflexionar sobre la formación de personas y profesionales en nuestro país. México enfrenta enormes retos sociales, ambientales y económicos que requieren de compe - tencias sólidas que habiliten a un número creciente de gradua - dos a impulsar los objetivos de desarrollo sostenible, en sus dimensiones humanas y técnicas.

¿Cuál es el propósito de la FIMPES?

La FIMPES busca promover la calidad académica y contribuir al desarrollo de nuestro país. Desde su fundación en 1982, ha promovido tanto el debate abierto y plural sobre la educación superior como el ejercicio educativo con libertad, creatividad y pluralismo. La federación agrupa actualmente a 113 instituciones de educación superior ( IES ) ubicadas en 31 estados de la Repúbli - ca Mexicana, que operan más de 420 campus y ofrecen más de 10 000 programas académicos para atender a 900 000 estudiantes de licenciatura y posgrado. La FIMPES integra a instituciones acreditadas laicas y de inspiración religiosa, de afiliación adventista, católica, judía, metodista y otras. Estas instituciones han adoptado modelos de educación presencial con amplias instalaciones de laboratorios y esce- narios para aprendizaje práctico, modelos de enseñanza a distancia o modelos híbridos. Muchas de ellas ofrecen opor - tunidades de internacionalización con dobles grados y micro - credenciales. Atienden a una gama muy amplia de estudiantes en términos de su origen. Lo que ha unido a estas instituciones es el compromiso con la calidad académica, la pertinencia educativa y los procesos formales de mejora continua. Un punto culminante en este es - fuerzo fue la formalización, en 1992, del Sistema de Acredita - ción Institucional, el primero en México y el mismo que desde

10

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

entonces continúa innovando y motivando a las IES participan - tes a seguir trabajando en la mejora continua. Con esto las ins - tituciones reconocen el valor de la evaluación externa, como son los exámenes de egreso de Ceneval, como instrumentos objetivos de evaluación. Las comisiones y grupos de trabajo de la FIMPES son tes- timonio de trabajo colegiado, debate abierto y plural, la bús - queda de buenas prácticas dentro y fuera de la federación. Estos grupos han promovido la vinculación internacional y la colaboración con las autoridades para el desarrollo de normas y políticas públicas. Hemos asumido un compromiso continuo con el fomento de la investigación, la internacionalización y el uso de la tecnología para la transformación digital, entre muchas otras áreas. En 40 años de historia, la FIMPES ha trabajado de manera cercana con la Asociación Nacional de Universidades e Insti - tuciones de Educación Superior ( ANUIES ), las universidades públicas, las escuelas preparatorias, las asociaciones de insti - tuciones educativas de todos los niveles, así como con la so - ciedad civil organizada. Por supuesto, la FIMPES trabaja para promover los intereses legítimos de sus afiliados.

¿Qué distingue a la FIMPES como una institución de acreditación de calidad?

La acreditación institucional promueve la autoevaluación sis - temática, la visita de pares visitadores y la gestión de procesos informados, ordenados y sostenidos de mejora continua. La acreditación se basa en evidencias y busca la congruencia entre las metas de la institución y sus acciones a lo largo de la cadena de valor académico.

CENEVAL INVESTIGA 11

Congruente con nuestros propósitos y nuestra responsabi- lidad, el Sistema de Acreditación FIMPES ha evolucionado en el tiempo de acuerdo con las necesidades sociales y las nue - vas tendencias educativas. Nuestro Sistema está fundado en y promueve valores como la integridad, la honestidad, la res - ponsabilidad, la legalidad, el sentido social, la transparencia y la equidad. Desde 1992, el Sistema de Acreditación FIMPES ha ope - rado de manera ininterrumpida y se ha convertido en un re - ferente de calidad entre las instituciones particulares y las autoridades educativas. A la fecha, es el único sistema de evaluación institucional no gubernamental de participación voluntaria en México. En los últimos 30 años, el Sistema ha transitado por cua - tro versiones. En todas ellas, se ha buscado la mejora y el aseguramiento de la calidad educativa en las instituciones participantes, por medio de la revisión de varios aspectos de la dinámica universitaria, tales como el nivel académico de la planta docente, la infraestructura de apoyo del aprendizaje y el desarrollo de programas de posgrado, investigación, di - fusión y extensión del conocimiento y la cultura, entre otros. La referenciación internacional ha sido una fuente sólida de aprendizaje para nosotros.

¿Qué deben cubrir las instituciones de educación superior particulares para afiliarse a la FIMPES?

Todas las instituciones interesadas deben demostrar que cuen - tan con reconocimiento de validez oficial de estudios en sus programas de nivel superior y que existe al menos una gene - ración de egresados con recepción profesional. Desde un ini - cio impulsamos los valores que mencionaba como centrales en nuestra acreditación institucional.

12

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

La FIMPES ofrece capacitación a los funcionarios de las ins - tituciones interesadas en ingresar, que incluye un autoestu - dio con base en 11 requisitos de elegibilidad. Este ejercicio les permitirá realizar un autodiagnóstico que los prepara para enfrentarse con éxito al Sistema de Acreditación como una experiencia significativa de fortalecimiento institucional. Las instituciones requieren demostrar su compromiso con la calidad y estar dispuestas a realizar, en caso necesario, inver - siones en áreas tales como infraestructura, software , equipos y laboratorios de apoyo académico, así como en la contratación de docentes con el perfil adecuado. El proceso de elegibilidad les permite, además, familiarizar - se con la metodología del proceso de autoestudio, así como identificar sus áreas de oportunidad.

¿Cómo se benefician las instituciones de educación superior al hacerse miembros de FIMPES?

En sus primeras cuatro décadas de historia, la FIMPES ha in - tegrado una comunidad incluyente, diversa e innovadora que promueve el respeto a la ciencia y la tecnología, las discipli - nas humanas y la convivencia social. Esta comunidad de 113 instituciones se compromete con la responsabilidad social y la integridad académica. La trayectoria y los logros de la FIMPES son fruto de las aportaciones de rectoras y rectores, directivos, funcionarios y académicos que generosamente han donado su tiempo y ex - periencia para el desarrollo de la federación y de las institu - ciones que han asumido un compromiso con la calidad de la educación superior.

CENEVAL INVESTIGA 13

La FIMPES se ha enfocado en el trabajo colegiado que per - mite desarrollar y compartir buenas prácticas con instituciones dentro y fuera de ella, en la vinculación con instituciones inter - nacionales en beneficio de estudiantes y universidades, en la colaboración con autoridades para el desarrollo de normas y políticas públicas y, por supuesto, en la representación de sus afiliados.

¿Qué es para la FIMPES una institución de educación superior de calidad?

Las instituciones de calidad son aquellas que cumplen con sus promesas y que cuentan con datos que les permiten de- mostrar los resultados de sus egresados, así como la calidad y congruencia entre la misión, visión y filosofía institucional. La calidad también se manifiesta en la alineación y coherencia de sus funciones y recursos con los fines institucionales. El Sistema de Acreditación de la FIMPES se construye sobre las premisas de integridad, capacidad y efectividad. Esto per - mite construir un soporte amplio y homogéneo de indicadores y evidencias, con los que se valida la alineación de las funcio - nes de planeación y normativa, los programas y el personal académico, los estudiantes y los servicios estudiantiles, y los recursos físicos y financieros.

14

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

¿Cómo debería ser un sistema de evaluación para la educación superior en México y cómo impactaría a este tipo educativo en los próximos años? Un sistema de evaluación y acreditación de la educación supe - rior para la mejora continua debe ser un proceso permanente y abierto. Por simplicidad, es conveniente pensar en que ocurre en tres fases sucesivas; la primera debe promover la reflexión y autoestudio serio, seguido de una fase de evaluación y valida - ción externa para la retroalimentación. El rediseño y la mejora cierran el ciclo, que reinicia nuevamente. El proceso debe estar basado en evidencias validadas objetivamente, que incorporen una cantidad relevante de datos aportados por terceros con criterios objetivos (como los exámenes de egreso, la empleabi - lidad de los egresados, la obtención de certificados, etcétera). Es importante que los datos sean homogéneos y compara - bles. Conviene facilitar la integración de índices y otras métri - cas que permitan entender la evolución de la propia institución y la comparación con entidades relevantes. El sistema debe ser integral, en el sentido de aportar una visión completa de procesos y factores que inciden en el cum - plimiento de la misión institucional. Se deben analizar conjun - tamente las funciones sustantivas de la universidad (docencia, investigación, difusión y extensión) considerando sus determi - nantes básicos como su planta profesional, su infraestructura de apoyo, así como los procesos formativos y de ejecución de programas. Sin pretender ser exhaustivos, la evaluación y acreditación deben incluir la visión sistémica de los siguientes elementos: órganos de gobierno, misión, visión, planes y programas (en sus funciones sustantivas), atención a estudiantes, desempeño de egresados. Considero que es una buena práctica de la acredi - tación seguir la cadena de excelencia/calidad, para adoptar una visión tanto integral como dinámica que facilite la innovación.

CENEVAL INVESTIGA 15

Los valores institucionales (inclusión; respeto a las personas y respeto profundo al conocimiento, a la ciencia y al método científico, además de la equidad) y los compromisos sociales son factor básico del análisis y acción. La prueba de fuego de un sistema de acreditación es su con - tribución a la mejora continua y a la formación de una cultura de calidad, servicio y evidencia en las instituciones evaluadas. Un buen sistema de acreditación rechaza cualquier forma de burocratismo y verticalidad. La participación de múltiples ac - tores y la adopción de criterios sociales, educativos y técnicos son indispensables. El fin último de la educación debe estar siempre presente. La inclusión, apertura y calidad en la gestión de la innovación son atributos que se deben subrayar en el proceso de revisión y retroalimentación. El sistema de acreditación en sí mismo debe ser claro y exi - gente, pero también abierto y flexible para la mejora continua.

16

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

Métodos alternativos para estudios observacionales en investigación educativa: puntuación de propensión y emparejamiento para estimar efectos causales

Said Enrique Jiménez Pacheco Dirección de Investigación, Calidad Técnica e Innovación Académica, Ceneval

los estudiantes o 3) investigar si las modalida - des de los exámenes (impreso versus en línea) tienen algún efecto sobre el desempeño de los sustentantes. En estos ejemplos, los inves - tigadores no tienen influencia sobre los fenó - menos, es decir, no pueden controlar el nivel socioeconómico de las personas, la emergencia de la pandemia o la preferencia por un examen impreso versus en línea. Esta falta de control de los eventos contrasta con los estudios experi - mentales, en los que los investigadores sí pue - den intervenir directamente en los fenómenos; por ejemplo, cuando se investiga el efecto de una vacuna, se proporciona intencionalmente la sustancia a un grupo y se compara con otro

Antecedentes

Los estudios observacionales o no experimen - tales buscan medir relaciones entre variables sin que los investigadores intervengan o ma - nipulen su comportamiento. Ejemplos de estas investigaciones son 1) evaluar la relación entre el nivel socioeconómico de las personas y su rendimiento escolar, 2) medir el impacto de la pandemia de covid-19 sobre el aprendizaje de

CENEVAL INVESTIGA 17

que solo recibe un placebo, siempre y cuando los grupos sean comparables, cualquier diferencia observada es atribuible al efecto de la vacuna.

Manipulación de variables y conformación de grupos comparables

Una de las maneras en las que los investigadores manipulan las variables es la asignación aleatoria de un tratamiento; 1 en el ejemplo de la vacuna o placebo, la asignación aleatoria im - plica que todos los participantes en el estudio tienen la misma oportunidad (la misma probabilidad) de recibir tanto la vacuna como el placebo. La consecuencia de esta asignación aleato - ria es que las características observadas (el sexo, la edad, el nivel socioeconómico) y no observadas (las creencias de las personas, sus habilidades o predisposición genética) se distri - buyan de manera similar entre el grupo que recibe la vacuna y el que recibe el placebo. En otras palabras, la asignación aleatoria logra que el porcentaje de mujeres que reciben la vacuna sea similar al que recibe el placebo; logra que el pro - medio de edad de un grupo sea similar al del otro grupo, con - sigue que el estado de salud, el nivel socioeconómico y otras características observadas o no observadas (covariables) que pudieran afectar la respuesta se distribuyan de manera seme - jante entre los grupos. Esta distribución de las características permite comparar de manera justa a los grupos, de modo que cualquier diferencia entre las personas se podría adjudicar con amplia certeza a que recibieron la vacuna y no a que las personas ya diferían entre sí antes de la intervención.

1 En los estudios experimentales la asignación de un tratamiento implica realizar una interven - ción en un grupo y compararlo contra otro sin intervención, mientras que en los estudios ob - servacionales se habla de tratamiento cuando un grupo se expuso a una condición que ocurrió de manera “natural” (sin intervención) y se compara contra otro grupo que no se expuso a tal condición.

18

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

La característica de manipulación intencional y la asignación aleatoria hace que tradicionalmente solo se les adjudique a los estudios experimentales la posibilidad de responder por las causas de los fenómenos. Sin embargo, la asignación aleatoria de los tratamientos frecuentemente no se puede realizar por cuestiones éticas o simplemente porque las variables son im - posibles de manipular; cuando esto sucede, los estudios obser - vacionales cobran relevancia, ya que se podría considerar que es la “naturaleza” la que asigna los tratamientos, por ejemplo, los niveles socioeconómicos de las personas, la emergencia de la pandemia por covid-19 o la modalidad de aplicación del examen, lo que da la posibilidad de estudiar fenómenos que no podrían investigarse con la metodología experimental. Bajo la óptica no experimental, los investigadores también podrían estar interesados en evaluar el impacto causal de al - gún evento (o tratamiento) sobre un comportamiento, desen - lace o efecto; sin embargo, por la imposibilidad de la asigna - ción aleatoria, se presenta el reto de distinguir entre el efecto del tratamiento y el efecto de otras variables del contexto. Por ejemplo, si un estudio encontrara que el aprendizaje de los estudiantes de primaria antes de la pandemia es mayor que el aprendizaje de los estudiantes de primaria durante la pandemia, no sería adecuado concluir que las diferencias se deben solamente a la presencia del covid-19, podría ser que antes de la pandemia los estudiantes se distraían menos con el uso de dispositivos electrónicos y redes sociales, que au - mentó drásticamente durante el confinamiento; otra posibili - dad entre muchas, es que la cantidad de situacio nes estresan- tes fue mucho mayor durante la pandemia que antes de ella, lo que resultó incompatible con el aprendizaje y desempeño de los estudiantes. Entonces, para hacer una comparación justa entre el aprendizaje de los estudiantes de primaria antes de la pandemia y durante la pandemia, se debería cuidar que los grupos tuvieran en promedio un nivel similar de uso de redes sociales, o que experimentaran un nivel semejante de estrés,

CENEVAL INVESTIGA 19

de lo contrario, las diferencias en el aprendizaje podrían ad - judicarse a diferencias significativas en estas u otras caracte - rísticas contaminantes. Una manera de reducir las diferencias iniciales entre los grupos a comparar es el uso de estrategias de emparejamiento, entre las que destacan las que utilizan la puntuación de propensión. El objetivo del presente escrito es definir la puntuación de propensión y describir sus usos en el diseño de estudios observacionales que permitan lograr com- paraciones causales ajustando estadísticamente por diferen - cias en características de las personas del estudio.

Puntuación de propensión

Técnicamente, esta puntuación se refiere a la probabilidad con - dicional de recibir el tratamiento dadas las características ob - servadas de los participantes. 2 En otras palabras, la puntuación de propensión describe la relación (o contribución) que tienen las características registradas de los participantes (como la edad, el sexo, el nivel socioeconómico, el tiempo que utilizan dispositivos electrónicos, etcétera) en la posibilidad de haber sido expuesto al tratamiento. La puntuación de propensión permite diseñar y analizar estudios observacionales, de modo que se imiten algunas de las características particulares de los estudios experimentales con asignación aleatoria. Específica - mente, la puntuación de propensión es una puntuación de ba - lance, es decir, si la puntuación de propensión es similar entre los grupos de personas expuestas y no expuestas al tratamien - to, la distribución de las características observadas en la línea base 3 también será similar. 4

Rosenbaum y Rubin (1983).

2

3 La condición de línea base se refiere al estado original de las personas, antes de haber sido intervenidas o antes de haber sido expuestas a la condición que se desea estudiar.

Austin (2011).

4

20

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

Tanto los estudios experimentales como los observacio - nales tienen puntuación de propensión, en los estudios ex - perimentales el investigador controla la probabilidad de que los participantes reciban el tratamiento; sin embargo, en los estudios observacionales esta probabilidad no depende del investigador, aunque sí puede ser estimada con los datos dis - ponibles. En la práctica, la puntuación de propensión se pue - de calcular con un modelo de regresión logística, que incluye como respuesta una variable dependiente binaria (por ejem- plo, que tome valores de 0 o 1), que indica si el sujeto recibió o no el tratamiento, e incluye como predictores las caracterís - ticas observadas en los participantes. Por ejemplo, si el obje - tivo fuera determinar si la modalidad del examen tiene algún efecto en el desempeño de los sustentantes, para obtener la puntuación de propensión utilizaríamos la modalidad en que el sustentante realizó el examen (impreso o en línea) como varia - ble de respuesta, y como predictores se incluirían las caracte - rísticas observadas, como el sexo, la edad, el lugar de origen, u otras variables registradas disponibles que pudieran tener un efecto sobre el desempeño. La motivación detrás de la puntuación de propensión se ilustra al considerar el escenario en que las personas del gru- po con tratamiento son similares a las personas del grupo sin tratamiento, tanto en las características observadas como en las no observadas (tal como se logra con la asignación alea- toria). En un estudio no experimental los investigadores ne- cesitarían localizar una persona sin tratamiento que tuviera las características más similares posibles a una persona con tratamiento, por ejemplo, si uno de los individuos expuestos al tratamiento fuera un hombre de 22 años de la licenciatura en enfermería que realizó su examen en la modalidad en línea, el individuo para comparar debería también ser un hombre de 22 años, estudiante de licenciatura en enfermería, pero que realizó su examen en la modalidad impresa. Si lo anterior se aplicara para cada sujeto del grupo con tratamiento (en el

CENEVAL INVESTIGA 21

ejemplo, si se aplicara a todos los sustentantes del examen en línea), cualquier diferencia entre las puntuaciones de los gru - pos podría atribuirse a la modalidad de aplicación del examen y no a otra característica de línea base que contaminara el estu- dio (como el sexo, edad, nivel socioeconómico). En la práctica sería inviable localizar la pareja perfecta para cada individuo del grupo con tratamiento, principalmente porque usualmente existen pocos individuos potencialmente comparables y exis - ten múltiples covariables que se deberían explorar para lograr un buen emparejamiento. 5 La puntuación de propensión agi- liza la tarea porque colapsa todo el conjunto de características observadas en la línea base en un solo resumen estadístico (la puntuación de propensión), de modo que se puede emparejar a cada individuo del grupo con tratamiento con otro del grupo sin tratamiento que posea una calificación igual o similar en la puntuación de propensión. Así, un conjunto de individuos tratados y no tratados que comparten un puntaje similar de propensión, también tendrán una distribución semejante en las características observadas (las covariables) en la línea base .

Emparejamiento con la puntuación de propensión

El uso más común de la puntuación de propensión es el em - parejamiento uno-a-uno, que consiste en que un individuo del grupo con tratamiento se empareja con otro individuo del grupo sin tratamiento que posea una puntuación similar de propensión. Este método conforma pares de sujetos de modo que cada individuo tratado tenga un individuo no tratado para compararse. La manera de localizar al individuo con la puntuación de propensión más parecida se basa en calcular la distancia absoluta entre la puntuación de propensión de

Stuart y Green (2008).

5

22

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

dos individuos (uno con tratamiento y otro sin tratamiento) y después seleccionar como pareja aquellos que tengan la dis- tancia más corta entre sus puntajes de propensión. Considere los datos hipotéticos mostrados en la Tabla 1, los cuáles muestran las puntuaciones de propensión para 4 indivi - duos con tratamiento y 5 individuos sin tratamiento. El método de emparejamiento uno-a-uno con el algoritmo greedy nearest neighbor empezaría con el individuo A y simplemente buscaría cuál de los individuos sin tratamiento tendría la puntuación más similar, para así conformar la mejor pareja. Lo anterior llevaría a constituir las parejas: {Ab}, {Bd}, {Ce} y {Dc}, que tendrían una distancia global de .17 (0 + .01 + .01 + .15 = .17). Mientras, el algoritmo de emparejamiento uno-a-uno optimal nearest neigh - bor encontraría el mejor par de parejas que minimice la medida de la distancia global, lo que llevaría a seleccionar las parejas: {Ab}, {Bc}, {Cd} y {De}, que tendría una distancia global de .13 (0 + .02 + .10 + .01 = .13).

Tabla 1. Datos hipotéticos para mostrar los métodos de emparejamiento

Grupo con tratamiento

Grupo sin tratamiento

Puntuación de propensión

Puntuación de propensión

Individuo

Individuo

A

0.42

a

0.44

B

0.35

b

0.42

C

0.24

c

0.37

D

0.22

d

0.34

e

0.23

CENEVAL INVESTIGA 23

Los dos métodos anteriores dejan a un individuo del gru - po sin tratamiento sin emparejar, lo que plantea un dilema entre el sesgo y la varianza. Por un lado, disminuye el sesgo al comparar el grupo con y sin tratamiento, ya que después del emparejamiento tienen menos distancia entre sus puntua - ciones de propensión. Sin embargo, al descartar individuos del grupo sin tratamiento aumentaría la varianza, porque se analizarían relativamente menos sujetos y lo anterior llevaría a disminuir la confianza en la comparación entre los grupos. Por otra parte, aunque no fue el caso en la tabla 1, también puede ocurrir que personas del grupo con tratamiento se queden sin emparejar, lo que podría aumentar el sesgo y plantear dificul - tades en la interpretación, principalmente porque no todos los individuos tratados serían analizados.

Emparejamiento completo

Un método más flexible que los mencionados en la sección anterior es el método de emparejamiento completo ( full mat - ching ), el cual tiene la ventaja de utilizar todos los datos dispo - nibles al conformar grupos de individuos emparejados, en los que por lo menos existe un individuo tratado y por lo menos un individuo sin tratar para la comparación. El emparejamien- to completo conforma los grupos de manera óptima, de modo que si un individuo tratado tiene múltiples parejas potenciales (i.e. personas con puntuación de propensión similar), se define un conjunto que se constituye por un individuo tratado y múl - tiples no tratados. Asimismo, si un individuo no tratado tiene pocas parejas potenciales, sería agrupado con relativamente menos individuos. Con los datos de la tabla 1, el empareja - miento completo daría los siguientes conjuntos: {Aab}, {Bcd} y {CDe}, que tendrían una distancia global de .07 (.02 + 0 + .02 + .01 + .01 + .01 = .07). Así, se observa que el método de

24

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

emparejamiento completo, permite la creación de conjuntos correctamente emparejados y que también utiliza todos los da - tos disponibles.

Estimación de efectos causales

El objetivo primordial de los métodos de emparejamiento es disminuir el sesgo en la estimación del efecto del tratamiento. Así que la primera tarea del investigador después de realizar el emparejamiento será evaluar el balance de las características de línea base (i.e. las covariables) entre el grupo de individuos con y sin tratamiento. Si las covariables continúan desbalancea - das luego de aplicar la técnica de emparejamiento, esto sería un indicador de que la estrategia no fue exitosa y que se debería probar una especificación distinta. 6 Para medir el nivel de ba- lance de las covariables entre los grupos se podrían utilizar las siguientes dos medidas: › Diferencias estandarizadas de los promedios: se trata de la diferencia en las medias de cada covariable entre el gru - po con y sin tratamiento, las cuales son estandarizadas por un factor (la desviación estándar del covariado en el grupo con tratamiento) para que todas las covariables se presen- ten en la misma escala. › Razones entre las varianzas: se refiere a la razón entre la varianza de una covariable en el grupo de tratamiento y la varianza de la misma covariable en el grupo sin tratamiento. Si las razones son cercanas a 1, esto indicaría que hay un balance adecuado, ya que las varianzas de las muestras son similares. 7

Ho et al. (2007) y Stuart (2010).

6

Austin (2009).

7

CENEVAL INVESTIGA 25

Posterior a la verificación del balance de las características de línea base , la estimación de los efectos causales del trata - miento se podría realizar con un modelo de regresión lineal (o generalizado, dependiendo de la naturaleza de la variable de respuesta). El modelo debería incluir los predictores utilizados para crear el puntaje de propensión, con el fin de ajustar por cualquier diferencia residual en la distribución de las covaria - bles. Asimismo, el modelo debería incorporar mediciones de la precisión relativa de las estimaciones causales obtenidas tras el emparejamiento. Para este punto, una sugerencia es usar errores estándar robustos, los cuales resisten violaciones de algunos de los supuestos para el cálculo habitual de los erro - res estándar. La descripción detallada de estos procedimientos sobrepasa el objetivo del presente documento por lo que se sugiere a los interesados revisar la documentación del paquete MatchIt de R. 8

Ho et al. (2011).

8

26

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

Conclusión

El uso de la puntuación de propensión para conformar grupos balanceados es fundamental en el contexto de los estudios ob - servacionales porque permite investigar efectos causales de eventos o tratamientos, aunque los investigadores no los hayan asignado aleatoriamente a las personas. En el Ceneval existen múltiples preguntas causales que pudieran plantearse, por ejem - plo, ¿qué efecto tiene recibir una beca escolar sobre el desempe - ño de los estudiantes en el EGEL ?, ¿existen diferencias entre los sustentantes que tiene padres que hablan una lengua indígena y los que no? o ¿los alumnos que tienen un desempeño satisfac - torio en el EGEL difieren de los que no lo tienen en términos de su motivación o estrategias de estudio? Estos son algunos de los problemas que pueden explorarse con estudios observacio - nales en los que la puntuación de propensión ayudaría a ajustar las diferencias entre los grupos por comparar y permitiría obte - ner una medición objetiva de los efectos de los tratamientos, inclusive ante problemas y fenómenos que por su complejidad probablemente no podrían ser estudiados desde la metodología experimental.

CENEVAL INVESTIGA 27

Lecturas recomendadas

Austin, P. C. (2009). Balance diagnostics for comparing the distribution of baseline covariates between treatment groups in propensity-score matched samples. Statistics in Medicine, 28 (25), 3083–3107. https://doi. org/10.1002/sim.3697. Austin, P. C. (2011). An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate Behavioral Research, 46 (3), 399–424. https://doi.org/10.1080/00273171 .2011.568786 . Ho, D. E., Imai, K., King, G., & Stuart, E. A. (2007). Matching as nonparametric preprocessing for reducing model dependence in parametric causal inference. Political Analysis, 15 (3), 199–236. https://doi.org/10.1093/ pan/mpl013 . Ho, D. (2011). MatchIt: nonparametric preprocessing for parametric causal inference 42. https://doi.org/10.18637/jss.v042.i08 . Rosenbaum, P. R., & Rubin D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70 (1), 41– 55. https://doi.org/10.1093/biomet/70.1.41 . Stuart, E. A. (2010). Matching methods for causal Inference: a review and a look forward. Statistical Science, 25 (1). https://doi.org/10.1214/09- sts313 . Stuart, E. A., & Green, K. M. (2008). Using full matching to estimate causal effects in nonexperimental studies: examining the relationship between adolescent marijuana use and adult outcomes. Developmental Psychology, 44 (2), 395–406. https://doi.org/10.1037/0012-1649.44.2.395 .

28

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

Comparabilidad en las aplicaciones remotas y presenciales del EXANI-II Hasta principios de 2020, el Ceneval con - taba únicamente con dos modalidades de apli- cación: examen impreso en lápiz y papel y en línea; sin embargo, en mayo de ese año, deriva - do de la pandemia por covid-19, se desarrolló la modalidad de aplicación de examen desde casa, la cual se realiza en computadora de la misma forma que el examen en línea, pero de manera remota, con la finalidad de que los sus - tentantes puedan presentar los exámenes sin acudir a una sede de aplicación. Si bien la visualización de los reactivos en las modalidades de aplicación en línea y desde casa es igual, existen ciertas diferencias para procurar la seguridad de las pruebas y la va- lidez de los resultados. En el examen desde casa se utiliza un navegador seguro que impide que los sustentantes ingresen a páginas web, programas o funcionalidades mientras contes - tan la prueba. Asimismo, es necesario que el sustentante conecte el micrófono y la cámara

Lilian Fátima Vidal González Yazmín Pacheco Leyva Genaro Galindo Cortés Dirección de los Exámenes Nacionales de Ingreso, Ceneval

Introducción

El Centro Nacional de Evaluación para la Edu- cación Superior (Ceneval) surge hace 28 años como una agencia de evaluación externa en la que, mediante una metodología propia, se dise - ñan, aplican y califican diferentes instrumentos de evaluación. Dentro de éstos, se encuentran las pruebas a gran escala de tipo normativo y criterial, como los Exámenes Nacionales de Ingreso ( EXANI ) dirigidos a sustentantes que aspiran a ingresar a instituciones de nivel edu - cativo medio superior, superior o de posgrado: EXANI-I , II y III , respectivamente.

CENEVAL INVESTIGA 29

de su computadora. Otra característica de esta modalidad es que, una vez que el sustentante contesta el reactivo y avanza al siguiente, no puede regresar a visualizar los anteriores ni a cambiar sus respuestas, es decir, solo puede ver el reactivo que está contestando. Esto es de suma importancia, ya que podría marcar un funcionamiento diferencial en los reactivos y afectar la equidad de los procesos de evaluación.

Metodología

Para este estudio se analizaron las respuestas del EXANI - II (Ad - misión y Diagnóstico) de 5 959 sustentantes provenientes de seis entidades de la República Mexicana ubicadas en las regio - nes norte, centro y sur, distribuidos en las dos modalidades de aplicación conforme a lo que se muestra en la siguiente tabla (véase la Tabla1).

Tabla 1. Sustentantes del EXANI-II en 2022 por modalidad de aplicación

Sustentantes

1 101

18%

4 858

82%

Se realizó un análisis de funcionamiento diferencial de re - activos por cada área del examen: Pensamiento matemático, Comprensión lectora, Redacción indirecta, Inglés compren - sión de lectura e Inglés redacción indirecta. Para tal fin, se contrastaron dos grupos de sustentantes, según la modali - dad de aplicación elegida: Examen en línea (grupo de refe - rencia) y Examen desde casa (grupo focal). Se seleccionó un

30

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

tipo de efecto uniforme sin proceso de purificación de re - activos por medio de los siguientes métodos de detección: Mantel-Haenszel, Lord ( IRT-1PL ) y Raju ( IRT-1PL ), mediante la paquetería difR Collection of methods to detect dichotomous differential item functioning ( DIF ) in psychometrics 9 de R . 10 Los reactivos que se identificaron con funcionamiento diferencial en al menos un método se marcaron con DIF con categoría B o C, de acuerdo con la clasificación del tamaño del efecto del Educational Testing Service ( ETS ) (véase la Tabla 2). Posterior - mente, éstos fueron revisados por especialistas en el conteni - do con la finalidad de detectar algún problema cualitativo que pudiera influir en su comportamiento.

Tabla 2. ETS: Clasificación de DIF

Tamaño de efecto

Categoría

Descripción

A

DIF No significativo

B

DIF Leve a moderado

C

DIF Moderado a alto

Nota : Adaptado de Zwick (2012).

Resultados

De los 120 reactivos analizados, siete presentaron un fun - cionamiento diferencial entre las modalidades de aplicación (5.8% de la prueba); sin embargo, únicamente dos fueron identificados con un DIF ubicado en la categoría de moderado a alto en los tres métodos utilizados. Estos reactivos (1.7%)

Magis, Beland y Raiche (2013).

9

R Core Team (2018).

10

CENEVAL INVESTIGA 31

pertenecen a las áreas de Comprensión lectora y Redacción indirecta, respectivamente. A continuación, se muestra la ca - tegoría del DIF , la Delta de MH , de Lord y de Raju, los paráme - tros de dificultad estimados y las curvas características de los reactivos (véanse la Tabla 3 y la Tabla 4).

Tabla 3. Reactivos identificados con un comportamiento diferencial en los tres métodos utilizados

Reactivo

Área

Mantel-Haenszel

Lord

Raju

Grupo favorecido

CLo16237

Comprensión lectora

B

B

B

En línea

CLo12344

Comprensión lectora

C

C

C

En línea

CLo12304

Comprensión lectora

A

B

B

En línea

RIo12393 Redacción indirecta

B

B

B

En línea

RIo12431 Redacción indirecta

C

C

C

Desde casa

RIo12475 Redacción indirecta

A

B

B

Desde casa

PMo17168 Pensamiento matemático

A

B

B

En línea

Tabla 4. Delta y parámetro de dificultad de los reactivos identificados con un comportamiento diferencial en los tres métodos utilizados

Reactivo

Área

deltaMH

deltaRaju

deltaLord

b Línea

b Desde casa

CLo16237

Comprensión lectora

-1.2156

-1.2295

-1.2295 -1.0552

-0.3277

CLo12344

Comprensión lectora

-1.7544

-1.8386

-1.8386 -2.3203 -1.3344

CLo12304

Comprensión lectora

-0.7562

-1.0204

-1.0204 -3.0573 -2.4190

RIo12393 Redacción indirecta

1.0321

-1.0916

-1.0916 -1.3832

-0.7909

RIo12431 Redacción indirecta

1.8591

1.8478

1.8478 -0.3116

-0.9701

RIo12475 Redacción indirecta

0.8635

1.0239

1.0239

0.0331 -0.2747

PMo17168 Pensamiento matemático

-0.9981

-1.042

-1.042 -2.2138 -1.5637

32

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

De acuerdo con la tabla anterior, dado el tamaño del efecto estimado para cada reactivo, cinco de siete presentan un DIF leve. › Para los reactivos CLo12304, RIo12475 y PMo17168, el valor estimado es pequeño y se encuentra muy cercano al límite inferior del intervalo de para la descripción de DIF leve a moderado en los métodos de Lord y Raju. › El reactivo RIo12393, de acuerdo con los tres métodos, tie - ne un tamaño del efecto muy cercano a 1, aunque superior a este valor en los tres métodos. › El reactivo CLo16237 tiene un tamaño del efecto por arriba de 1 de acuerdo con los tres métodos. En cuanto a los valores de dificultad estimados para cada grupo éstos son cercanos, lo cual se puede observar median - te el desplazamiento de las curvas características y el área entre ellas (véase la Figura 1). Por último, para dos de los siete reactivos, la estimación del tamaño del efecto está por arriba de 1.5 lo que describe un DIF moderado, aunque cada reactivo favorece a un grupo: Examen en línea o Examen desde casa.

CENEVAL INVESTIGA 33

Figura 1. Curvas características de los reactivos identificados con un comportamiento diferencial

CLo16237

CLo12344

Reference

Reference

Focal

Focal

-4

-2

0 Ѳ

2

4

-4

-2

0 Ѳ

2

4

CLo12304

CLo12393

Reference

Reference

Focal

Focal

-4

-2

0 Ѳ

2

4

-4

-2

0

2

4

Ѳ

CLo12431

CLo12475

Reference

Reference

Focal

Focal

34

NÚMERO 6 | LA IMPORTANCIA DE LA EQUIDAD EN LA EVALUACIÓN EDUCATIVA

-4

-2

0 Ѳ

2

4

-4

-2

0

2

4

Ѳ

CLo12431

CLo12475

Reference

Reference

Focal

Focal

-4

-2

0 Ѳ

2

4

-4

-2

0

2

4

Ѳ

PMo17168

Reference

Focal

-4

-2

0 Ѳ

2

4

Page 1 Page 2 Page 3 Page 4 Page 5 Page 6 Page 7 Page 8 Page 9 Page 10 Page 11 Page 12 Page 13 Page 14 Page 15 Page 16 Page 17 Page 18 Page 19 Page 20 Page 21 Page 22 Page 23 Page 24 Page 25 Page 26 Page 27 Page 28 Page 29 Page 30 Page 31 Page 32 Page 33 Page 34 Page 35 Page 36 Page 37 Page 38 Page 39 Page 40 Page 41 Page 42 Page 43 Page 44 Page 45 Page 46 Page 47 Page 48 Page 49 Page 50 Page 51 Page 52 Page 53 Page 54 Page 55 Page 56 Page 57 Page 58 Page 59 Page 60 Page 61 Page 62 Page 63 Page 64

Made with FlippingBook - professional solution for displaying marketing and sales documents online