Prueba controlada aleatoria
Una RCT aleatoriza quién recibe un programa (o servicio, o píldora), el grupo de tratamiento, y quién no, el grupo de control. Luego compara los resultados entre esos dos grupos; esta comparación nos da el impacto del programa. Las RCT no necesariamente requieren un control "sin tratamiento"- la aleatorización se puede usar con la misma facilidad para comparar diferentes versiones del mismo programa o diferentes programas que intentan abordar el mismo problema.
De esta manera, el control imita lo contrafactual. Lo contrafactual se define como lo que habría sucedido a las mismas personas al mismo tiempo si el programa no se hubiera implementado. Es, por definición, imposible de observar, ¡es un universo alternativo! Las RCT funcionan creando un grupo que puede imitarlo.
Muchas veces, las evaluaciones comparan grupos que son bastante diferentes al grupo que recibe el programa. Por ejemplo: si comparamos los resultados de las mujeres que aceptan un microcrédito con las que no lo hacen, podría ser que las mujeres que eligen no aceptar el microcrédito fueran diferentes en formas importantes que podrían afectar los resultados. Por ejemplo, las mujeres que no aceptan el microcrédito pueden estar menos motivadas o menos conscientes de los productos financieros.
El uso de un enfoque de aleatorización significa que el implementador del programa identifica primero una población objetivo, y luego el acceso al programa se asigna al azar dentro de esa población.
En lugar de asignar al azar a individuos, la asignación al azar se puede realizar a niveles de grupo, como aldeas, escuelas o clínicas de salud. Estos son conocidos como pruebas de control aleatorios por grupos.
Hay dos razones principales para aleatorizar a un nivel mayor que el individual. Primero, puede abordar la contaminación: donde los individuos tratados se mezclan, conversan y potencialmente "comparten" el tratamiento con los individuos en el grupo de control. Esto “contaminaría” nuestro impacto, y nuestro grupo de control ya no sería una buena comparación. Aleatorizar a nivel de aldea puede minimizar el riesgo de que esto suceda. Segundo, podríamos querer aleatorizar al nivel en que la intervención se implementaría: por ejemplo, una intervención que proporciona electrificación a las escuelas. Logísticamente no es práctico, si no imposible, aleatorizar el acceso a la electricidad por sobre los niños de la escuela.
Cuando se realiza la aleatorización a nivel de grupo, la unidad de aleatorización es la unidad en la que se implementará aleatoriamente el programa; es decir, el grupo (en nuestro ejemplo anterior, una escuela). La unidad de análisis, definida como la unidad en la que recopilaremos datos y compararemos los resultados, suele ser la individual, por ejemplo, los resultados de los exámenes de los estudiantes individuales. Esta distinción será importante cuando calculemos el tamaño de muestra necesario. Entre otras cosas, el tamaño de la muestra se ve afectado por la correlación intra-grupal (ICC, por sus siglas en inglés), que se refiere a qué tan similares o diferentes son los individuos dentro de un grupo. La ICC determinará cuántos individuos por grupo, y cuántos grupos, necesitará muestrear.
Ejemplo Simple
Considere este ejemplo hipotético: una ONG, “iPads 4 All (i4A)”, planea distribuir iPads a niños de bajos ingresos en un país en desarrollo. i4A desea evaluar el impacto que tiene un iPad en la educación de los niños, en la salud y en los niveles de ingresos futuros. Es probable que nunca tengan suficientes iPads para cubrir a todos los niños que "merecen" uno. En lugar de una distribución ad hoc a los niños que expresan interés, o están cerca, o que el gobierno determina como "los más necesitados", una RCT aleatorizaría su acceso.
Si se hace de forma aleatoria a nivel individual, pondrían todos los nombres de los niños elegibles en un bol, o una lista en una computadora, y harían como una lotería. Algunos niños obtendrían un iPad. Algunos no lo obtendrían. Si se hace de forma aleatoria a nivel escolar, harían esto con los nombres de las escuelas y algunas escuelas recibirían iPads. En un diseño de fase/eficiencia, los individuos o las escuelas que no recibieron un iPad inicialmente se colocarán en una lista para recibirlo, si es que el estudio los encontró efectivos y los fondos estaban disponibles.
Más allá de este ejemplo simplificado, la metodología RCT puede adaptarse a una amplia variedad de contextos.
Al igual que con todas las investigaciones sobre sujetos humanos, las RCT están sujetas a rigurosas revisiones éticas para garantizar que ningún sujeto humano sufra daños durante el proceso de investigación.
Etapas de una RCT
- Un preludio opcional es una evaluación de necesidades, que puede proporcionar información sobre el contexto y sus limitaciones. Por ejemplo: una evaluación de necesidades podría decirnos cuántos niños han recibido su curso completo de inmunización en las zonas rurales de Rajasthan. Podría llevarnos a especificar una hipótesis o una pregunta clave de evaluación.
- Se desarrolla unateoría de programa (alternativamente, un modelo de lógica). Esta teoría del programa describe el programa, revela las vías de su impacto y articula todos los riesgos y suposiciones que podrían obstaculizar un programa exitoso. También es útil, en esta etapa, para pensar en los indicadores que podrían recopilarse en cada paso del camino.
- Se realiza una encuesta de referencia de toda la muestra objetivo. Se recopilan datos sobre los indicadores relevantes.
- La muestra se aleatoriza en diferentes grupos. La aleatorización se puede hacer usando un software como Excel o Stata. Para asegurarse de que la aleatorización haya "tenido éxito", se verifica que sean equivalentes en términos de indicadores de referencia y variables contextuales que podrían ser importantes: deben ser estadísticamente idénticos, es decir, el mismo ingreso promedio, el mismo nivel de salud promedio, etc.
- El programa o intervención se implementa en el grupo de tratamiento.
- Durante el programa, es muy recomendable monitorear la implementación del programa. Estos datos tendrán tres ventajas. Primero, se convierte en un tipo de monitoreo, que es beneficioso para las operaciones y la eficiencia de la organización implementadora. En segundo lugar, proporciona indicadores intermedios que permiten a los evaluadores revelar la "caja negra" del impacto (y seguir con la teoría del cambio). En otras palabras, estos indicadores intermedios nos permiten responder por qué un programa tuvo el efecto que tuvo. En tercer lugar, y lo más importante, es necesario controlar que la intervención se esté implementando adecuadamente en el(los) grupo(s) de tratamiento y que el grupo de control no se esté contaminado (recibiendo la intervención por otros medios).
- Siguiendo la implementación del programa, y dependiendo del contexto de la evaluación (por ejemplo, algunos indicadores responden rápidamente, otros son lentos), hay una encuesta final o de seguimiento. Idealmente, esta encuesta compartirá muchas preguntas y características con la encuesta de referencia.
- Luego se comparan los resultados entre los grupos de tratamiento y de control para derivar la estimación del impacto. Los resultados se informan al socio implementador.
Tipos de las RCTs
The RCT approach is flexible enough to accommodate a variety of contexts and sectors. It can be used in education, health, environment, and so on. With a little imagination, randomization can be adapted to a number of different circumstances. Constraints and what RCTs cannot do will be discussed below. For now, here is a short gallery of examples of what RCTs can do.
Simple (un tratamiento, un control)
En un estudio de microfinanzas realizado por el Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (J-PAL), una gran institución de microfinanzas de India, Spandana, identificó 104 vecindarios de bajos ingresos en Hyderabad, India, que eran ubicaciones potenciales para abrir una sucursal. Antes de abrir las sucursales, se seleccionaron aleatoriamente 52 vecindarios para abrir una oficina en el 2005, lo que se convirtió en el grupo de tratamiento. Los 52 vecindarios restantes siguieron siendo "control" (recibiendo una oficina en los años siguientes). Luego se entrevistó a los hogares 15-18 meses después de la introducción de las microfinanzas en las áreas de tratamiento.
Ejemplo
Tratamientos Múltiples/Factorial
Las RCT pueden investigar múltiples tratamientos entre sí; o múltiples tratamientos entre sí y un grupo de control.
Un estudio en Bihar y Rajasthan, India, examinó varios tratamientos para abordar los bajos niveles de alfabetización de los niños. Una intervención se centró en ofrecer clases de alfabetización a las madres, suponiendo que madres más educadas serían más eficaces para ayudar a los niños en el hogar. Una segunda intervención proporcionó una guía para las madres sobre actividades en el hogar que podrían enriquecer el ambiente de aprendizaje para sus hijos en el hogar. Una tercera intervención combinó estos dos: las madres recibieron las clases de alfabetización para madres y la guía de actividades en el hogar. Un grupo de comparación no recibió ninguno de estos servicios.
Rotación
Un programa de tutoría correctiva en la India utilizó el diseño de rotación. El diseño de rotación se refiere a una situación en la que, para dos grupos, un grupo es tratamiento y otro es de control, y luego, esos roles cambian, el que era control se vuelve tratamiento y el que era tratamiento se vuelve control. En la práctica, la ONG Pratham identificó 77 escuelas en Mumbai y 124 en Vadodara. La intervención de Pratham fue de un tutor de apoyo (llamado "balsakhi" o "amigo del niño") que se reuniría con 15 a 20 estudiantes que estaban disminuyendo en sus calificaciones.
La aleatorización se “rotó” en el sentido de que, en el 2001, la mitad de las escuelas recibió un tutor para el tercer grado, y la otra mitad recibió uno para el cuarto grado 4. En el 2002, las escuelas recibieron un tutor para el grado no tratado anteriormente. De esta manera, el impacto del tratamiento podría determinarse comparando a los estudiantes de tercer grado en las escuelas que recibieron un tutor de tercer grado con los estudiantes de tercer grado en las escuelas que recibieron un tutor de cuarto grado.
Phase-in/Pipeline
A menudo, las restricciones presupuestarias prohíben la implementación a gran escala de un programa. De esta manera, estos despliegues escalonados pueden aprovecharse para evaluaciones de impacto aleatorias simplemente seleccionando, por sorteo, las áreas que recibirán el servicio primero.
El estudio de desparasitación de J-PAL utilizó una introducción aleatoria. Durante tres años, entre 1998 y 2001, la ONG Internacional de Manutención de Niños de África lanzó una desparasitación masiva en 75 escuelas en el oeste de Kenia. Las 75 escuelas se colocaron en una lotería, con 25 escuelas que recibieron desparasitación en 1998, 25 en 1999 y las 25 restantes en 2001. De esta manera, en 1998, las 50 escuelas sin desparasitación sirvieron como grupo de control para las 25 escuelas desparasitadas.
Estímulo
En muchas situaciones, es política, ética o administrativamente insostenible negar servicios a un grupo de control. En algunos de estos casos, se puede utilizar un diseño de estímulo: los individuos seleccionados – aleatoriamente- recibirán un guión promocional o un anuncio que los alertará sobre este servicio ya disponible. En estos casos, los individuos del grupo de control todavía tienen acceso al mismo servicio, sin embargo, no recibirán los mismos recordatorios para usarlo. De la misma manera, los individuos de tratamiento todavía pueden rechazar el servicio (como en la mayoría de las intervenciones).
Un estudio J-PAL en Tánger, Marruecos, trabajó con una empresa de servicios públicos local, Amendis, que ya estaba distribuyendo agua potable (aunque la captación fue inferior al 100%). El programa proporcionaba un préstamo subsidiado sin intereses para instalar una conexión de agua. Amendis puso este préstamo a disposición de todos los hogares elegibles; sin embargo, para la evaluación, un subconjunto aleatorio de esos hogares recibió una campaña de concientización de puerta a puerta y ofreció asistencia para completar la solicitud. Esta promoción fue el "estímulo" que impulsó a los hogares seleccionados (tratamiento) a inscribirse en el préstamo con mayor frecuencia que aquellos hogares que no recibieron la promoción (control). De esta manera, los investigadores pudieron determinar el impacto de las nuevas conexiones de agua Amendis en los hogares.
Al final, debido a que el uso de conexiones de agua fue mayor en el grupo "estimulado" (es decir, de tratamiento) que en el grupo no estimulado (es decir, de control), estos dos grupos podrían compararse. Y como el estímulo se asignó aleatoriamente, cualquier diferencia en los resultados podría atribuirse a la diferencia en los índices de utilización de las conexiones de agua.
Aleatorización dentro de la burbuja
A veces, la aleatorización puede ocurrir dentro de una "burbuja" de elegibilidad. Por ejemplo, un estudio J-PAL en Sudáfrica trabajó con un líder de microfinanzas anónimo para identificar a 787 solicitantes de préstamos rechazados que la institución había considerado "potencialmente solventes". (Los solicitantes habían sido aprobados o rechazados automáticamente según el proceso de solicitud normal del banco). Dentro de esta muestra de 787, esta "burbuja", un subconjunto seleccionado al azar de solicitantes rechazados fue asignado a una "segunda mirada" por uno de los oficiales financieros de la institución de crédito. No se requirió que estos oficiales aprobaran a estos individuos para préstamos, pero se les alentó a que lo hicieran. (Por lo tanto, podemos ver que la "iniciación" en este caso se relaciona con los funcionarios financieros que aprueban a los solicitantes de préstamos).
Mapeo del enfoque en términos de tareas y métodos
Las RCT comparten, con otras metodologías de evaluación de impacto, una cantidad de las mismas tareas y métodos. Por ejemplo, por definición, deben especificar laspreguntas clave de evaluación. Estas preguntas podrían ser cosas como: ¿las pastillas antiparasitarias llevarán a un aumento en la asistencia escolar? ¿Llevarán también a mejorar los resultados educativos? ¿El acceso a las microfinanzas conduce a mayores inversiones en negocios? ¿Es la sal fortificada con hierro una forma efectiva de disminuir las tasas de anemia en la población rural?
Además, la recolección y el análisis de datos son partes integrales del enfoque de RCT. Una comprensión profunda de lamuestraes esencial: ¿quién es la población objetivo? ¿Es la muestra seleccionada representativa de la población más grande? Después de la aleatorización del acceso al programa, ¿los grupos de tratamiento y control son comparables a lo largo de indicadores importantes? Pensar profundamente sobre losindicadorestambién es importante: por ejemplo, ¿cómo se medirá el empoderamiento de las mujeres? ¿Habilidad cognitiva? ¿Educación financiera? ¿Cómo se recopilarán los datos sobre estos indicadores?
Finalmente, dada la importancia de establecer la causalidad, es útil resaltar el rol delgrupo de controlcomocontrafactual
Consejo para elegir este enfoque
Es importante recordar que, si bien las RCT pueden ser una forma rigurosa de medir el impacto en ciertas circunstancias, son solo una parte de una gama más amplia de herramientas de evaluación. Es decir, pueden ser una adición útil a cualquier cartera de métodos, pero es poco probable que puedan responder a todas las preguntas. En esta sección, describiremos algunas de las restricciones vinculantes que evitarían que un evaluador elija el enfoque RCT.
Restricciones vinculantes: Tamaño de la muestra
Una de las principales limitaciones para cualquier evaluación de impacto cuantitativo, no solo las RCT, es el tamaño de la muestra. En el caso de las RCT, nos preocupa el tamaño de la muestra en dos dimensiones: la unidad de análisis y la unidad de aleatorización. Tanto la unidad de análisis como la unidad de aleatorización son esenciales para determinar la significación estadística y el poder estadístico.
La significación estadística se refiere a la probabilidad de que los resultados que observamos no se basen únicamente en el azar. Las normas de la literatura afirman que los niveles de significación superiores al 90%, preferiblemente al 95%, son suficientes. Esto significa que, ya sea el 5% o el 10% del tiempo, los resultados que observamos son por casualidad.
El poder estadístico, en cambio, se refiere a la probabilidad de detectar un impacto cuando hay uno. Lo inverso, entonces, es ¿qué tan probable es que perdamos el impacto cuando ocurre (generando así un "falso negativo")?. Una serie de factores determinan el poder estadístico: el tamaño de la muestra, el tamaño mínimo del efecto detectable (es decir, qué tan sensible debe ser la prueba), la varianza subyacente de la variable del resultado, la proporción en tratamiento y control y, si se trata de un RCT grupal - la correlación intra-grupo. La norma permite que el 80% sea un nivel de poder suficiente.
Existe un argumento para decir que, para niveles bajos de poder, es preferible no realizar una evaluación de impacto; de lo contrario, se desperdiciarán recursos, recursos que podrían utilizarse mejor en otros lugares (por ejemplo, para realizar una buena evaluación de procesos).
Restricciones vinculantes: Retrospectiva vs. Prospectiva
Por diseño, las RCT no pueden determinar los impactos de los proyectos existentes, es decir, de los programas que ya se lanzaron y que, por casualidad, no entregaron aleatoriamente sus servicios. (De hecho, la mayoría de los programas no se entregan aleatoriamente; las excepciones notables son el PROGRESA de México y las reservas para las minorías de mujeres y castas según la enmienda 73 de la India). Dado que la aleatorización se produce en el momento de la implementación, y la aleatorización es parte integral del enfoque de RCT, solo pueden planificarse ex ante, no ex post. Por lo tanto, para los programas existentes, las RCT solo se pueden aplicar a: la implementación del programa en nuevas áreas, adiciones al programa (por ejemplo, nuevos productos).
Consejo al utilizar este enfoque
Hay una serie de problemas que pueden surgir durante la implementación de incluso la RCT mejor diseñada. Es importante, entonces, estar preparado e incluir planes para mitigar o controlar varios riesgos.
Índice de uso
En ocasiones, los índices de uso pueden ser más bajos de lo esperado, y esto puede tener consecuencias en el tamaño de su efecto (y, a continuación, en su poder estadístico). Vale la pena señalar que la relación entre el uso y el poder es exponencial: una caída del 50% en el tamaño del efecto requerirá un aumento de cuatro veces en el tamaño de la muestra para lograr el mismo poder.
Por esta razón, es aconsejable anticipar adecuadamente, y, en todo caso, subestimar los índices de uso del programa. Elegir una estimación conservadora, incluso pesimista, para esto puede recompensarlo con un mayor poder más adelante.
Incumplimiento
Otro problema que puede comprometer las estimaciones de una RCT es el incumplimiento por parte de los participantes del programa. Es decir, mientras que los individuos pueden ser asignados a tratamiento o control, estas asignaciones rara vez son requeridas o controladas. Considere un programa de microfinanzas, que abre sucursales en vecindarios de "tratamiento" seleccionados al azar y no lo hace en vecindarios de "control". Las personas que viven en este último pueden simplemente viajar a los vecindarios de "tratamiento" para abrir una cuenta en la sucursal de microfinanzas. En este caso, el grupo de control ya no sirve como un verdadero contrafactual.
El incumplimiento, entonces, puede amenazar la integridad de la aleatorización si los individuos pueden auto-elegir los grupos. Si bien el incumplimiento nunca puede eliminarse totalmente, puede minimizarse. Un método es elegir una unidad de aleatorización lo suficientemente grande como para que los dos grupos no se mezclen. Por ejemplo, en el ejemplo de las microfinanzas, si los vecindarios de "tratamiento" y "control" también estuvieran razonablemente separados, podríamos esperar que el incumplimiento siga siendo bajo.
Sin embargo, tenga en cuenta que cuando los individuos del grupo de control inician el programa y los individuos de tratamiento no lo hacen, esto se asemeja al diseño de estímulo.
Deserción/Abandono
La deserción ocurre cuando partes de la muestra ya no están disponibles para el seguimiento, por ejemplo, porque se han mudado. Si la deserción se debe a diferencias estadísticas en sus grupos de tratamiento y control, lo llamamos "deserción diferencial". Esto puede ser especialmente preocupante, ya que esencialmente des-aleatoriza la muestra, ya que las personas se auto-cambian de un grupo u otro. Es importante tener en cuenta que, si bien las tasas de deserción pueden parecer iguales, es posible que se produzca una deserción diferencial si las razones por las que las personas abandonan el tratamiento o los grupos de control están relacionadas con el tratamiento.
En el ejemplo de las microfinanzas, la deserción diferencial podría ocurrir si algunos hogares en barrios de tratamiento obtienen préstamos, hacen crecer sus negocios y se vuelven lo suficientemente ricos como para dejar el vecindario, fuera de la muestra. Si este fuera el caso, no podríamos incluirlos en nuestro análisis y, por lo tanto, nuestro "grupo de tratamiento" restante se vería un poco más pobre de lo que debería (¡ya que todos los hogares ricos se han mudado!). Por lo tanto, es muy importante hacer un seguimiento con los hogares, especialmente en el caso de deserción diferencial.
La deserción no diferencial se produce cuando hay una deserción del grupo de tratamiento o control por razones no relacionadas con el tratamiento: las personas pueden mudarse, morir o abandonar la muestra, y esto no tiene nada que ver con el tratamiento o el control. En este caso, solo nos preocuparía si la deserción no diferencial erosiona el tamaño de la muestra, de manera que surjan problemas de importancia estadística o poder.
Realización de una encuesta de referencia
En teoría, si la aleatorización se ha implementado con éxito, una encuesta final es suficiente para determinar una estimación de impacto internamente válida. Sin embargo, las encuestas de referencia, más allá de proporcionar una garantía empírica de que la aleatorización ha generado grupos de control y tratamiento equilibrados, proporcionan un beneficio adicional en forma de mayor poder. En general, la recopilación de datos más frecuente (como una línea de base, una línea media y una línea final) puede darnos el mismo poder para un tamaño de muestra más pequeño. Además, los resultados de referencia nos permiten medir efectos heterogéneos (es decir, análisis de subgrupos) cuando los grupos están definidos por variables que podrían cambiar con el tiempo. Por ejemplo, nos permite medir el impacto del puntaje del examen de una innovación educativa en el subgrupo de niños que obtuvieron una calificación baja en el examen al inicio del estudio. Sin una referencia, no podríamos identificar qué niños eran.
Comparando tratamientos múltiples
Si queremos detectar la diferencia entre dos variaciones de un programa, necesitaremos más poder y, por consiguiente, un tamaño de muestra mayor. Si simplemente queremos comparar tener un programa con no tener un programa, entonces basta con menos poder (y por lo tanto, un tamaño de muestra más pequeño).
- Using randomization in development economics research: A toolkit.
Duflo, E., Glennerster, R., & Kremer, M. (2007). Using randomization in development economics research: A toolkit. Handbook of development economics, 4, 3895-3962.
- J-PAL excecutive education course
The Abdul Latif Jameel Poverty Action Lab (J-PAL) offers a weeklong Executive Education course throughout the world and throughout the year. This course explores impact evaluation, focusing on when and how to use randomized impact evaluations. A free, archived version of the course can be found online at MIT’s Open CourseWare.