Cómo el machine learning podría ayudar a medir mejor la pobreza
Con la aparición de chats interactivos como ChatGPT o el creador de imágenes digitales Dall-e, se populariza el accionar de la inteligencia artificial en la vida cotidiana. Pero más allá de sus fines lúdicos o potencialmente útiles en el campo de la producción de contenidos, ¿qué sucede con el big data y el machine learning cuando se trata de tomar complejas mediciones sobre la calidad de nuestras vidas? ¿Cuál es su potencialidad a la hora de entender inflación, pobreza, y otros indicadores de desarrollo humano, especialmente en países desiguales como la Argentina? Walter Sosa Escudero, María Victoria Anauati y Wendy Brau, profesores del Departamento de Economía de UdeSA, se propusieron responder a esa pregunta en el capítulo “Poverty, Inequality and Development Studies with Machine Learning”, incluido en el volumen Econometrics with Machine Learning, editado por Felix Chan (Curtin University) y László Mátyás (Central European University) y recientemente publicado por la editorial Springer. “Describir este ecosistema es envolver un triciclo mientras lo estás construyendo”, comienza Sosa Escudero. “En economía, el desarrollo del machine learning fue bastante más tardío y más desordenado que en otras disciplinas y hay avances todo el tiempo”.
Pero ante todo, ¿a qué nos referimos con big data y machine learning? En palabras de Sosa Escudero, “big data es un fenómeno masivo de datos que se generan pasivamente por interactuar con cosas que están interconectadas pero que no tienen una estructura. Machine learning es la contracara del fenómeno, que tiene que ver con mecanismos adaptativos. Su revolución es que la construcción de los modelos se hace y se reformula a la luz de los datos y de los objetivos. La posibilidad de tener mejores caracterizaciones depende de que los modelos sean flexibles. Y la flexibilidad requiere de muchos datos”. Allí aparece la conexión entre big data y machine learning, que se instaló en economía más tarde que en otras disciplinas probablemente por su tendencia hacia una lógica exploratoria e inductiva, que resultaba contraria al giro experimental que la economía tomó en los años 80s, también llamado “la revolución de la credibilidad”.
A partir de una revisión exhaustiva de los trabajos académicos que han aplicado técnicas de machine learning al estudio de temas de pobreza y desarrollo, Sosa Escudero, Anauati y Brau crearon una taxonomía sobre las contribuciones centrales de esa literatura, que consisten en producir mejores mediciones y predicciones y en aumentar la capacidad de generar inferencias causales. Esto se produce por varios motivos. Entre ellos, la combinación de fuentes de datos tiene que ver, en palabras de Sosa Escudero, “con aprovechar fuentes alternativas de información. Las encuestas son costosísimas y representan una especie de compromiso entre generalidad y particularidad. Muchos de los trabajos que analizamos tienen que ver con, por ejemplo, medir la pobreza con imágenes satelitales que muestran la proporción de luces que están prendidas en una zona”. También es gracias a la “granularidad”. Como plantea el co-autor del trabajo, “la medición de la pobreza y la desigualdad es relativamente nueva. En una encuesta se puede medir la tasa de pobreza del Gran Buenos Aires. Pero ninguna encuesta está diseñada para medir resultados a un nivel alto de focalización; solo obtenés pinceladas muy gruesas”. Según el autor, las técnicas de machine learning justamente “te permiten tener mediciones mucho más granulares de la pobreza, por ejemplo, entender la dinámica en los barrios marginales o en el ámbito rural”.
Además, es clave la reducción de la dimensionalidad que permite la combinación de big data y machine learning. “La tradición clásica consiste en medir el bienestar, la pobreza y la desigualdad utilizando el ingreso. No porque nadie piense que el ingreso es lo único que importa para llegar al bienestar de las personas, sino porque es relativamente fácil de medir. El consumo, en cambio, es muy difícil de medir. En todo caso, lo que es un poquito más fácil que el consumo es el gasto. Se puede agregar que entonces se usará el ingreso como una aproximación del bienestar. Lo que empezó a pasar a partir de los 80 es la idea de que si nos focalizamos nada más que en el ingreso, nos estamos perdiendo una parte muy importante de la dinámica de la pobreza. Entonces, en muchos esfuerzos que se hicieron en machine learning se buscó bajar la dimensionalidad del problema.” Pasar de 50 variables sobre pobreza, por ejemplo, a 3 que constituyen los mejores indicadores del fenómeno.
Para Sosa Escudero, si bien la discusión sobre pobreza y desigualdad excede a la región, América Latina representa un lugar particularmente interesante para el estudio de temas de desarrollo humano desde el lente de la inteligencia artificial. “La estadística que no se usa, no sirve para nada. Lo que tira al método es la política. Y una política efectiva es una política que funcionó, que funciona, y que atravesó distintos colores políticos. En un futuro no muy lejano el diseño de la política demandará estrategias específicas. Un ejemplo que molesta y que pica es el de la tarifa social. La tarifa social requiere un tipo de información que te diga en términos diferenciales cómo se utilizan la energía, el gas, la electricidad. Cuando tu pregunta tiene que ver con la heterogeneidad y la complejidad, estas herramientas empiezan a funcionar. Me parece que la política las va a terminar demandando”. Muchos de estos temas fueron discutidos en la conferencia sobre Big Data y Política Pública que fue organizada por la Universidad de San Andrés a fines del 2022.