Coronavirus: ¿de qué hablamos cuando hablamos de datos?


Walter Sosa Escudero
Director del Departamento de Economía

Nunca nos hemos sentido cómodos con los datos y sus interpretaciones. Para la mayoría, interpretar estadísticas revive los peores fantasmas de la escolaridad: la aridez de la matemática se confabula con la generalidad de las cuestiones conceptuales, para aterrorizar tanto a los que se dedicaron al derecho para evitar “los números” como a la ingeniería para huir de “las letras”.

Solo es cuestión de recordar las álgidas discusiones que se dieron en los medios durante los últimos 10 años cada vez que aparecía un nuevo dato de pobreza, y desataba un vendaval de debates acerca de si había aumentado en relación a cierto período, o si la cifra era comparable con Chile o Alemania, discusión que abarca desde cuestiones matemáticas o computacionales, hasta culturales o políticas. Y para colmo, en los últimos años, la ubicuidad de las estadísticas se vio alimentada por un fenómeno de producción de datos masivos y algoritmos, producto de interactuar con dispositivos interconectados, que ha recibido el nombre de big data. Fenómeno que, como la lluvia, tiene tanto de bendición como de plaga.

Y mientras nos estábamos empezando a acomodar a este nuevo paradigma de datos y algoritmos, apareció la pandemia. Que es algo así como la tormenta perfecta de los datos y sus interpretaciones: se hunde el Titanic cuando solo habíamos aprendido a flotar en la piscina del barrio. Y así es que, casi de un día para otro, cualquiera con un televisor o acceso a las redes sociales se ve invadido por un vendaval de gráficos, tablas y frases otrora relegadas a expertos de la epidemiología, como “achatar la curva” o “pico de contagio”, ahora en boca del cualquier vecino, máxime a través de grupos de whatsapp o las redes sociales en general.

No existe forma de abstraerse de los datos de la pandemia. Porque los medios y las redes sociales nos invaden con ellos y porque la validación de muchas decisiones clave depende de cómo nos posicionamos en relación la dinámica de este episodio. En esta crucial circunstancia, los datos son un mal necesario.

Ahora, los datos de la pandemia, de infectados, de tratados, de muertos, de lo mismo en Brasil, Alemania, Italia o México, o en Argentina pero hace dos semanas o un mes, son casi una confabulación macabra de todas las complejidades que involucra a la ciencia de datos.

El “muestreo al azar” es algo así como el “movimiento rectilíneo uniforme” de la física del secundario: un ideal simple, que los alumnos estudian para luego enfrentar realidades más complejas. Los datos de una encuesta política o los que se usan para medir la pobreza provienen de esquemas que, si bien estrictamente no son un muestreo al azar, intentan imitarlo.

Muestreo al azar significa que si se dispone de una lista de toda la población: a) todos tienen las mismas chances de ser encuestados, b) del hecho de que uno sea encuestado no se puede deducir que otra persona lo será. Esto quiere decir “al azar”.

Los datos de la pandemia son casi todo lo contrario del muestreo al azar. A modo de ejemplo, el virus no se distribuye al azar en la población: el hecho de que una persona lo tenga en su cuerpo hace altamente probable que las personas cercanas, también. Para peor, cualquier “dato” sobre la pandemia está atravesado por un sinfín de decisiones y episodios operativos o logísticos que complican considerablemente el análisis.

Por ejemplo, en una encuesta simple, el dato de si una persona dice que vota o no a un político surge fundamentalmente de que la persona haya salido sorteada para que responda la encuesta y de que haya decidido contestarla. En el caso de la pandemia, un dato sobre un infectado está atravesado por otras variables: que la persona haya tenido síntomas, que se haya contactado con un centro de atención hospitalaria, la definición de cuáles son los síntomas que hacen que sea recibido en ese centro, que se le haya administrado un test, la mera definición de “infectado”, el tipo de de política (barrial, provincial, nacional, etc.) que regula los protocolos de tratamiento, la posibilidad de trasladarse, etcétera. Y para complicar la cuestión, el m modelaje de estos datos requiere considerable experiencia a fines de “acomodar” este mar de interacciones y subjetividades implícitas en los datos disponibles.

LA NACIÓN
Walter Sosa Escudero
29 de Abril de 2020