FuenteLa Nación
Detrás del censo. “En tiempos de big data y algoritmos, la estadística está más viva que nunca”
El investigador Walter Sosa Escudero despeja inquietudes sobre la nueva encuesta nacional de población, hogares y vivienda, que se está realizando hoy; ¿qué se gana y qué se pierde?
Después de más de una década, se realiza hoy el tercer censo nacional de población, hogares y vivienda del siglo XXI. Por primera vez, el Indec brindó la posibilidad de completar el cuestionario de manera digital. Esta “encuesta madre” es de enorme importancia para conocer características demográficas y socioeconómicas de la población. Los resultados básicos se entregarán en enero del año próximo, pero ya se “espoileó” la cifra de la cantidad de habitantes de la Argentina: alrededor de 47 millones de personas. Para la ocasión, Siglo XXI reeditó una versión ampliada del primer libro del investigador Walter Sosa Escudero, ¿Qué es (y qué no es) la estadística? Cómo se construyen las predicciones y los datos que más influyen en nuestras vidas (en medio de la revolución de big data), una introducción amigable y entretenida a este universo, escrito por el licenciado en Economía por la Universidad de Buenos Aires y PhD por la Universidad de Illinois, en Urbana-Champaign. “Cómo se construyen, cómo funcionan, cuáles son sus principales éxitos y, fundamentalmente, sus contraindicaciones y limitaciones. En tiempos de big data y algoritmos, la estadística está más viva que nunca”. Escudero es especialista en econometría y estadística aplicada a cuestiones sociales y su libro integra la colección Ciencia que ladra (Serie Mayor), junto a otros títulos del autor: Big data y Borges, Big data y yo. Escudero es profesor de la Universidad de San Andrés, donde dirige el Departamento de Economía; profesor en la Universidad Nacional de La Plata, investigador principal del Conicet y miembro titular de la Academia Nacional de Ciencias Económicas. “Las estadísticas, los datos y los algoritmos son cuestiones inevitables a la sociedad -dice Escudero en diálogo con LA NACION-. El clima, las finanzas, los deportes, la salud, la educación, el marketing, las personas, las empresas, el Estado y cualquier organización están atravesados por números, estimaciones y predicciones. La estadística es un intento de resumir una habilidad compleja en cifras concretas, que no pretenden ser buenas sino útiles. Toda estadística está esencialmente ‘mal’ porque no es el todo sino una parte; el punto no es si está mal o no, sino si sirve para algo, para la toma de decisiones, para la evaluación de políticas estatales o decisiones empresariales”. -¿Para qué sirve un censo nacional? -El censo es una actividad inevitable de las sociedades modernas; este incorpora la cuestión digital, veremos cómo funciona, máxime en tiempos en donde muchas personas son susceptibles a cuestiones de privacidad y seguridad. Un censo nacional es tanto un ejercicio administrativo-estadístico como un acto cívico, similar a una elección. Es una suerte de “encuesta madre” que sirve tanto para producir información de base como para reajustar las encuestas periódicas como la Encuesta Permanente de Hogares, cruciales para el monitoreo de la salud social y económica de cualquier país. -¿Qué información se intenta recabar y con qué objetivos? -La información censal es muy básica. Como se darán cuenta los censados, son preguntas muy simples que apuntan a medir algunas cuestiones elementales en relación con cuestiones poblacionales, de vivienda, educación, seguridad social y mercado laboral. El objetivo es doble. Por un lado, recabar información de base, comparable en el tiempo en forma sistemática y confiable; por otro, es una herramienta crucial para calibrar otros instrumentos del sistema estadístico, como las encuestas periódicas mencionadas anteriormente. -¿Algunas preguntas son disparatadas? -No me resulta obvio que haya preguntas de esa índole; algunas son tal vez más relevantes que otras. Desde un punto de vista estadístico, son muy básicas y fáciles de responder o contextualizar. Un aspecto crucial del censo es el alcance. Las encuestas periódicas tienen una cobertura o muy general o demasiado específica. Hay sectores muy difíciles de alcanzar con las encuestas, como las zonas rurales o los barrios marginales. El censo intenta proveer un mapa detallado de todas estas situaciones. -¿Qué diferencias existen entre estadísticas, censos, encuestas y big data? -Una estadística es cualquier cifra que intenta resumir una realidad compleja, como el desempleo o la pobreza. Un censo es como si fuese el “mapa escala 1 en 1″ de las estadísticas, una visión completa de alguna realidad, que por su enorme costo se realiza con baja periodicidad. Una encuesta es una estadística implementada con una porción mucho menor del censo, y que si está bien hecha, es capaz de representar razonablemente bien a una realidad mayor. El fenómeno de big data refiere a la abundancia de datos proveniente de interactuar con cosas interconectadas, como celulares o sensores. Son muchísimos datos, posiblemente más que los de cualquier censo. La diferencia es que, casi por definición, los datos de big data son anárquicos, no tienen una estructura obvia, lo cual dificulta su interpretación. Por el contrario, un censo es una “megaencuesta” que obedece a una delicada planificación, lo que facilita su interpretación, y fundamentalmente, su comparación con otros censos de otros países o períodos. -¿Cuáles serían los usos correctos o éticos de los datos y cuáles no? -Los correctos tienen que ver con que los datos agreguen información que otros mecanismos (la lógica, la intuición, la experiencia) no necesariamente proveen, e interactúen con ellos. A modo de ejemplo, uno podría tener la percepción de que el desempleo está subiendo o bajando, en base a muchos factores. En este caso, los datos confirman, refutan o ilustran estas conjeturas, y el uso correcto tiene que ver con cotejar lo que los datos dicen con nuestras creencias y reafirmarlas o abandonarlas en consecuencia. El uso deshonesto tiene que ver con “explotar” los datos para que nos digan lo que queríamos escuchar. -¿Qué efecto tienen las estadísticas en la población y entre los dirigentes? -Cuando la estadística es honesta, simplemente refleja una realidad de forma más precisa, habiendo separado la señal del ruido, como cuando un médico confirma o refuta sus creencias acerca de nuestra salud al ver los resultados de un análisis. En este sentido, la estadística honesta debería informar. Pero, lamentablemente, muchos sectores usan la estadística para dotar de una pátina cientificista, con datos sospechosamente obtenidos o algoritmos dudosos, a creencias difíciles de sostener cuando no tendenciosas. Que “una encuesta” diga tal o cual cosa depende de cómo se hizo la encuesta, en qué condiciones, no del hecho de haberla implementado. -¿En qué trabajás actualmente? -Mis tareas de investigación se relacionan con el uso de herramientas de la estadística para medir la desigualdad, la pobreza, la clase media, entre otros fenómenos sociales. Trabajo en la intersección entre las ciencias sociales y las exactas. Aunque no quede muy bien que recomiende mis libros, en los últimos que escribí cuento con bastante detalle las relaciones que hay entre censos, muestras y otras estadísticas, y en particular, qué se gana y qué se pierde de una actividad tan costosa como la implementación de un censo nacional. -¿Qué se gana y qué se pierde? -Se gana al obtener una representación muy fina de cómo funciona un país. Y se pierde mucha plata: hay que parar un país para hacer un censo. En una muestra ganás información, pero perdés porque esa información siempre es parcial; en ese sentido, el censo es la contracara de una muestra.