Esto es lo que intentamos en el St. Louis Post-Dispatch para mostrar nuestro proceso con espíritu de transparencia

Publicado originalmente por Janelle O’Dea en source.opennews.org el 10 de octubre de 2019
Foto: Christian Gooden, St. Louis Post-Dispatch. Todos los derechos reservados.

Los periodistas piden transparencia a las fuentes y a los funcionarios públicos. El público tiene derecho a saber cómo funciona su gobierno, quiénes son sus funcionarios electos y cómo se gasta el dinero de los impuestos.
Pero también es importante que los periodistas sean transparentes con sus lectores y, siempre que sea posible, les brinden información (metadatos, si se quiere) sobre el origen de nuestros informes.
Queremos que sepan que somos personas honestas que estamos tratando de obtener la información más actualizada y precisa que podamos al momento de informar, y que estamos tratando de dársela lo más rápido posible.
Compartir un análisis de datos es una táctica para abrir el proceso y mejorar la transparencia. Mostrar su proceso a su audiencia, siempre y cuando no queme ninguna fuente, es una excelente manera de ganar la confianza de los lectores. También es un camino para comenzar una conversación. Los periodistas están acostumbrados a recibir correos electrónicos y tweets enojados. Una conversación con los lectores no siempre tiene que ser hostil, o incluso un intercambio directo en una de esas plataformas. Publicar su análisis de datos es una forma de conversación sin los agujeros de conejo en el hilo de comentarios que conducen a una menor comprensión, en lugar de una mayor.
Por todas estas razones, publiqué el análisis de datos para una historia del St. Louis Post-Dispatch a principios de este año. Se trataba de parques y lugares de recreo infantil inseguros y un Departamento de Parques con poco personal. Usando Python y una herramienta llamada Jupyter Notebook mostramos de dónde obtuvimos los datos y cómo los “cortamos en rodajas y en cubos”.

Cómo empezamos
Mucho antes de compartir nuestro primer Jupyter Notebook nuestro equipo interactivo de tres personas en el Post-Dispatch había estado hablando de crear un análisis de datos reproducibles y publicarlo. Un buen periodista de datos siempre presenta su análisis y conclusión a las fuentes, y solicita la confirmación de los resultados.
Pero compartir el detrás de escena con nuestros lectores fue algo nuevo. Solo necesitábamos la historia correcta para intentarlo. Aunque publicar un análisis de datos reproducibles es relativamente amigable para el usuario, decidir sobre una historia apropiada resultó ser algo complejo.
Por ejemplo, sabía que quería que el primer Notebook que publicamos fuera simple y directo, y quería que utilizara datos con los que ya estaba familiarizada. Al mismo tiempo, también quería que fuera una historia más grande y más larga, preferiblemente con posibilidad de impacto. Como una de las tres personas en el equipo interactivo de la sala de redacción, era consciente de que no podía pasar una semana publicando algo demasiado simple, como un código que solo ordenaba, filtraba y sumaba. Tendría que justificarlo, no solo para mis jefes, sino también para mí.

Elegir la historia correcta para compartir
La historia que finalmente elegimos fue del reportero Jesse Bogan, sobre una niña de cinco años a la que una puerta de acero de 200 libras le había roto la cabeza en un parque de St. Louis. La puerta se había soltado de sus bisagras, lo que provocó preguntas más amplias sobre la seguridad del parque y el personal. Bogan me preguntó si podía saber cuántas quejas había recibido la ciudad, en el último año, sobre cualquiera de sus 109 parques.

Un Jupyter Notebook parecía una gran opción por varias razones
Si Bogan o cualquier otro reportero volviera a visitar la historia en un año o incluso diez, podríamos volver a ejecutar los datos fácilmente. Además, contó con un fuerte enlace de noticias y un portal de datos abiertos del gobierno de la ciudad bien abastecido. También estaba familiarizada con los datos y sabía lo que significaban los encabezados de columna y cómo se creaban los registros. Configuré un Jupyter Notebook y me puse a trabajar

Su turno: algunos criterios para elegir dónde comenzar a publicar su análisis de datos
Si está pensando en compartir su análisis de datos y flujo de trabajo utilizando un Jupyter Notebook, aquí hay algunas maneras de pensar para elegir la historia correcta para su primer intento. Una historia podría ser correcta si …

Los datos son públicos
Para la historia de los parques de St. Louis cualquiera puede acceder a la base de datos sin procesar cuando la descargue, filtrar a las fechas apropiadas y pasarla por el Notebook si quieren verificar los números en la historia. Me gusta pensar que el tipo de análisis y presentación que utilizamos es el punto de los datos abiertos: está abierto para que todos podamos compartirlo y aprender de él. Compartirlo también se siente bien desde el lado comercial. Debido a que son datos públicos, no utilizamos mucho tiempo del personal solicitando los datos o negociando por ellos. La ciudad de St. Louis publica los datos de la Oficina de Servicio al Ciudadano en línea de forma gratuita. Es esencialmente un servicio al cliente para los residentes de St. Louis, e incluye registros de cada queja hecha mediante llamada, tuiteada o enviada por correo electrónico. A menudo se les llama Llamadas 311.

No es una cantidad inmanejable de datos.
Los datos no ocuparán un espacio considerable en GitHub. Debería ser bastante fácil de descargar y abrir en una computadora personal, dado que la persona esté familiarizada con los archivos .zip y Microsoft Excel.

Has hecho un análisis real.
No estamos limpiando datos públicos y presentándolos de una manera más digerible, como lo hacemos con nuestras guías salariales y educativas. Para esas guías, no hay análisis involucrado, no hay muchas cosas “debajo del capó” que puedan interesar a cualquiera.
Para la historia de los parques necesitábamos ver las llamadas de ciudadanos preocupados sobre la seguridad u otros problemas en los parques. Había varios códigos para problemas en los parques en los datos del 311, y teníamos información de entrevistas sobre qué otros códigos buscar.
Primero me concentré específicamente en las quejas sobre el equipamiento de los lugares de recreo. Totalicé todas las quejas de equipos de juegos desde 2009 hasta principios de mayo, que era la información más actualizada disponible. Agrupé las quejas por año para ver si un año tenía muchas más que otros; esto podría indicar datos sucios. Era una forma de verificar para asegurarse de que un incidente o una pieza del equipo del patio no generara una cantidad desproporcionada de llamadas. Aunque esa es una advertencia de estos datos, y una que notamos en la historia: los datos solo reflejan lo que es llamado. Cuando se agruparon por año, no hubo valores atípicos extremos (outliers), lo que me hizo sentir cómodo al usar los datos de quejas del equipamiento de lugares de recreo .
La historia de Bogan fue, más ampliamente, sobre la escasez de personal en los parques y el impacto de eso en los parques, por lo que incluimos códigos como hierba alta, problemas con los baños y basura en el parque.

Hay una historia
Una historia en los datos significa: tal vez un día descubro una tendencia en los datos de 311 cuando estoy buscando ideas para historias. Tal vez el hecho de que las quejas sobre el equipamiento de lugares de recreo se mantuvieron constantes durante algunos años, luego aumentaron un poco, me inspira a acercarme a un reportero con la historia potencial o a hacer una historia yo misma. Incluso si vemos una tendencia, sin embargo, puede que no haya una historia. Podemos ver que cierta tendencia se está desarrollando, pero ¿podemos encontrar personas que hablen sobre lo que está sucediendo? Este es mi desafío favorito en el trabajo.
Otras veces, un reportero está buscando un informe relacionado con los datos. Así sucedió la historia de los parques. Bogan ya tenía una historia, y me preguntó si había datos sobre quejas en los parques. Finalmente, una preparación nerd valió la pena, y supe exactamente dónde estaban los datos. Había trabajado con los datos antes cuando examinamos el vertido ilegal y otros problemas de basura en St. Louis.

El lado técnico no es demasiado técnico
Esto no quiere decir que no publicaremos análisis más complejos o conjuntos de datos más grandes. Pero al menos para el primer Jupyter Notebook que publicamos realmente esperaba un cuaderno que no contuviera cientos de líneas de código. Quería publicar el código de una manera que una persona que no esté familiarizada con Python o cualquier otro lenguaje de programación pueda al menos estar intrigada, y no abrumada, por el análisis.

Últimos pensamientos
Esta es la razón por la que amo el periodismo de datos tanto como a mí: tenemos la capacidad de arrojar luz sobre temas que de otro modo permanecerían ocultos, ya sea porque las personas poderosas no los buscan, no tienen el conocimiento tecnológico -cómo buscarlos-, o simplemente no quieren buscarlos.
Aunque pensé que pocas personas querrían leer o mirar el código de la computadora, nuestra voluntad de poner el código a la vista de todos es un indicador de que nosotros, como periodistas, no tenemos nada que ocultar.
Informar las noticias es un trabajo que requiere mucho tiempo, pero encontrar tiempo para crear más transparencia es una inversión en la confianza del lector. No puedo pensar en nada más importante.