Poner al descubierto historias importantes sin revelar detalles personales innecesarios

Fuente: Vojtech Sedlak – Datajournalism.com – 16 octubre 2019

En la búsqueda de una historia, los periodistas a menudo deben proteger la identidad de su fuente. Muchos de los trabajos más impactantes del periodismo se han basado en tal acuerdo, sin embargo, el acto de equilibrio entre publicar información que es vital para una historia y proteger a la persona detrás de esa información puede presentar innumerables desafíos, especialmente cuando la seguridad personal de la fuente está en riesgo.
Estos desafíos se intensifican particularmente en esta era de recopilación de datos omnipresentes. Los avances en la tecnología informática han permitido grandes volúmenes de procesamiento de datos, lo que a su vez promueve los esfuerzos para monetizar los datos o usarlos para la vigilancia. En muchos casos, la privacidad de las personas se considera un obstáculo, más que un requisito esencial. La historia reciente está salpicada de ejemplos de violaciones de privacidad, que van desde el uso de datos personales de Cambridge Analytica para la orientación de anuncios hasta el seguimiento invasivo de datos por dispositivos inteligentes. La expectativa de protección de la privacidad parece estar desapareciendo a raíz de las fugas de datos en curso y las violaciones de datos .
Con más datos disponibles que nunca, los periodistas también dependen cada vez más de ellos en sus informes. Pero, al igual que con las fuentes confidenciales, deben poder evaluar qué información publicar sin revelar detalles personales innecesarios. Si bien es posible que se requiera cierta información personal, es probable que la mayoría de las historias se puedan publicar sin necesidad de identificar a todas las personas en un conjunto de datos. En estos casos, los periodistas pueden usar varios métodos para proteger la privacidad de estas personas, a través de procesos conocidos como desidentificación o anonimización .
Para ayudar a los periodistas a defender prácticas de datos responsables y centradas en la privacidad, esta lectura larga cubrirá como:

  • Identificar información personal
  • Evaluar los riesgos asociados con la publicación de información personal
  • Utilizar diferentes métodos de desidentificación en periodismo de datos

Definir información personal
Si bien la definición de lo que constituye información personal se ha formalizado más a través de la reforma legal a fines de la década de 2000, durante mucho tiempo ha sido el papel de los periodistas descubrir si una divulgación de datos, ya sea intencional o accidental, pone en peligro la privacidad de las personas. Después de que AOL publicara millones de consultas de búsqueda en línea en 2006, los periodistas pudieron reconstruir identidades individuales basándose únicamente en los historiales de búsqueda de los individuos, incluida información confidencial sobre el estado de salud de algunos individuos y las preferencias de citas. Del mismo modo, a raíz de las revelaciones de Edward Snowden sobre el espionaje de la NSA , varios investigadores han demostrado cómo los metadatos de comunicación, la información generada por nuestros dispositivos, pueden usarse para identificar a los usuarios o servir como instrumento de vigilancia .
Pero, cuando se utiliza un conjunto de datos como fuente en una historia, los periodistas se ponen en la nueva posición de tener que evaluar la sensibilidad de la información en sí mismos. Y esta evaluación comienza con la comprensión de lo que es y no es información personal.
La información de identificación personal (PII) , descrita legalmente como ‘datos personales’ en Europa o ‘información personal’ en algunas otras jurisdicciones, generalmente se entiende como cualquier cosa que pueda identificar directamente a un individuo, aunque es importante tener en cuenta que la PII existe a lo largo de un espectro tanto de identificabilidad como de sensibilidad. Por ejemplo, los nombres o las direcciones de correo electrónico tienen un alto valor en términos de identificabilidad, pero una sensibilidad relativamente baja, ya que su publicación generalmente no pone en peligro a un individuo. Los datos de ubicación o un registro de salud personal pueden tener una identificación más baja, pero un mayor grado de sensibilidad. Con fines ilustrativos, podemos trazar varios tipos de PII a lo largo de los espectros de sensibilidad e identificabilidad.

PII existe a lo largo de un espectro de sensibilidad e identificabilidad.

El grado en que la información personal es identificable o sensible depende tanto del contexto como del efecto compuesto de la mezcla de datos. El nombre de una persona puede tener un riesgo bajo en un conjunto de datos de fanáticos de Facebook, pero si el nombre está en una lista de disidentes políticos, entonces el riesgo de publicar esa información aumenta dramáticamente. El valor de la información también cambia cuando se combina con otros datos. Por sí solo, un conjunto de datos que contiene el historial de compras puede ser difícil de vincular a un individuo determinado; sin embargo, cuando se combina con información de ubicación o números de tarjetas de crédito, puede alcanzar mayores grados de identificación y sensibilidad.
En un caso de 2016, el Departamento de Salud de Australia publicó datos farmacéuticos no identificados para fines de investigación, solo para que los académicos descifren uno de los campos no identificados. Esto creó la posibilidad de exponer la información personal, lo que provocó una investigación por parte del Comisionado de Privacidad de Australia. En otro ejemplo, los periodistas de Buzzfeed que investigaron el fraude entre tenistas profesionales en 2016 publicaron los datos anónimos que utilizaron en sus informes. Sin embargo, un grupo de estudiantes universitarios pudo volver a identificar a los tenistas afectados mediante el uso de datos disponibles públicamente. Como ilustran estos ejemplos, la capacidad de un periodista para determinar la naturaleza personal de un conjunto de datos requiere una evaluación cuidadosa de ambos: la información que contiene y también la información que ya puede estar disponible públicamente.


Si bien los nombres de los tenistas pueden parecer anónimos, la metodología de código abierto de BuzzFeed también incluyó otros datos que permitieron la posibilidad de reidentificarlos.

¿Qué es la desidentificación?
Para ocultar la identidad de una fuente, un periodista puede inferir el anonimato o utilizar un seudónimo, como Garganta Profunda en el caso del escándalo Watergate. Cuando se trabaja con información, el proceso de eliminación de datos personales se denomina desidentificación o, en algunas jurisdicciones, anonimización. Mucho antes de Internet, los periodistas empleaban técnicas de desidentificación de datos, por ejemplo, redactando los nombres de documentos filtrados. Hoy, los periodistas están armados con nuevos métodos y herramientas de desidentificación para proteger la privacidad en entornos digitales, lo que facilita el análisis y la manipulación de cantidades cada vez mayores de datos.
El objetivo de la desidentificación de datos es evitar una posible reidentificación, en otras palabras, anonimizar los datos para que no puedan usarse para identificar a un individuo. Si bien existen algunas definiciones legales de anonimización de datos, la regulación y la aplicación de la desidentificación generalmente se manejan sobre una base ad-hoc, específica de la industria. Por ejemplo, los registros de salud en los Estados Unidos deben cumplir con la Ley de Portabilidad y Responsabilidad del Seguro de Salud (HIPAA), que requiere la anonimización de identificadores directos , como nombres, direcciones y números de seguridad social, antes de que los datos puedan publicarse para el consumo público. En la Unión Europea, el Reglamento General de Protección de Datos (GDPR) impone el anonimato de identificadores directos, como nombres, direcciones y correos electrónicos, así como identificadores indirectos, como títulos de trabajo y códigos postales.
Al desarrollar su historia, los periodistas tienen que decidir qué información es vital para una historia y qué se puede omitir. A menudo, cuanto más valiosa es una información, más sensible es. Por ejemplo, los investigadores de salud necesitan poder acceder a datos de diagnóstico u otros datos médicos, a pesar de que esos datos pueden tener un alto grado de sensibilidad si están vinculados a un individuo determinado. Para lograr el equilibrio adecuado entre la utilidad y la sensibilidad de los datos, al decidir qué publicar, los periodistas pueden elegir entre una variedad de técnicas de desidentificación.


Un ejemplo de un documento redactado de la CIA. Fuente: Wikimedia .

Redacción de datos.
La forma más sencilla de desidentificar un conjunto de datos es eliminar o redactar cualquier dato personal o confidencial. Si bien un inconveniente obvio es la posible pérdida del valor informativo de los datos, la redacción se usa más comúnmente para tratar con identificadores directos, como nombres, direcciones o números de seguridad social, que generalmente no representan el quid de una historia.
Dicho esto, los avances tecnológicos y la creciente disponibilidad de datos continuarán aumentando el potencial de identificación de los identificadores indirectos, por lo que los periodistas no deben confiar en la redacción de datos como su único medio de desidentificación.

Pseudonimización
En algunos casos, eliminar información directamente limita la utilidad de los datos. La seudonimización ofrece una posible solución, al reemplazar los datos identificables con seudónimos que se generan aleatoriamente o mediante un algoritmo. Las técnicas más comunes para la seudonimización son el hash y el cifrado . El hash se basa en funciones matemáticas para convertir datos en hashes ilegibles. El cifrado, por otro lado, se basa en una transformación algorítmica bidireccional de los datos. La principal diferencia entre los dos métodos es que los datos cifrados se pueden descifrar con la clave correcta, mientras que la información cifrada no es reversible. Muchos sistemas de bases de datos, como MySQL y PostgreSQL , permiten tanto el cifrado como el cifrado de datos.
La seudonimización de datos desempeñó un papel importante en la investigación de fugas en alta mar por el Centro Internacional de Periodismo de Investigación (ICIJ). Dado el gran volumen de datos que debían procesarse, los periodistas confiaron en códigos únicos asociados con cada individuo y entidad que aparecían en los documentos filtrados. Estos códigos con seudónimo se usaron para mostrar enlaces entre documentos filtrados, incluso en los casos en que los nombres de individuos y entidades no coincidían.
La información se considera seudonimizada si ya no se puede vincular a un individuo sin el uso de datos adicionales. Al mismo tiempo, la capacidad de combinar datos seudonimizados con otros conjuntos de datos hace que la seudonimización sea un método de desidentificación posiblemente débil. Incluso al usar el mismo seudónimo repetidamente en un conjunto de datos, su efectividad puede disminuir, ya que el potencial para encontrar relaciones entre variables crece con cada aparición del seudónimo. Finalmente, en algunos casos, los mismos algoritmos utilizados para crear seudónimos pueden ser descifrados por terceros o tener vulnerabilidades de seguridad inherentes. Por lo tanto, los periodistas deben tener cuidado al usar la seudonimización para ocultar datos personales.


En 2013, Jonathan Armoza identificó los viajes en taxi realizados por las celebridades Bradley Cooper y Jessica Alba a partir de un conjunto de datos de viajes en taxi en Nueva York, donde supuestamente los números de medallón y la licencia del taxi fueron descifrados. Para descifrar el código, simplemente buscó imágenes de celebridades que salían de los taxis y lo combinó con otra información disponible en el conjunto de datos.

Ruido estadístico
Dado que tanto la redacción de datos como la seudonimización conllevan el riesgo de reidentificación, a menudo se combinan con métodos de ruido estadístico, como la anonimización k . Esto garantiza que al menos un número determinado de personas compartan los mismos identificadores indirectos, lo que oscurece el proceso de reidentificación. Como práctica recomendada, no debe haber menos de 10 entradas con combinaciones únicas de identificadores. Las técnicas comunes para introducir ruido estadístico en un conjunto de datos son la generalización, como la sustitución del nombre de un país por un continente y el almacenamiento, que es la conversión de números en rangos. Además, la redacción de datos y la seudonimización a menudo se utilizan con técnicas de ruido estadístico para garantizar que no existan combinaciones únicas de identificadores en un conjunto de datos. En el siguiente ejemplo, los datos en ciertas columnas se generalizan o redactan para evitar la reidentificación de entradas individuales.

 


Agregar ruido estadístico para evitar la reidentificación.

Agregación de datos
Cuando no es necesario preservar la integridad de los datos sin procesar, los periodistas pueden confiar en la agregación de datos como método para la desidentificación. En lugar de publicar el conjunto de datos completo, los datos pueden publicarse en forma de resúmenes que omiten cualquier identificador directo o indirecto. La principal preocupación con la agregación de datos es garantizar que los segmentos más pequeños de los datos agregados sean lo suficientemente grandes como para no revelar individuos específicos. Esto es particularmente relevante cuando se pueden combinar múltiples dimensiones de datos agregados, como en el estudio de caso a continuación.

Estudio de caso: la encuesta de Facebook realizada por Mozilla
Tras el escándalo de Cambridge Analytica, la Fundación Mozilla realizó una encuesta a los usuarios de Internet sobre sus actitudes hacia Facebook. Además de sus actitudes, se pidió a los encuestados información sobre su edad, país de residencia y competencia digital. La herramienta de encuesta también registró las direcciones IP de los usuarios, así como otros metadatos, como el dispositivo utilizado y la hora de envío.
Estas respuestas se pusieron a disposición a través de una herramienta interactiva, que permitió al público examinar de cerca los datos, incluso a través de la capacidad de tabular los resultados por criterios demográficos, como la edad o el país. Pero Mozilla también quería publicar todos los datos de la encuesta al público para su posterior análisis, por lo que se requería un enfoque cuidadoso para la desidentificación.
Para comenzar el proceso de desidentificación, Mozilla eliminó todos los metadatos de comunicación que no se requerían para completar el análisis. Por ejemplo, las direcciones IP de los encuestados, así como el momento de las presentaciones, se borraron del conjunto de datos. La encuesta no registró identificadores directos, como nombres o direcciones de correo electrónico, por lo que no se requirió redacción ni seudonimización. Si bien la encuesta incluyó más de 46,000 respuestas, los datos incluyeron ciertas combinaciones de identificadores indirectos, como información de país y edad, que permitieron a los usuarios acercarse a pequeñas muestras de los encuestados. Como esto aumentó el riesgo de reidentificación, todos los países con menos de 700 encuestados se agruparon en una categoría de “otro”, que agregó suficiente ruido estadístico a los datos.
A pesar de estos esfuerzos, los equipos de privacidad y legales de Mozilla se mantuvieron cautelosos sobre la publicación de los datos, ya que su carácter global implicaba una posible responsabilidad legal en varias jurisdicciones. Pero, al final, el valor de publicar los datos superó cualquier preocupación de privacidad restante.