Big Data y las filtraciones de documentos: Los Papeles de Panamá

Cuando Daniel Ellsberg fotocopió y filtró los Papeles del Pentágono al New York Times en 1971, esas 7.000 páginas de documentos de alto secreto de la Guerra de Vietnam representaban lo que hasta entonces era la mayor filtración de documentos de la historia. En aquella época los periodistas debían pasar días filtrando manualmente la información, que si estuviera contenida en un archivo de texto moderno equivaldría a apenas 24 megabytes. Mucho ha cambiado en el periodismo de investigación en estas cuatro décadas.  En 2010 WikiLeaks publicó Cablegate, una colección de comunicaciones clasificadas del Departamento de Estado de 1,73 gigabytes, casi cien veces más grande. Pero si se compara con la filtración que recientemente ha conmocionado al mundo, los Papeles de Panamá, el tamaño de la filtración ha crecido de manera exponencial: 2,6 terabytes, 1.500 veces mayor.

Vía: TheatlasICIJ

Los Papeles de Panamá es una gigantesca colección de documentos filtrados que exponen un sistema generalizado de evasión fiscal global. La filtración incluye más de 4,8 millones de mensajes de correo electrónico, 3 millones de archivos de bases de datos, y 2,1 millones de archivos PDF  que cubren un periodo de 40 años en la firma panameña de abogados Mossack Fonseca. Según el análisis de los documentos filtrados, esta firma parece especializarse en la creación de empresas ficticias que sus clientes han utilizado para ocultar su bienes.

La fuga de los documentos de Panamá comenzó, según Gerard Ryle, director de ICIJ (Consorcio Internacional de Periodistas de Investigación), a finales de 2014, cuando una fuente anónima contactó al diario alemán Süddeutsche Zeitung, que ya había informado previamente sobre una pequeña fuga de archivos Mossack Fonseca al gobierno alemán. El reportero de SZ Bastian Obermayer afirma que la fuente contactó con él a través de un chat encriptado, ofreciendo una serie de datos “para hacer públicos estos delitos”, pero sólo estaba dispuesto a comunicarse a través de los canales codificados y se negó a reunirse en persona.

“¿De cuántos datos estamos hablando?”, preguntó Obermayer.

“Más de lo que ha visto en su vida”, respondió la fuente,  de acuerdo a Obermayer.

Obermayer se comunicaba con su fuente a través de una serie de canales codificados que cambiaban con frecuencia. Alude a las aplicaciones criptográficas como Señal y Threema, así como al correo electrónico cifrado PGP, pero se niega a decir específicamente qué métodos utilizaban.

Después de ver parte de los documentos, Süddeutsche Zeitung entró en contacto con el ICIJ, que había ayudado a coordinar anteriores filtraciones de paraísos fiscales, incluyendo una filtración del 2015 centrada en bienes protegidos por el banco suizo HSBC.

Mientras tanto, los envíos de datos filtrados continuaron de manera fragmentada. “Nos iban enviando la información a lo largo del tiempo  hasta que tuvimos 11,5 millones de documentos,” dice Gerard Ryle.

Mossack Fonseca
Vía: Flicker

Los documentos fueron procesados usando la  tecnología OCR (Reconocimiento Óptico de Caracteres) de NUIX,  que convierte los diferentes formatos en un nuevo producto y que además les permite identificar que documentos necesitan trabajo adicional. OCR toma documentos no editables, como documentos escaneados e imágenes, y los convierte en documentos editables de los que se puede extraer texto.

Una vez que los documentos se han convertido en documentos editables, los periodistas tienen una ventana de acceso que les permite buscar palabras clave, así como hacer otras búsquedas adicionales analíticas. Esto les permite conectar personas, países, nombres de compañías y valores económicos.

Nuix se unió a la investigación en un momento temprano del proceso, a comienzos del 2015. Ellos ya habían trabajado en colaboración con ICIJ en 2013, en Offshore leaks, lo cual les llevó posteriormente a trabajar con Süddeutsche Zeitung.  La fase de indexado llevó 2 semanas al llegarle a SZ la información de manera fragmentada, si  le hubiera llegado de una sola vez el procedimiento habría durado tan solo un día y medio.

Los Papeles de Panamá representan la cuarta fuga de información de paraísos fiscales coordinado por el ICIJ desde 2013.  Decenas de medios de comunicación albergan ahora sistemas de carga anónimos que utilizan protecciones criptográficas para proteger a los denunciantes. La era de las denuncias a través de los Big Data no ha hecho más que comenzar.

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s