Open Source und Journalismus

Die Techseite der Panama Papers

Melanie Feldmann

Noch vor zehn Jahren wäre eine Story wie die rund um die geleakten Panama Papers nicht möglich gewesen. Denn die heutigen technischen Möglichkeiten die 2,6 Terabyte an Daten zu analysieren standen Journalisten schlicht nicht zur Verfügung. Auch die Open-Source-Bewegung hat ihren Teil dazu beigetragen.

Die Basis für den Skandal rund um die dubiose Firma Mossack Fonseca in Panama beruht auf 11,5 Millionen Dokumenten, die der Süddeutschen Zeitung anonym zugespielt wurden. Darunter waren E-Mails, PDFs, Fotos und Auszüge aus der Datenbank des Unternehmens. Für Hilfe bei der Analyse dieser riesigen Datenmenge wandte sich die Süddeutsche Zeitung an das International Consortium of Investigative Journalists (ICIJ). Dieses hatte bereits bei den Leaks rund um geheime schweizer Bankkonten unter Beweis gestellt, dass sie mit großen Datenmengen umgehen können.

Ziel war es die Daten für Maschinen les- und durchsuchbar zu machen, damit Menschen Verknüpfungen und Zusammenhänge rekonstruieren können, um dann damit die Narrative aufzubauen, die bereits in mehreren Ländern dazu geführt hat, dass die Staatsanwälte ermitteln. Als erstes musste der Text in PDFs und Fotos maschinenlesbar gemacht werden. Dazu durchliefen die Dateien eine OCR-Software (Optical Character Recognition), die aus abgebildeten Buchstaben maschinenlesbaren Text macht. Hier kam die Software der Firma Nuix zum Einsatz, die ihre Werkzeuge den Journalisten kostenlos zur Verfügung stellte.

Zusätzlich extrahierten die Datenanalyse-Experten des ICIJ die Metadaten der Dokumente mit der Suchplattform Apache Solr und dem Content-Analyse-Tool Apache Tika. Dann verbanden sie all diese Informationen mit dem geleakten Datenset und kreierten so einen Graphen mit Knoten und Kanten. Gespeichert wurden die Daten in einer Neo4j-Graphendatenbank. Das Ergebnis zeigt die versteckten Wege und Verbindungen zwischen Banken, Kunden, den Offshore-Banken und ihren Anwälten.

Panama_Papers_Putins_Netzwerk

Das Netzwerk von Mittelsmännern und Unternehmen, die Putins Reichtum verstecken (Quelle: Linkurious.us)

Im nächsten Schritt mussten diese Daten den Journalisten so zur Verfügung gestellt werden, dass sie auch mit einem weniger gut ausgeprägten technischen Verständnis damit arbeiten können. Über Linkurious waren die Journalisten in der Lage die Verbindungen der verschiedenen Teilnehmer zu untersuchen und so die komplexen Zusammenhänge aufzudecken. Die Journalisten gingen wie folgt vor: Zuerst erstellten sie eine Liste von High Potentials wie Politikern, Kriminellen und anderen bekannten Persönlichkeiten und deren innersten Zirkel an Vertrauten. Dann suchten sie nach Verbindungen zwischen diesen sowie den Offshore-Banken und -Unternehmen. Außerdem musste der Zugang zu den Daten und die Identität der Journalisten geschützt werden. Denn viele arbeiten in Ländern, in denen die Pressefreiheit höchstens auf dem Papier existiert. Jegliche Kommunikation war verschlüsselt.

Die Kommunikation zwischen den Journalisten lief über einen virtuellen Newsroom, geschützt durch eine Zwei-Faktor-Authentifizierung mit Google Authenticator, der einen einmaligen Code zusätzlich zum eigenen Passwort generiert. In  dem virtuellen Newsroom konnten die Journalisten mit einem Facebook-ähnlichen Newsfeed über ihre Fortschritte und Ideen berichten. Auch ein Chat ist integriert. Diese Soziale Netzwerk basiert auf der Open-Source-Software Oxwall.

Das ICIJ veröffentlicht auch manche der genutzten Tools und Ergänzungen auf GitHub. Einen Teil der Daten will das ICIJ im kommenden Monat veröffentlichen. Das komplette Datenset wird jedoch in den Händen der Journalisten bleiben, um unschuldige Personen nicht zu diskreditieren – es gibt ja auch durchaus legale Gründe für ein Offshore-Konto oder -Unternehmen.

Noch vor wenigen Jahren wäre die umfassende Recherche der Journalisten nicht möglich gewesen, denn über große Rechenspeicher und Tools für die Datenanalyse verfügten maximal große Unternehmen wie Google oder Universitäten. Dadurch, dass heute Big-Data-Tools relativ einfach zu beschaffen und zu benutzen sind – und auch oft Open Source sind – können Journalisten mit riesigen Datenmengen arbeiten und so versteckte illegale Tätigkeiten aufdecken, die früher auch versteckt geblieben wären.

Aufmacherbild: Set of Colorful Cash von Shutterstock.com / Urheberrecht: Crystal Eye Studio

Verwandte Themen:

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

1 Kommentar auf "Die Techseite der Panama Papers"

avatar
400
  Subscribe  
Benachrichtige mich zu:
Open Semantic Search
Gast
Das Aufsetzten einer Suchmaschine für Recherchen in umfangreichen Dokumentenbergen mit Open Source Software funktioniert mittlerweile auch ohne umfangreiches IT-Wissen. So können mit der datenschutzfreundlichen Suchmaschine Open Semantic Search unter http://www.opensemanticsearch.org/doc/desktop_search selbstständig oder im Team und auf eigener Hardware datenschutzfreundlich hunderte, tausende, hunderttausende oder gar Millionen von Dokumenten oder hunderte Megabyte, Gigabytes oder gar einige Terabytes an Daten mit Volltextsuche durchsuchbar machen. Zudem wird anhand von konfigurierbaren Hintergrundwissen automatisch eine interaktive Navigation zu in Dokumenten enthaltenen Namen von Bundestagsabgeordneten oder Orten in Deutschland generiert oder strukturierte Informationen wie Geldbeträge extrahiert. Mittels Named Entities Manager für Personen, Organisationen, Begriffe und Orte können… Read more »