Ordnen, Bereinigen und Aufbereiten von Daten

Bevor überhaupt mit einer journalistischen Datenanalyse begonnen wird, sollte man ganz genau wissen, was man wissen will. Denn ähnlich einem/einer Interviewpartner/in kann auch eine Sammlung von Daten und Fakten nur über das Auskunft geben, was sie weiß, sprich was sie beinhaltet. Und wenn alle Fragen aufgelistet wurden, muss daran gegangen werden, die Datenbank auf ihre Antwortfähigkeit zu überprüfen. Denn hier können bereits erste Probleme auftauchen. Wer beispielsweise aufzeigen will, wo und wann welche Verbrechen wie oft in einer Stadt begangen wurden, braucht als absolutes Minimum die Variablen Datum, Tageszeit, Art des Verbrechens und genauen Ort. Allerdings muss bedacht werden, dass in weiterer Folge aufkommende Fragen wie Wert der gestohlenen Gegenstände, Alter, Bildungsstand und Geschlecht der Verbrecher/innen oder die Aufklärungsrate schlicht nicht in der Datenbank vorhanden sind. Hier empfiehlt es sich, um alle benötigten Informationen anzufragen, da dies oft billiger und schneller ist, als zusätzliche Teil-Datenbanken anzulegen. Doch nicht nur möglicherweise fehlende Inhalte können zu Schwierigkeiten führen, oft sind auch die dargebrachten Eigenschaften der vorhandenen Daten große Hürden, die es möglichst schnell zu beseitigen gilt.

Nicht alle Daten werden uns so serviert, wie wir sie für unsere Zwecke brauchen. Was an den dargebrachten Informationen in bürokratischer Hinsicht völlig ausreichen mag, kann für die journalistische Analyse schlicht zu wenig, zu ungenau oder zu unübersichtlich aufbereitet sein.  

Als ersten großen Schritt empfiehlt das “Data Journalism Handbook”, herauszufinden, wie fehlerhaft und ungenau die Datenbank überhaupt ist, um diese Probleme in weiterer Folge auszumerzen. Hierfür werden Häufigkeitstabellen jener Variablen erstellt, die erwartungsgemäß wenige verschiedene Werte aufweisen. Wird dies mit Excel gemacht, bieten sich dafür beispielsweise Filter für jede Variablenkategorie an.

Danach geht’s ans Bereinigen und Standardisieren. Tippfehler werden ausgebessert und unterschiedliche Bezeichnungen angeglichen. Das Tool “Google Refine” kann hier eine große Hilfe sein.

Die wichtigste Grundlage jeder Datenbank ist das sogenannte Data Dictionary. Im Normalfall zeigt es in Form eines Textfiles, spreadsheeds oder pdf mit den Metadaten die wichtigsten Eigenschaften einer Datenbank an, darunter auch die Anordnung und Namen der Variablen und deren jeweiligen Datentyp. Darüber hinaus beinhaltet das Data Dictionary die Erklärungen für verwendete Codes wie beispielsweise “1” für “männlich und "0” für “weiblich” oder die unterschiedlichen Bezeichnungen für verschiedene Verbrechen, medizinische Diagnosen oder Herkunftsländer. Damit wäre eine brauchbare Analyse ohne das Data Dictionary praktisch unmöglich.

Allerdings kann es trotzdem zu Schwierigkeiten kommen, denn auch das Data Dictionary kann Lücken aufweisen, die, wenn sie unerkannt bleiben, zu massiven Verfälschungen der Statistik führen können. Daher empfiehlt es sich, zusätzlich immer bei den Urhebern der Datenbanken nachzufragen, ob sich darin möglicherweise nicht- oder unklar dokumentierte Elemente befinden. Denn diese können, vergleichbar mit einem falschen Vorzeichen in einer mathematischen Formel, alle Ergebnisse unbrauchbar machen. Wer also effektive Datenanalyse betreiben möchte sollte ganz zu Beginn

– mittels genauer Auflistung herausfinden, was genau in der Datenbank vorhanden sein muss,

– Fehler und Ungenauigkeiten erkennen und beseitigen und

– etwaige Lücken aufzeigen und füllen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

sechs + elf =