Ordnen, Bereinigen und Aufbereiten von Daten

Bevor überhaupt mit einer journalistischen Datenanalyse begonnen wird, sollte man ganz genau wissen, was man wissen will. Denn ähnlich einem/einer Interviewpartner/in kann auch eine Sammlung von Daten und Fakten nur über das Auskunft geben, was sie weiß, sprich was sie beinhaltet. Und wenn alle Fragen aufgelistet wurden, muss daran gegangen werden, die Datenbank auf ihre Antwortfähigkeit zu überprüfen. Denn hier können bereits erste Probleme auftauchen. Wer beispielsweise aufzeigen will, wo und wann welche Verbrechen wie oft in einer Stadt begangen wurden, braucht als absolutes Minimum die Variablen Datum, Tageszeit, Art des Verbrechens und genauen Ort. Allerdings muss bedacht werden, dass in weiterer Folge aufkommende Fragen wie Wert der gestohlenen Gegenstände, Alter, Bildungsstand und Geschlecht der Verbrecher/innen oder die Aufklärungsrate schlicht nicht in der Datenbank vorhanden sind. Hier empfiehlt es sich, um alle benötigten Informationen anzufragen, da dies oft billiger und schneller ist, als zusätzliche Teil-Datenbanken anzulegen. Doch nicht nur möglicherweise fehlende Inhalte können zu Schwierigkeiten führen, oft sind auch die dargebrachten Eigenschaften der vorhandenen Daten große Hürden, die es möglichst schnell zu beseitigen gilt.

Nicht alle Daten werden uns so serviert, wie wir sie für unsere Zwecke brauchen. Was an den dargebrachten Informationen in bürokratischer Hinsicht völlig ausreichen mag, kann für die journalistische Analyse schlicht zu wenig, zu ungenau oder zu unübersichtlich aufbereitet sein.  

Als ersten großen Schritt empfiehlt das “Data Journalism Handbook”, herauszufinden, wie fehlerhaft und ungenau die Datenbank überhaupt ist, um diese Probleme in weiterer Folge auszumerzen. Hierfür werden Häufigkeitstabellen jener Variablen erstellt, die erwartungsgemäß wenige verschiedene Werte aufweisen. Wird dies mit Excel gemacht, bieten sich dafür beispielsweise Filter für jede Variablenkategorie an.

Danach geht’s ans Bereinigen und Standardisieren. Tippfehler werden ausgebessert und unterschiedliche Bezeichnungen angeglichen. Das Tool “Google Refine” kann hier eine große Hilfe sein.

Die wichtigste Grundlage jeder Datenbank ist das sogenannte Data Dictionary. Im Normalfall zeigt es in Form eines Textfiles, spreadsheeds oder pdf mit den Metadaten die wichtigsten Eigenschaften einer Datenbank an, darunter auch die Anordnung und Namen der Variablen und deren jeweiligen Datentyp. Darüber hinaus beinhaltet das Data Dictionary die Erklärungen für verwendete Codes wie beispielsweise “1” für “männlich und "0” für “weiblich” oder die unterschiedlichen Bezeichnungen für verschiedene Verbrechen, medizinische Diagnosen oder Herkunftsländer. Damit wäre eine brauchbare Analyse ohne das Data Dictionary praktisch unmöglich.

Allerdings kann es trotzdem zu Schwierigkeiten kommen, denn auch das Data Dictionary kann Lücken aufweisen, die, wenn sie unerkannt bleiben, zu massiven Verfälschungen der Statistik führen können. Daher empfiehlt es sich, zusätzlich immer bei den Urhebern der Datenbanken nachzufragen, ob sich darin möglicherweise nicht- oder unklar dokumentierte Elemente befinden. Denn diese können, vergleichbar mit einem falschen Vorzeichen in einer mathematischen Formel, alle Ergebnisse unbrauchbar machen. Wer also effektive Datenanalyse betreiben möchte sollte ganz zu Beginn

– mittels genauer Auflistung herausfinden, was genau in der Datenbank vorhanden sein muss,

– Fehler und Ungenauigkeiten erkennen und beseitigen und

– etwaige Lücken aufzeigen und füllen.

Informationsfreiheitsgesetz: Spätzünder Österreich

„Auskunftspflicht: Österreich an letzter Stelle“, titelte die österreichische Tageszeitung Der Standard im November 2013. Im Artikel nahm der Autor Bezug auf das „Global Right to Information Rating“, eine internationale Studie zum Thema Informationsfreiheit. Österreich landete unter 95 untersuchten Ländern auf dem letzten Platz.

image

Die Informationsfreiheit soll Transparenz gewährleisten: Im Sinne eines „gläsernen Staates“ sollen Ämter und Behörden ihre Unterlagen und Daten offenlegen und für die Bevölkerung zugänglich machen. In bisher 95 Nationen (Stand September 2013; Quelle: http://right2info.org/access-to-information-laws#section-1) garantieren sogenannte Informationsfreiheitsgesetze (IFG) den Bürgern Zugriff auf staatliche Akten.

Betrachtet man die Gesetzeslage in Österreich, kommt das hiesige Auskunftspflichtgesetz einem IFG am nächsten: Demnach seien die Organe des Bundes dazu verpflichtet, über die „Angelegenheiten ihres Wirkungsbereiches Auskünfte zu erteilen, soweit eine gesetzliche Verschwiegenheitspflicht dem nicht entgegensteht.“ Das Amtsgeheimnis ist in Österreich in der Verfassung verankert und wird häufig vorgeschoben, wenn Bürger um eine Ankunft ansuchen. Außerdem sei es mit ein Grund, warum Österreich im „Global Right to Information Rating“ so schlecht bewertet wurde. Es gibt zudem weitere Einschränkungen im Auskunftspflichtgesetz – eine Anfrage muss zum Beispiel nicht beantwortet werden, wenn die erbetene Auskunft „mutwillig“ oder „zu aufwändig“ ist.

Österreichs Verwaltung zeigt sich also zugeknöpft und hält ihre Daten unter Verschluss. Noch, denn langsam zeichnet sich ein Umdenken ab. Im Jahr 2013 wurde im Parlament über eine Lockerung des Amtsgeheimnisses diskutiert, vor der Nationalratswahl Ende September konnte man sich allerdings nicht mehr einigen – die Angelegenheit wurde verschoben und soll in der nächsten Legislaturperiode wieder aufgegriffen werden.

In der Bevölkerung formiert sich inzwischen der Widerstand dagegen, dass der Staat den Bürgern Informationen vorenthält. Die Forderung nach einem IFG wird lauter, die Internetplattform www.transparenzgesetz.at verzeichnet bereits über 10.000 Unterstützer, die ihre Petition unterzeichnet haben. Der Politikwissenschaftler Hubert Sickinger gründete die Plattform gemeinsam mit dem ehemaligen Journalisten Josef Barth. Ihre Devise lautet, dass „Bürger das Recht haben sollten, zu wissen. Oder besser: wissen zu dürfen“.

Laut Helen Darbishire, Direktorin der spanisch-britischen Organisation „Access-Info Europe“, die maßgeblich an der Durchführung des Ratings beteiligt war, ist Transparenz nicht nur wichtig, damit die Bevölkerung einfacher an Informationen kommt. In diversen Interviews versichert sie, dass durch mehr Transparenz die Korruption zurückgehen würde. Auch Beamte würden sorgfältiger und genauer arbeiten und Informationen besser ordnen – was ihren Erfahrungen nach zu einer effizienteren Verwaltung führen würde.

In Deutschland trat das IFG bereits 2006 in Kraft, ebenso in der Schweiz – was im direkten Vergleich mit Schweden aber recht spät erscheint: Dort gibt es ein entsprechendes Gesetz bereits seit dem Jahr 1766. Österreich ist mit seinem fest verankerten Amtsgeheimnis ein Spätzünder, ein baldiges Umdenken wäre nicht nur wünschenswert, sondern mehr als zeitgemäß. Immerhin liegt die Republik im internationalen Vergleich hinter Ländern wie Äthiopien, Brasilien oder China.

Datenvisualisierungstools – schnell, einfach, gratis

Während große Data-Storys (z.B. die interaktive Infografik des Guardian über die Ausgaben der britischen Regierung oder die Auswertung der Tweets anlässlich der “London Riots”) nur von erfahrenen Grafikern und mithilfe aufwendiger Programme erstellt werden können, greifen Redaktionen dennoch oft zu Gratis-Tools im Internet, mit denen man relativ schnell und einfach Daten visualisieren kann. Das “Data Journalism Handbook” empfiehlt folgende Datenvisualisierungstools:

Google Fusion Tables

…ist eine Webapplikation, die Daten aus Tabellen visualisiert und dabei auch mit riesigen Datenmengen umgehen kann. Ein besonderes Feature ist die Möglichkeit, Daten aus mehreren Tabellen zu kombinieren und auf verschiedene Arten aufzubereiten. Im journalistischen Bereich werden mit Google Fusion Tables vor allem Karten erstellt, wobei Datensätze mit Google Maps kombiniert werden. Das Handling ist nicht ganz einfach, das Ergebnis mitunter aber eindrucksvoll – wie in diesem Beispiel des Guardian, bei dem die Schauplätze der “London Riots” mit Daten zur sozialen Situation der Menschen in den entsprechenden Gegenden in Verbindung gestellt werden.

image

Tableau Public

…ist eine Desktop-Applikation für Windows. Damit lassen sich komplexe, interaktive und vor allem grafisch ansprechende Visualisierungen erstellen. Die argentinische Tageszeitung “La Nación” nutzt hauptsächlich Tableau Public für ihre datenjournalistischen Projekte und hat damit beispielsweise eine interaktive Darstellung aller Tore des Fußballspielers Lionel Messi im Jahr 2012 erstellt, in der man als User stöbern und mit den Daten herumspielen kann.

Google Spreadsheet Charts

Mit Google Spreadsheets lassen sich – ähnlich wie mit Microsoft Excel – auch Diagramme erstellen. Man wählt aus einer Auswahl vorgegebener Darstellungen (Balkendiagramme, Torten, etc.) und kann das Diagramm anschließend teilen oder auf externen Webseiten einbetten. Die Anwendung ist schnell und unkompliziert.

Datamarket

…ist ein weiteres Onlinetool für Diagramme. Die Darstellungsformen sind zwar begrenzt (vorwiegend Linien-, Balken-,  und Tortendiagramme), dafür wartet das Tool mit einer großen Auswahl von Datensätzen auf, die man direkt verwenden und kombinieren kann. Die Grundversion ist gratis, für zusätzliche Funktionen gibt es eine Premium Version. Ein Beispiel für ein einfaches Liniendiagramm ist die Statistik der zivilen Opfer in Afghanistan; doch auch interaktive Grafiken wie diese Bevölkerungspyramide von Island lassen sich mit Datamarket erstellen.

image

Many Eyes

…ist eine Webapplikation von IBM, mit der relativ schnell und einfach Visualisierungen erstellt werden können. Während die Funktionen eingeschränkt sind (so kann man beispielsweise Daten nicht mehr bearbeiten, sobald sie einmal hochgeladen sind), sticht Many Eyes vor allem durch seine sozialen Features und Textvisualisierungen hervor. Unter den Templates zur Visualisierung befinden sich auch Wordclouds oder Mindmaps. Alle Grafiken werden auf der Many Eyes Seite gespeichert und können dort kommentiert und geteilt werden. Ein Beispiel: Die Bier-Exportländer der USA.

Weitere Datenvisualisierungstools

Darüber hinaus gibt es natürlich noch viele weitere Webtools, mit denen man Grafiken und Diagramme erstellen kann. Sehr verbreitet unter Datenjournalisten ist Datawrapper, ein Tool für Diagramme, die man extern einbetten kann. Simon Rogers vom Guardian empfiehlt Chartsbin, ein Tool für interaktive Weltkarten, iCharts für kleine Diagramme, Geocommons, um Daten auf Open Street Map zu visualisieren und piktocharts.com für bunte, moderne Infografiken, die Text und Zahlen kombinieren. Ähnlich funktioniert auch infogr.am – beide sind einfach zu bedienende Webtools mit vorgegebenen Designtemplates.

image

Für Timelines gibt es Dipity und Timeline JS – letzteres Tool baut mit Daten, die in einem Google Spreadsheet angelegt werden, automatisch eine scrollbare Zeitleiste, in die auch allerlei Medien eingebettet werden können. Mit Animaps lassen sich auch Weltkarten um eine Dimension erweitern – das Ergebnis sind animierte Karten, mit denen man Geschehnisse geografisch und im Zeitverlauf darstellen kann.

Ein Tool, das im Data Journalism Handbook am Rande erwähnt wird, ist Color Brewer. Damit kann man Farbpaletten für Karten und Diagramme erstellen.

Visualisieren oder nicht visualisieren?

Dass an Visualisierungstools im Internet kein Mangel besteht, zeigen auch zahlreiche Listen, die Tools für Diagramme, Karten und Infografiken aufzählen und bewerten (z.B.: hier und hier). Die Frage, die sich stellt, ist wann Visualisierungen, so schön und einfach erstellt sie auch sein mögen, Sinn machen.

“…with the barrier to entry now barely a speed bump, the question facing journalists is now less about whether you can turn your dataset into a visualization, but whether you should. Bad data visualization is worse in many respects than none at all.”

— Aron Pilhofer, New York Times

Pilhofer bezieht sich dabei vor allem auf nichtssagende Wordclouds. Gute Datenvisualisierung ist nur möglich, wenn dahinter solide, genaue und ausdrucksstarke Daten stehen. Im Data Journalism Handbook werden folgende Fälle genannt, in denen es besser ist, auf Visualisierungen ganz zu verzichten:

  • Wenn eine Geschichte mit Text oder Multimediaformen besser erzählt werden kann
  • Wenn nur wenige aussagekäftige Daten vorhanden sind
  • Wenn sich in den Daten kein klarer Trend oder keine eindeutige Schlussfolgerung abzeichnet
  • Wenn eine einfache Tabelle auch ausreicht

Von Florence Nightingale zum Datablog: die Geschichte des Datenjournalismus

Some people think of “data” as any collection of numbers, most likely gathered on a spreadsheet. 20 years ago, that was pretty much the only sort of data that journalists dealt with. But we live in a digital world now, a world in which almost anything can be (and almost everything is) described with numbers.

The Data Journalism Handbook, Seite 2

Moderner Datenjournalismus hat seinen Durchbruch in der digitalisierten Welt des 21. Jahrhunderts erfahren, doch datenjournalistische Ansätze reichen wesentlich weiter in die Geschichte zurück. Kurz gesagt: Datenjournalismus gibt es, seit es Daten gibt.

Im Guardian etwa fand sich bereits 1821 eine Liste der Schulen in Manchester, die die Schülerzahlen und Kosten aufschlüsselte. Diese Datensammlung illustrierte, dass die Anzahl jener Schüler, die für ihre Schulbildung nicht bezahlen mussten, wesentlich größer war, als offizielle Zahlen belegten.

image

Die Liste der Schulen im Manchester Guardian (Ausschnitt) (Quelle: The Guardian)

Ein anderes Beispiel aus dem England des 19. Jahrhundert ist der Bericht “Mortality in the British Army” von Florence Nightingale. Im Jahr 1858 verwendete sie Grafiken in ihrem Bericht an das Parlament, um ein besseres Gesundheitswesen für britische Soldaten zu erreichen. Der bekannteste Ausschnitt dieses Berichts ist wohl der „coxcomb“, eine grafische Darstellung der monatlichen Todesfälle, die zeigte, dass der Großteil der Soldaten nicht durch Kugeln, sondern durch vermeidbare Krankheiten starb.

image

“Coxcomb” von Florence Nightingale (Quelle: Wikimedia)

Der wohl unmittelbarste Vorläufer dessen, was wir heute als Datenjournalismus verstehen, ist computer assisted reporting, kurz CAR. Wie der Name bereits sagt, wurden bei CAR Computer eingesetzt, um Daten zu sammeln, zu strukturieren und zu analysieren. CAR gibt es seit rund 60 Jahren, erstmals wurde die Technik vom amerikanischen TV-Sender CBS eingesetzt, um den Ausgang der amerikanischen Präsidentenwahl vorauszusagen.

In den 1960er-Jahren wurde CAR verbreitet eingesetzt, vorwiegend von Investigativjournalisten im US-amerikanischen Raum. Ziel des CAR war es stets, mittels wissenschaftlicher Methoden öffentlich zugängliche Datensätze auf eigene Faust zu analysieren – um so Trends erkennbar zu machen, Populärwissen zu widerlegen und Ungerechtigkeiten aufzuzeigen. Aus diesem Grund bekam diese Form der Berichterstattung auch den Namen public service journalism.

Als neuer Zugang zum Journalismus und als Antwort auf den “neuen Journalismus” enstand in den 1970er-Jahren der Begriff precision journalism.  Diese journalistische Form bediente sich den Methoden des CAR – gab damit gewissermaßen dem Datenjournalismus einen neuen Namen – und stellte sich offensiv gegen den new journalism, der fiktionale Elemente in die Berichterstattung einfließen ließ. Precision journalism nutzte Forschungsmethoden der Sozial- und Verhaltenswissenschaft und sollte bekannte Schwächen der journalistischen Praxis ausmerzen, wie zum Beispiel die Abhängigkeit von Pressemitteilungen oder Voreingenommenheit bei amtlichen Quellen.

Datenjournalismus, wie wir ihn heute verstehen, ist eine Geburt der Nullerjahre. Der Begriff data driven journalism, kurz DDJ, wurde 2009 vom Guardian geprägt, der in diesem Jahr auf seiner Website einen eigenen Datablog einrichtete und datengetriebene Storys mit entsprechender Visualisierung auf diesem veröffentlichte. Auch wenn der Guardian damit als absoluter Vorreiter gilt, gab es Vorläufer zu dieser Idee schon 2006: Adrian Holovaty lieferte in seinem Text “A fundamental way newspaper sites need to change” Vorschläge, wie klassischer Journalismus sich an das Internet anpassen solle. Holovatys Artikel gilt gewissermaßen als DDJ-Manifest.

Diskutiert wird momentan, ob es einen Unterschied zwischen CAR und DDJ gibt. “Die Recherche in Datensätzen, etwa Statistiken, ist wahrlich nichts Neues”, schreibt etwa Lorenz Matzat. Aber: DDJ ist für Matzat die Kombination aus Rechercheansatz und Darstellungsform. Während CAR allgemein oft als Tool angesehen (und verwendet) wird, um an und für sich bestehende Storys mit Informationen anzureichern, ist DDJ eine eigene journalistische Disziplin. Die Daten werden gesammelt, analysiert und anschließend visualisiert und veröffentlicht: nicht als Teil einer Story, sondern ergänzend oder überhaupt für sich allein gestellt.

Wenn aus Daten Geschichten werden: Prozesse im Datenjournalismus

Ein Datenjournalist arbeitet anders. Während ein anderer Journalist seine täglichen Geschichten im Alleingang schreibt, ist ein Datenjournalist mit größeren Projekten beschäftigt –  Datensammeln, Sortieren, Geschichten finden und diese visualisieren passiert nicht an einem Tag. Hinzu kommt: Er arbeitet nicht allein. Das Data Journalism Handbook gewährt einen Einblick, wie BBC, The Guardian und Zeit Online ihre Teams und Datengeschichten organisieren.

Datenjournalismus, also die Interpretation und Visualisierung von Daten im journalistischen Stil, gibt es schon solange es Medien gibt. Den aktuellen Daten-Hype beflügeln allerdings zwei Gegebenheiten: Erstens die Trends, Daten offen zu legen. Die Open Government-Bewegung sowie das Bestreben einzelner Unternehmen, Daten zugänglich zu machen haben ebenso dazu beigetragen, wie die Veröffentlichungen von Wikileaks seit 2007. Zweitens stehen heute die nötigen technischen Tools zur Verfügung, um Daten für den Einzelnen ansprechend zu visualisieren.

BBC

Das Datenjournalismus-Team der BBC besteht aus 20 Journalisten, Designern und Entwicklern, die das gesamte Datenprojekt vom Datensammeln und -interpretieren über Visualisierungen bis hin zu interaktiven und multimedialen Inhalten betreuen. Sie verfolgen dabei drei Hauptziele: Sie wollen Service für den Leser bereitstellen, eine neue Geschichte erzählen und ein komplexes Thema auf eine verständliche Art präsentieren.

Die zu verarbeitenden Daten stammen dabei aus verschiedenen Quellen; einerseits sind es öffentliche Daten (Stichwort „Opnen Government“) wie auch solche, die noch nicht allgemein zugänglich sind, also erst gesammelt oder veröffentlicht werden müssen. Die weitere Arbeit ist nicht strikt zwischen Journalisten und Designern geteilt; jeder versucht die Arbeit des anderen zu verstehen und sich weiterzuentwickeln. Somit fallen die Datenjournalisten bei der BBC allesamt in die Sparte „visual journalists“.

Zur Verwirklichung der Geschichten verwenden die Journalisten eine Vielzahl von Tools: Sie ordnen und arrangieren die Daten etwa mit Excel, Google Docs und Fusion Tables. ActionScript, Python und Perl sind Programmiersprachen mit denen die Designer die Daten visualisieren; Google Maps dient für geografische Daten. Für komplexere Grafiken steht die Adobe Suite zur Verfügung, wobei sie Flash soweit als möglich vermeiden.

The Guardian

The Guardian arbeitet auf zwei Arten mit Daten: Im Datastore werden Rohdaten publiziert. Dazu gehören Daten, die von öffentlichem Interesse sind, wie jene von der Regierung, oder von Bildung und Kultur. Im Datablog erzählen die Journalisten dann die dazugehörigen Geschichten mittels Visualisierungen etc.

Das entspricht auch dem Selbstverständnis der Guardian-Journalisten: Sie wollen weniger Gatekeeper sein, sondern jemand, der die ungefilterte Information zur Verfügung stellt und mit ausgewählten Teilen davon eine Geschichte erzählt. Ausschlaggebend für dieses Selbstverständnis seien die „WikiLeaks war logs“ 2010 gewesen. Deren Aufarbeitung hat dem Datenjournalismus beim Guardian einen solchen Aufschwung gegeben, dass die Datenjournalisten sich heute beispielsweise nicht mehr ein Büro mit den Grafikern teilen, sondern näher an die Reporter gerückt sind.

Gearbeitet wird mit einer Vielzahl von Tools, wobei das Datensammeln hauptsächlich in Excel und einfache Visualisierungen mit Google-Tools passieren. Für komplexere Aufgaben gibt es ein eigenes Design-Team. Den eignen Arbeitsprozess vom Sammeln der Daten bis hin zur fertigen Geschichte haben sie in einer Grafik veranschaulicht:

 

Zeit Online

Eine der ersten Datengeschichten bei Zeit Online zum Pisa-Wohlstandsvergleich entstand in einer Zusammenarbeit von einem Journalisten- und einem Design-Team. Während die Journalisten Daten aufarbeiteten und in eine Geschichte packten, hatte das Desing-Team die Aufgabe, sie zu veranschaulichen. Zusätzlich holten sich die Journalisten Hilfe vom Open Data Network. Das so vermittelte know-how konnten die Journalisten für die künftigen Projekte einsetzen, die so schneller und geordneter verliefen. Die beiden Teams rückten näher aneinander.

Einer der Hauptgründe, warum Datenjournalismus derzeit boomt, sieht das Zeit Online-Team in der Reichweite, die solche Projekte haben. Gerade durch die Kompatibilität mit Social Media und die einfache Bedienung ziehen sie viele neue Leser auf die Seiten. Hinzu kommt, dass datenjournalistische Projekte leicht in andere Sprache übersetzt werden können. Eine Offenlegung der dahinterstehenden Daten ist Zeit Online noch nicht so wichtig wie beispielsweise The Guardian, könnte aber in Zukunft eine größere Rolle spielen.