Von Florence Nightingale zum Datablog: die Geschichte des Datenjournalismus

Some people think of “data” as any collection of numbers, most likely gathered on a spreadsheet. 20 years ago, that was pretty much the only sort of data that journalists dealt with. But we live in a digital world now, a world in which almost anything can be (and almost everything is) described with numbers.

The Data Journalism Handbook, Seite 2

Moderner Datenjournalismus hat seinen Durchbruch in der digitalisierten Welt des 21. Jahrhunderts erfahren, doch datenjournalistische Ansätze reichen wesentlich weiter in die Geschichte zurück. Kurz gesagt: Datenjournalismus gibt es, seit es Daten gibt.

Im Guardian etwa fand sich bereits 1821 eine Liste der Schulen in Manchester, die die Schülerzahlen und Kosten aufschlüsselte. Diese Datensammlung illustrierte, dass die Anzahl jener Schüler, die für ihre Schulbildung nicht bezahlen mussten, wesentlich größer war, als offizielle Zahlen belegten.

image

Die Liste der Schulen im Manchester Guardian (Ausschnitt) (Quelle: The Guardian)

Ein anderes Beispiel aus dem England des 19. Jahrhundert ist der Bericht “Mortality in the British Army” von Florence Nightingale. Im Jahr 1858 verwendete sie Grafiken in ihrem Bericht an das Parlament, um ein besseres Gesundheitswesen für britische Soldaten zu erreichen. Der bekannteste Ausschnitt dieses Berichts ist wohl der „coxcomb“, eine grafische Darstellung der monatlichen Todesfälle, die zeigte, dass der Großteil der Soldaten nicht durch Kugeln, sondern durch vermeidbare Krankheiten starb.

image

“Coxcomb” von Florence Nightingale (Quelle: Wikimedia)

Der wohl unmittelbarste Vorläufer dessen, was wir heute als Datenjournalismus verstehen, ist computer assisted reporting, kurz CAR. Wie der Name bereits sagt, wurden bei CAR Computer eingesetzt, um Daten zu sammeln, zu strukturieren und zu analysieren. CAR gibt es seit rund 60 Jahren, erstmals wurde die Technik vom amerikanischen TV-Sender CBS eingesetzt, um den Ausgang der amerikanischen Präsidentenwahl vorauszusagen.

In den 1960er-Jahren wurde CAR verbreitet eingesetzt, vorwiegend von Investigativjournalisten im US-amerikanischen Raum. Ziel des CAR war es stets, mittels wissenschaftlicher Methoden öffentlich zugängliche Datensätze auf eigene Faust zu analysieren – um so Trends erkennbar zu machen, Populärwissen zu widerlegen und Ungerechtigkeiten aufzuzeigen. Aus diesem Grund bekam diese Form der Berichterstattung auch den Namen public service journalism.

Als neuer Zugang zum Journalismus und als Antwort auf den “neuen Journalismus” enstand in den 1970er-Jahren der Begriff precision journalism.  Diese journalistische Form bediente sich den Methoden des CAR – gab damit gewissermaßen dem Datenjournalismus einen neuen Namen – und stellte sich offensiv gegen den new journalism, der fiktionale Elemente in die Berichterstattung einfließen ließ. Precision journalism nutzte Forschungsmethoden der Sozial- und Verhaltenswissenschaft und sollte bekannte Schwächen der journalistischen Praxis ausmerzen, wie zum Beispiel die Abhängigkeit von Pressemitteilungen oder Voreingenommenheit bei amtlichen Quellen.

Datenjournalismus, wie wir ihn heute verstehen, ist eine Geburt der Nullerjahre. Der Begriff data driven journalism, kurz DDJ, wurde 2009 vom Guardian geprägt, der in diesem Jahr auf seiner Website einen eigenen Datablog einrichtete und datengetriebene Storys mit entsprechender Visualisierung auf diesem veröffentlichte. Auch wenn der Guardian damit als absoluter Vorreiter gilt, gab es Vorläufer zu dieser Idee schon 2006: Adrian Holovaty lieferte in seinem Text “A fundamental way newspaper sites need to change” Vorschläge, wie klassischer Journalismus sich an das Internet anpassen solle. Holovatys Artikel gilt gewissermaßen als DDJ-Manifest.

Diskutiert wird momentan, ob es einen Unterschied zwischen CAR und DDJ gibt. “Die Recherche in Datensätzen, etwa Statistiken, ist wahrlich nichts Neues”, schreibt etwa Lorenz Matzat. Aber: DDJ ist für Matzat die Kombination aus Rechercheansatz und Darstellungsform. Während CAR allgemein oft als Tool angesehen (und verwendet) wird, um an und für sich bestehende Storys mit Informationen anzureichern, ist DDJ eine eigene journalistische Disziplin. Die Daten werden gesammelt, analysiert und anschließend visualisiert und veröffentlicht: nicht als Teil einer Story, sondern ergänzend oder überhaupt für sich allein gestellt.

Wenn aus Daten Geschichten werden: Prozesse im Datenjournalismus

Ein Datenjournalist arbeitet anders. Während ein anderer Journalist seine täglichen Geschichten im Alleingang schreibt, ist ein Datenjournalist mit größeren Projekten beschäftigt –  Datensammeln, Sortieren, Geschichten finden und diese visualisieren passiert nicht an einem Tag. Hinzu kommt: Er arbeitet nicht allein. Das Data Journalism Handbook gewährt einen Einblick, wie BBC, The Guardian und Zeit Online ihre Teams und Datengeschichten organisieren.

Datenjournalismus, also die Interpretation und Visualisierung von Daten im journalistischen Stil, gibt es schon solange es Medien gibt. Den aktuellen Daten-Hype beflügeln allerdings zwei Gegebenheiten: Erstens die Trends, Daten offen zu legen. Die Open Government-Bewegung sowie das Bestreben einzelner Unternehmen, Daten zugänglich zu machen haben ebenso dazu beigetragen, wie die Veröffentlichungen von Wikileaks seit 2007. Zweitens stehen heute die nötigen technischen Tools zur Verfügung, um Daten für den Einzelnen ansprechend zu visualisieren.

BBC

Das Datenjournalismus-Team der BBC besteht aus 20 Journalisten, Designern und Entwicklern, die das gesamte Datenprojekt vom Datensammeln und -interpretieren über Visualisierungen bis hin zu interaktiven und multimedialen Inhalten betreuen. Sie verfolgen dabei drei Hauptziele: Sie wollen Service für den Leser bereitstellen, eine neue Geschichte erzählen und ein komplexes Thema auf eine verständliche Art präsentieren.

Die zu verarbeitenden Daten stammen dabei aus verschiedenen Quellen; einerseits sind es öffentliche Daten (Stichwort „Opnen Government“) wie auch solche, die noch nicht allgemein zugänglich sind, also erst gesammelt oder veröffentlicht werden müssen. Die weitere Arbeit ist nicht strikt zwischen Journalisten und Designern geteilt; jeder versucht die Arbeit des anderen zu verstehen und sich weiterzuentwickeln. Somit fallen die Datenjournalisten bei der BBC allesamt in die Sparte „visual journalists“.

Zur Verwirklichung der Geschichten verwenden die Journalisten eine Vielzahl von Tools: Sie ordnen und arrangieren die Daten etwa mit Excel, Google Docs und Fusion Tables. ActionScript, Python und Perl sind Programmiersprachen mit denen die Designer die Daten visualisieren; Google Maps dient für geografische Daten. Für komplexere Grafiken steht die Adobe Suite zur Verfügung, wobei sie Flash soweit als möglich vermeiden.

The Guardian

The Guardian arbeitet auf zwei Arten mit Daten: Im Datastore werden Rohdaten publiziert. Dazu gehören Daten, die von öffentlichem Interesse sind, wie jene von der Regierung, oder von Bildung und Kultur. Im Datablog erzählen die Journalisten dann die dazugehörigen Geschichten mittels Visualisierungen etc.

Das entspricht auch dem Selbstverständnis der Guardian-Journalisten: Sie wollen weniger Gatekeeper sein, sondern jemand, der die ungefilterte Information zur Verfügung stellt und mit ausgewählten Teilen davon eine Geschichte erzählt. Ausschlaggebend für dieses Selbstverständnis seien die „WikiLeaks war logs“ 2010 gewesen. Deren Aufarbeitung hat dem Datenjournalismus beim Guardian einen solchen Aufschwung gegeben, dass die Datenjournalisten sich heute beispielsweise nicht mehr ein Büro mit den Grafikern teilen, sondern näher an die Reporter gerückt sind.

Gearbeitet wird mit einer Vielzahl von Tools, wobei das Datensammeln hauptsächlich in Excel und einfache Visualisierungen mit Google-Tools passieren. Für komplexere Aufgaben gibt es ein eigenes Design-Team. Den eignen Arbeitsprozess vom Sammeln der Daten bis hin zur fertigen Geschichte haben sie in einer Grafik veranschaulicht:

 

Zeit Online

Eine der ersten Datengeschichten bei Zeit Online zum Pisa-Wohlstandsvergleich entstand in einer Zusammenarbeit von einem Journalisten- und einem Design-Team. Während die Journalisten Daten aufarbeiteten und in eine Geschichte packten, hatte das Desing-Team die Aufgabe, sie zu veranschaulichen. Zusätzlich holten sich die Journalisten Hilfe vom Open Data Network. Das so vermittelte know-how konnten die Journalisten für die künftigen Projekte einsetzen, die so schneller und geordneter verliefen. Die beiden Teams rückten näher aneinander.

Einer der Hauptgründe, warum Datenjournalismus derzeit boomt, sieht das Zeit Online-Team in der Reichweite, die solche Projekte haben. Gerade durch die Kompatibilität mit Social Media und die einfache Bedienung ziehen sie viele neue Leser auf die Seiten. Hinzu kommt, dass datenjournalistische Projekte leicht in andere Sprache übersetzt werden können. Eine Offenlegung der dahinterstehenden Daten ist Zeit Online noch nicht so wichtig wie beispielsweise The Guardian, könnte aber in Zukunft eine größere Rolle spielen.

Geschichten in Daten finden

image

Die digitalen Spuren, die wir täglich hinterlassen, erzählen Geschichten. Über unseren Musikgeschmack, wohin wir reisen, was uns bewegt: All das scheint für immer in der digitalen Welt an Datenmengen verloren. Eine Übersicht kann man sich nur verschaffen, indem man gezielt nach Begriffen sucht.  Auch in diesen scheinbar belanglosen Alltagsinformationen lassen sich Muster und Algorithmen erkennen, die dazu dienen, Geschichten zu erzählen und Fragen zu beantworten. Wie aber findet man Geschichten in Datenstrukturen?

Daten in Geschichten verpacken

Als Neuling im Datenjournalismus hat man meistens den Eindruck, dass es dabei hauptsächlich um die Präsentation von Datensystemen geht – beispielsweise Visualisierungen, die einen raschen Überblick über die präsentierten Zahlen vermitteln, oder interaktive, durchsuchbare Datenbanken, die den Nutzern die Möglichkeit zur personalisierten Suche geben. Das alles erscheint sehr nützlich, jedoch sollte Datenjournalismus auch die Essenz des Journalismus, nämlich Geschichten, enthalten.  Eine Datenjournalismus-Geschichte sollte es dem Leser ermöglichen, sie zu lesen, ohne über die beschriebenen Datenmengen Bescheid zu wissen. 

Als Beispiel dafür ist ein Projekt des Bureau of Investigative Journalism zu nennen, welches für eine Arbeit das Finanztransparenz-System der EU heranzieht. 

 Caelainn Barr, die als Datenjournalistin an dem Projekt beteiligt war, beschreibt die Arbeitsprozesse folgendermaßen:

„Die Geschichte entstand, indem der Datensatz auf Basis von speziellen Anfragen durchforstet wurde, beispielsweise „Cocktail“, „Golf“ und „Urlaubstage“. Das half uns zu bestimmen, wie viel die Kommission für diese Dinge aufwendet. Daraus entstanden für uns weitere Fragen und Storylines.

Schlüsselbegriffe führen jedoch manchmal nicht zu dem, was man eigentlich will. Während dieses Projekts wollten wir herausfinden, wie viel EU-Kommissionäre für Reisen mit dem Privatflugzeug ausgeben. Die Datenbank enthielt jedoch nicht den Suchbegriff „Privatflugzeug“, deswegen mussten wir zuerst den Reiseanbeiter finden, der den Namen „Abelag“ trug. So konnten wir die Datenbank dann auf „Abelag“ durchsuchen, um herauszufinden wie viel für die von dem Anbieter gebotenen Services ausgegeben wurde. Durch diesen Ansatz hatten wir ein klar definiertes Ziel für unsere Datenanfragen generiert, das auch als Schlagzeile geeignet war.

Ein weiterer Ansatz ist die Erstellung einer schwarzen Liste und die diesbezügliche Suche von Ausnahmen. Ein einfacher Weg, Handlungsstränge aus Datensätzen zu bekommen ist, zu wissen, was man darin nicht finden sollte.“

(Quelle: The Data Journalism Handbook: Data Stories, S.159)

image

Screenshot der Homepage des EU-Finanztransparenzsystems

Man weiß nie, was man in einem Datensatz findet. Eine Annäherung kann gelingen, indem man versucht, offensichtliche Charakteristiken herauszufinden, die sich durch Herausfiltern zeigen, beispielsweise durch die Suche nach Extremen.

Personalisierung

Die Herausforderung dabei sollte immer sein, Geschichten aus Daten zu erschaffen, an denen ein großes öffentliches Interesse besteht, zu denen man als Privatperson aber keinen Zugang hat.

Mirko Lorenz, Begründer des Open-Source-Datenvisualisierungsprogramms „DataWrapper“, erklärt die Personalisierungsnotwendigkeit:

„Wir wollen uns unter den unvorstellbaren Zahlenmengen, die wir jeden Tag in den Nachrichten hören, etwas vorstellen können; erkennen, was die Millionen und Billionen für jeden von uns bedeuten.“

(Quelle: The Data Journalism Handbook: Chapter 2: In The Newsroom, S.60)

Daten extrahieren

Worin genau liegt jetzt das journalistische Interesse in alldem? Geschichten in Datenstrukturen finden ist eine traditionelle Definition von Datenjournalismus. Verbirgt sich eine Exklusiv-Geschichte in der Datenbank? Sind die Angaben und Darstellungen akkurat? Beweisen oder widerlegen sie ein Problem? All das sind Fragen, die sich Daten-Journalisten oder Computer-Assisted-Reporter stellen müssen. Die meiste Zeit verbringt man als Datenjournalist mit dem Durchkämmen von massiven Datenmengen, in der Hoffnung etwas Bemerkenswerktes zu finden.

„Die Motivation sollte immer der Effekt sein; auf das Leben der Menschen, auf die Gesetzgebung,auf das Verantwortungsbewusstsein der Politiker. (…) Unsere Arbeit lebt, wenn sie einem Leser dabei hillft, seine eigene Geschichte in den Daten zu finden.“ – Brian Boyer, Chicago Tribune

(Quelle: The Data Journalism Handbook: Chapter 2: In The Newsroom, S. 34)

Zensusdaten – drei Quellen

Zensusdaten beinhalten genaue Informationen über verschiedenste statistische Parameter, die als Grundlage für das politische und verwaltungsmäßige Handeln genutzt werden. Die Planung von Wohnungsbauprogrammen, Maßnahmen zur Verbesserung der öffentlichen Infrastruktur, Bemessungsgrundlagen für die Finanzierung der öffentlichen Haushalte oder Steuerschätzungen der Zahlen können durch die Ermittlung von Bevölkerungszahlen und Haushaltsstrukturen genauer und zielgerichteter ausgeführt werden. 

Doch wie kommt man als Journalist an Zensusdaten heran? Drei verlässliche und vertrauenswürdige Quellen, sind die Statistik Austria, der Census Reporter und eurostat.


Statistik Austria

Volkszählungen werden in Österreich seit 1754 vorgenommen. Die Volkszählung 2001 war die letzte konventionelle Volkszählung in Österreich, bei der mittels Fragebogen erhoben wurde. Denn: Im Juni 2000 beschloss die Bundesregierung Schüssel I, die Zählung 2011 als Registerzählung durchzuführen. Das Zentrale Melderegister bildet das Rückgrat der Registerzählung. Weitere Basisregister sind das Gebäude- und Wohnungsregister, das Unternehmensregister und das Bildungsstandregister der Bundesanstalt “Statistik Österreich” sowie das Register des Hauptverbandes der österreichischen Sozialversicherungsträger, die Daten der Schul- und Hochschulstatistik, die Daten des Arbeitsmarktservices und die Stammdaten der Abgabenbehörden des Bundes.

Statistik Austria veröffentlichte im Jahr 2011 ein Video zur Funktionsweise und dem Ablauf der Registerzählung.

Auf Basis der Registerzählung und der damit erhobenen Zensusdaten publizierte Statistik Austria u.a. unter den Gesichtspunkten Einkommen, Erwerbstätigkeit und Demografie zahlreiche Zahlen und Infografiken.

Weiters liefert Statistik Austria laufend aktuelle Zahlen, Grafiken und Prognosen rund um Bevölkerungsstrukturen (Alter, Geschlecht, Staatsangehörigkeit), sowie Geburten, Sterbefälle und Wanderungen (Migration). Daten über Einbürgerungen sowie über Eheschließungen und Scheidungen ergänzen das System der Bevölkerungsstatistik. Brandaktuell erschienen ist eine interaktive Infografik, die die natürliche Bevölkerungsbewegung 2012 visualisiert.


Census Reporter

Die Seite beta.censusreporter.org bietet umfangreiches Datenmaterial aus Amerika und maßschneidert diese auf gewählte, individuelle Suchoptionen. Zum einen hat man die Möglichkeit Daten in den Kategorien “Demographics”, “Economics”, “Families”, “Housing” und “Social” von bestimmte Staaten, aber auch einzelnen Städten und Orten zu filtern. 

Nach Eingabe des gewünschtes Staates oder Orts, erhält man attraktiv aufbereitete Zensusdaten, hier am Beispiel Greenwich im Bundesstaat Connecicut.

Weiters besteht die Möglichkeit Datensätze miteinander zu vergleichen:

eurostat

Eurostat ist das statistische Amt der Europäischen Union mit Sitz in Luxemburg. Es hat den Auftrag, die Union mit europäischen Statistiken zu versorgen, die Vergleiche zwischen Ländern und Regionen ermöglichen. Eurostat bietet zwar viele Zensusdaten, im Gegensatz zum Census Reporter ist die Usability der Seite eher als schlecht zu bewerten. Die Seite ist leider sehr unübersichtlich gestaltet – explizite Datensätze zu finden, gestaltet sich als nicht ganz so einfach.

Man hat mehrere Möglichkeiten nach Zensusdaten zu suchen. Entweder über den Menüpunkt “Statistik von nach Themen” oder “Statistik A-Z”. Bei der Themensuche gelangt u.a. zu Daten rund um das Thema “Bevölkerung und soziale Bedingungen”.

Die Daten sind auch in den Unterpunkten leider nicht besonders attraktiv aufbereitet.

Österreich. Ein Niemandsland der Daten?

Frei verfügbare Daten sind in Österreich oftmals noch eine Rarität. Öffentliche Daten gelten hierzulande als heiliges Gut und schlummern friedlich in ihren Datenbanken, die nur selten öffentlich zugänglich sind.

Trotzdem gibt es schon verschiedene Möglichkeiten, an behördliche Daten zu kommen und einzelne Bundesländer haben begonnen, ihre Verwaltungsdaten offen zu legen.

Dieser Beitrag gibt einen Überblick über die wichtigsten öffentlichen Datenquellen in und aus Österreich:

Frag den Staat

Unter www.fragdenstaat.at können Fragen an die Bundesministerien und die Landesregierungen gestellt werden. Da jeder Bürger nach dem Auskunftspflichtsgesetz das Recht auf Informationen zu Handlungen der öffentlichen Hand hat, kann auf dieser Seite jedermann seine Anfragen und Anliegen an öffentliche Behörden stellen und erhält Auskunft über Fragen zum österreichischen Staat.

FragDenStaat.at erleichtert es Nutzern, sich mit Anfragen an Behörden zu wenden. Man stellt seine Anfrage einfach über ein Web-Formular.

image

Die Plattform veröffentlicht daraufhin alle amtlichen Informationsanfragen und ihre Antworten, sodass die Öffentlichkeit den Vorgang prüfen kann. Dadurch wird FraagDenStaat.at zu einer Sammelstelle für amtliche Informationen. Nutzer haben außerdem die Möglichkeit, den Antwortenpool nach Schlagworten zu durchsuchen. Gleichzeitig dient die Veröffentlichung des Frage- und Antworthergangs dazu, die Antwortpraxis der Behörden transparent und kontrollierbarer zu machen.

Das Portal soll speziell für investigative Journalisten und Nichtregierungsorganisationen nützlich sein. Anfragen können dabei nicht-öffentlich gestellt und erst zu einem späteren Zeitpunkt veröffentlicht werden. Dadurch wird die Exklusivität der Information gewahrt.

Grundsätzlich ist die Behörde dazu verpflichtet, auf gestellte Anfragen zu antworten. Ausnahmen gelten dann, wenn aus rechtlichen Gründen keine Auskunft gegeben werden kann, oder die Auskunft zu aufwändig bzw. kostspielig ist. Ein weiteres Manko: man erhält die Daten nicht in geschlossenen Datensätzen.

data.gv.at  – offene Daten Österreich

data.gv.at bietet einen Katalog offener Datensätze und Dienste aus der öffentlichen Verwaltung, die auf den Open Data-Prinzipien basieren. Diese Daten sind frei nutzbar, sowohl für persönliche, als auch kommerzielle Zwecke.

data.gv.at soll als zentraler „Österreich“-Katalog die Metadaten der dezentralen Datenkataloge in Österreich in sich aufnehmen und manuell wie automatisiert abrufbar halten.

image

Derzeit sind schon über 1000 Datensätze auf der Seite verfügbar. data.gv.at bietet alles, von Wetterdaten bis zu genauen statistischen Daten aus allen Resorts und Verwaltungsebenen.

Hinter data.gv.at steckt die Cooperation OGD Österreich – ein Zusammenschluss aus Bund, Ländern und Gemeinden, die gemeinsam eine Plattform für offene Daten aus der Verwaltung anbieten.

Ziel der OGD ist es, öffentliche Daten (GIS-Daten, Mikrozensus, Volkszählung, Umweltdaten, Verkehrsdaten, Daten versch. NPOs, NGOs, etc.) in menschen- und maschinenlesbarer Form der Bevölkerung und der Wirtschaft frei verfügbar zu machen.

Diese private Initiative arbeitet in Kooperation mit der öffentlichen Hand und div. Bundesämtern und Organisationen zusammen. 

Weiterführende Links:

Offener Haushalt

Seit November 2013 werden unter www.offenerhaushalt.at  die Finanzen und das Budget österreichischer Gemeinden übersichtlich präsentiert. Auf dem Portal sind die Rechnungsabschlüsse und Ausgaben der Jahre 2001-2012 hinterlegt. Bereits 500 Gemeinden haben den Zugang benutzt, etwa 10% haben die Freischaltung vorgenommen.

image

Die österreichischen Gemeinden, BürgerInnen und andere Interessenten erhalten einen einzigartigen Überblick über die Gemeindefinanzen einzelner Orte und Städte und können diese auch – ganz im Sinne einer transparenten Haushaltsführung – generell im Internet verfügbar machen. Da die BürgermeisterInnen selbst die Möglichkeit haben, eine Freischaltung durchzuführen, kommen laufend neue Gemeinden dazu.

Weitere Links zu wichtigen österreichischen Datenlieferanten