Datenvisualisierungstools – schnell, einfach, gratis

Während große Data-Storys (z.B. die interaktive Infografik des Guardian über die Ausgaben der britischen Regierung oder die Auswertung der Tweets anlässlich der “London Riots”) nur von erfahrenen Grafikern und mithilfe aufwendiger Programme erstellt werden können, greifen Redaktionen dennoch oft zu Gratis-Tools im Internet, mit denen man relativ schnell und einfach Daten visualisieren kann. Das “Data Journalism Handbook” empfiehlt folgende Datenvisualisierungstools:

Google Fusion Tables

…ist eine Webapplikation, die Daten aus Tabellen visualisiert und dabei auch mit riesigen Datenmengen umgehen kann. Ein besonderes Feature ist die Möglichkeit, Daten aus mehreren Tabellen zu kombinieren und auf verschiedene Arten aufzubereiten. Im journalistischen Bereich werden mit Google Fusion Tables vor allem Karten erstellt, wobei Datensätze mit Google Maps kombiniert werden. Das Handling ist nicht ganz einfach, das Ergebnis mitunter aber eindrucksvoll – wie in diesem Beispiel des Guardian, bei dem die Schauplätze der “London Riots” mit Daten zur sozialen Situation der Menschen in den entsprechenden Gegenden in Verbindung gestellt werden.

image

Tableau Public

…ist eine Desktop-Applikation für Windows. Damit lassen sich komplexe, interaktive und vor allem grafisch ansprechende Visualisierungen erstellen. Die argentinische Tageszeitung “La Nación” nutzt hauptsächlich Tableau Public für ihre datenjournalistischen Projekte und hat damit beispielsweise eine interaktive Darstellung aller Tore des Fußballspielers Lionel Messi im Jahr 2012 erstellt, in der man als User stöbern und mit den Daten herumspielen kann.

Google Spreadsheet Charts

Mit Google Spreadsheets lassen sich – ähnlich wie mit Microsoft Excel – auch Diagramme erstellen. Man wählt aus einer Auswahl vorgegebener Darstellungen (Balkendiagramme, Torten, etc.) und kann das Diagramm anschließend teilen oder auf externen Webseiten einbetten. Die Anwendung ist schnell und unkompliziert.

Datamarket

…ist ein weiteres Onlinetool für Diagramme. Die Darstellungsformen sind zwar begrenzt (vorwiegend Linien-, Balken-,  und Tortendiagramme), dafür wartet das Tool mit einer großen Auswahl von Datensätzen auf, die man direkt verwenden und kombinieren kann. Die Grundversion ist gratis, für zusätzliche Funktionen gibt es eine Premium Version. Ein Beispiel für ein einfaches Liniendiagramm ist die Statistik der zivilen Opfer in Afghanistan; doch auch interaktive Grafiken wie diese Bevölkerungspyramide von Island lassen sich mit Datamarket erstellen.

image

Many Eyes

…ist eine Webapplikation von IBM, mit der relativ schnell und einfach Visualisierungen erstellt werden können. Während die Funktionen eingeschränkt sind (so kann man beispielsweise Daten nicht mehr bearbeiten, sobald sie einmal hochgeladen sind), sticht Many Eyes vor allem durch seine sozialen Features und Textvisualisierungen hervor. Unter den Templates zur Visualisierung befinden sich auch Wordclouds oder Mindmaps. Alle Grafiken werden auf der Many Eyes Seite gespeichert und können dort kommentiert und geteilt werden. Ein Beispiel: Die Bier-Exportländer der USA.

Weitere Datenvisualisierungstools

Darüber hinaus gibt es natürlich noch viele weitere Webtools, mit denen man Grafiken und Diagramme erstellen kann. Sehr verbreitet unter Datenjournalisten ist Datawrapper, ein Tool für Diagramme, die man extern einbetten kann. Simon Rogers vom Guardian empfiehlt Chartsbin, ein Tool für interaktive Weltkarten, iCharts für kleine Diagramme, Geocommons, um Daten auf Open Street Map zu visualisieren und piktocharts.com für bunte, moderne Infografiken, die Text und Zahlen kombinieren. Ähnlich funktioniert auch infogr.am – beide sind einfach zu bedienende Webtools mit vorgegebenen Designtemplates.

image

Für Timelines gibt es Dipity und Timeline JS – letzteres Tool baut mit Daten, die in einem Google Spreadsheet angelegt werden, automatisch eine scrollbare Zeitleiste, in die auch allerlei Medien eingebettet werden können. Mit Animaps lassen sich auch Weltkarten um eine Dimension erweitern – das Ergebnis sind animierte Karten, mit denen man Geschehnisse geografisch und im Zeitverlauf darstellen kann.

Ein Tool, das im Data Journalism Handbook am Rande erwähnt wird, ist Color Brewer. Damit kann man Farbpaletten für Karten und Diagramme erstellen.

Visualisieren oder nicht visualisieren?

Dass an Visualisierungstools im Internet kein Mangel besteht, zeigen auch zahlreiche Listen, die Tools für Diagramme, Karten und Infografiken aufzählen und bewerten (z.B.: hier und hier). Die Frage, die sich stellt, ist wann Visualisierungen, so schön und einfach erstellt sie auch sein mögen, Sinn machen.

“…with the barrier to entry now barely a speed bump, the question facing journalists is now less about whether you can turn your dataset into a visualization, but whether you should. Bad data visualization is worse in many respects than none at all.”

— Aron Pilhofer, New York Times

Pilhofer bezieht sich dabei vor allem auf nichtssagende Wordclouds. Gute Datenvisualisierung ist nur möglich, wenn dahinter solide, genaue und ausdrucksstarke Daten stehen. Im Data Journalism Handbook werden folgende Fälle genannt, in denen es besser ist, auf Visualisierungen ganz zu verzichten:

  • Wenn eine Geschichte mit Text oder Multimediaformen besser erzählt werden kann
  • Wenn nur wenige aussagekäftige Daten vorhanden sind
  • Wenn sich in den Daten kein klarer Trend oder keine eindeutige Schlussfolgerung abzeichnet
  • Wenn eine einfache Tabelle auch ausreicht

Von Florence Nightingale zum Datablog: die Geschichte des Datenjournalismus

Some people think of “data” as any collection of numbers, most likely gathered on a spreadsheet. 20 years ago, that was pretty much the only sort of data that journalists dealt with. But we live in a digital world now, a world in which almost anything can be (and almost everything is) described with numbers.

The Data Journalism Handbook, Seite 2

Moderner Datenjournalismus hat seinen Durchbruch in der digitalisierten Welt des 21. Jahrhunderts erfahren, doch datenjournalistische Ansätze reichen wesentlich weiter in die Geschichte zurück. Kurz gesagt: Datenjournalismus gibt es, seit es Daten gibt.

Im Guardian etwa fand sich bereits 1821 eine Liste der Schulen in Manchester, die die Schülerzahlen und Kosten aufschlüsselte. Diese Datensammlung illustrierte, dass die Anzahl jener Schüler, die für ihre Schulbildung nicht bezahlen mussten, wesentlich größer war, als offizielle Zahlen belegten.

image

Die Liste der Schulen im Manchester Guardian (Ausschnitt) (Quelle: The Guardian)

Ein anderes Beispiel aus dem England des 19. Jahrhundert ist der Bericht “Mortality in the British Army” von Florence Nightingale. Im Jahr 1858 verwendete sie Grafiken in ihrem Bericht an das Parlament, um ein besseres Gesundheitswesen für britische Soldaten zu erreichen. Der bekannteste Ausschnitt dieses Berichts ist wohl der „coxcomb“, eine grafische Darstellung der monatlichen Todesfälle, die zeigte, dass der Großteil der Soldaten nicht durch Kugeln, sondern durch vermeidbare Krankheiten starb.

image

“Coxcomb” von Florence Nightingale (Quelle: Wikimedia)

Der wohl unmittelbarste Vorläufer dessen, was wir heute als Datenjournalismus verstehen, ist computer assisted reporting, kurz CAR. Wie der Name bereits sagt, wurden bei CAR Computer eingesetzt, um Daten zu sammeln, zu strukturieren und zu analysieren. CAR gibt es seit rund 60 Jahren, erstmals wurde die Technik vom amerikanischen TV-Sender CBS eingesetzt, um den Ausgang der amerikanischen Präsidentenwahl vorauszusagen.

In den 1960er-Jahren wurde CAR verbreitet eingesetzt, vorwiegend von Investigativjournalisten im US-amerikanischen Raum. Ziel des CAR war es stets, mittels wissenschaftlicher Methoden öffentlich zugängliche Datensätze auf eigene Faust zu analysieren – um so Trends erkennbar zu machen, Populärwissen zu widerlegen und Ungerechtigkeiten aufzuzeigen. Aus diesem Grund bekam diese Form der Berichterstattung auch den Namen public service journalism.

Als neuer Zugang zum Journalismus und als Antwort auf den “neuen Journalismus” enstand in den 1970er-Jahren der Begriff precision journalism.  Diese journalistische Form bediente sich den Methoden des CAR – gab damit gewissermaßen dem Datenjournalismus einen neuen Namen – und stellte sich offensiv gegen den new journalism, der fiktionale Elemente in die Berichterstattung einfließen ließ. Precision journalism nutzte Forschungsmethoden der Sozial- und Verhaltenswissenschaft und sollte bekannte Schwächen der journalistischen Praxis ausmerzen, wie zum Beispiel die Abhängigkeit von Pressemitteilungen oder Voreingenommenheit bei amtlichen Quellen.

Datenjournalismus, wie wir ihn heute verstehen, ist eine Geburt der Nullerjahre. Der Begriff data driven journalism, kurz DDJ, wurde 2009 vom Guardian geprägt, der in diesem Jahr auf seiner Website einen eigenen Datablog einrichtete und datengetriebene Storys mit entsprechender Visualisierung auf diesem veröffentlichte. Auch wenn der Guardian damit als absoluter Vorreiter gilt, gab es Vorläufer zu dieser Idee schon 2006: Adrian Holovaty lieferte in seinem Text “A fundamental way newspaper sites need to change” Vorschläge, wie klassischer Journalismus sich an das Internet anpassen solle. Holovatys Artikel gilt gewissermaßen als DDJ-Manifest.

Diskutiert wird momentan, ob es einen Unterschied zwischen CAR und DDJ gibt. “Die Recherche in Datensätzen, etwa Statistiken, ist wahrlich nichts Neues”, schreibt etwa Lorenz Matzat. Aber: DDJ ist für Matzat die Kombination aus Rechercheansatz und Darstellungsform. Während CAR allgemein oft als Tool angesehen (und verwendet) wird, um an und für sich bestehende Storys mit Informationen anzureichern, ist DDJ eine eigene journalistische Disziplin. Die Daten werden gesammelt, analysiert und anschließend visualisiert und veröffentlicht: nicht als Teil einer Story, sondern ergänzend oder überhaupt für sich allein gestellt.

Geschichten in Daten finden

image

Die digitalen Spuren, die wir täglich hinterlassen, erzählen Geschichten. Über unseren Musikgeschmack, wohin wir reisen, was uns bewegt: All das scheint für immer in der digitalen Welt an Datenmengen verloren. Eine Übersicht kann man sich nur verschaffen, indem man gezielt nach Begriffen sucht.  Auch in diesen scheinbar belanglosen Alltagsinformationen lassen sich Muster und Algorithmen erkennen, die dazu dienen, Geschichten zu erzählen und Fragen zu beantworten. Wie aber findet man Geschichten in Datenstrukturen?

Daten in Geschichten verpacken

Als Neuling im Datenjournalismus hat man meistens den Eindruck, dass es dabei hauptsächlich um die Präsentation von Datensystemen geht – beispielsweise Visualisierungen, die einen raschen Überblick über die präsentierten Zahlen vermitteln, oder interaktive, durchsuchbare Datenbanken, die den Nutzern die Möglichkeit zur personalisierten Suche geben. Das alles erscheint sehr nützlich, jedoch sollte Datenjournalismus auch die Essenz des Journalismus, nämlich Geschichten, enthalten.  Eine Datenjournalismus-Geschichte sollte es dem Leser ermöglichen, sie zu lesen, ohne über die beschriebenen Datenmengen Bescheid zu wissen. 

Als Beispiel dafür ist ein Projekt des Bureau of Investigative Journalism zu nennen, welches für eine Arbeit das Finanztransparenz-System der EU heranzieht. 

 Caelainn Barr, die als Datenjournalistin an dem Projekt beteiligt war, beschreibt die Arbeitsprozesse folgendermaßen:

„Die Geschichte entstand, indem der Datensatz auf Basis von speziellen Anfragen durchforstet wurde, beispielsweise „Cocktail“, „Golf“ und „Urlaubstage“. Das half uns zu bestimmen, wie viel die Kommission für diese Dinge aufwendet. Daraus entstanden für uns weitere Fragen und Storylines.

Schlüsselbegriffe führen jedoch manchmal nicht zu dem, was man eigentlich will. Während dieses Projekts wollten wir herausfinden, wie viel EU-Kommissionäre für Reisen mit dem Privatflugzeug ausgeben. Die Datenbank enthielt jedoch nicht den Suchbegriff „Privatflugzeug“, deswegen mussten wir zuerst den Reiseanbeiter finden, der den Namen „Abelag“ trug. So konnten wir die Datenbank dann auf „Abelag“ durchsuchen, um herauszufinden wie viel für die von dem Anbieter gebotenen Services ausgegeben wurde. Durch diesen Ansatz hatten wir ein klar definiertes Ziel für unsere Datenanfragen generiert, das auch als Schlagzeile geeignet war.

Ein weiterer Ansatz ist die Erstellung einer schwarzen Liste und die diesbezügliche Suche von Ausnahmen. Ein einfacher Weg, Handlungsstränge aus Datensätzen zu bekommen ist, zu wissen, was man darin nicht finden sollte.“

(Quelle: The Data Journalism Handbook: Data Stories, S.159)

image

Screenshot der Homepage des EU-Finanztransparenzsystems

Man weiß nie, was man in einem Datensatz findet. Eine Annäherung kann gelingen, indem man versucht, offensichtliche Charakteristiken herauszufinden, die sich durch Herausfiltern zeigen, beispielsweise durch die Suche nach Extremen.

Personalisierung

Die Herausforderung dabei sollte immer sein, Geschichten aus Daten zu erschaffen, an denen ein großes öffentliches Interesse besteht, zu denen man als Privatperson aber keinen Zugang hat.

Mirko Lorenz, Begründer des Open-Source-Datenvisualisierungsprogramms „DataWrapper“, erklärt die Personalisierungsnotwendigkeit:

„Wir wollen uns unter den unvorstellbaren Zahlenmengen, die wir jeden Tag in den Nachrichten hören, etwas vorstellen können; erkennen, was die Millionen und Billionen für jeden von uns bedeuten.“

(Quelle: The Data Journalism Handbook: Chapter 2: In The Newsroom, S.60)

Daten extrahieren

Worin genau liegt jetzt das journalistische Interesse in alldem? Geschichten in Datenstrukturen finden ist eine traditionelle Definition von Datenjournalismus. Verbirgt sich eine Exklusiv-Geschichte in der Datenbank? Sind die Angaben und Darstellungen akkurat? Beweisen oder widerlegen sie ein Problem? All das sind Fragen, die sich Daten-Journalisten oder Computer-Assisted-Reporter stellen müssen. Die meiste Zeit verbringt man als Datenjournalist mit dem Durchkämmen von massiven Datenmengen, in der Hoffnung etwas Bemerkenswerktes zu finden.

„Die Motivation sollte immer der Effekt sein; auf das Leben der Menschen, auf die Gesetzgebung,auf das Verantwortungsbewusstsein der Politiker. (…) Unsere Arbeit lebt, wenn sie einem Leser dabei hillft, seine eigene Geschichte in den Daten zu finden.“ – Brian Boyer, Chicago Tribune

(Quelle: The Data Journalism Handbook: Chapter 2: In The Newsroom, S. 34)