Graue Linie

Fachartikel

Data Visualization

Visualize your Data Whenever Possible

Datenvisualisierung, was ist das eigentlich? Jeden Tag werden in einem Unternehmen neue Daten zu den verschiedensten Prozessen erfasst. Bei so vielen Daten kann es jedoch schwierig werden, die eigentliche Aussage zu erfassen. Hier kommt Datenvisualisierung ins Spiel. Moderne Datenvisualisierungen übersetzen diese komplexen Informationen in einen visuellen Kontext, um Zusammenhänge für das menschliche Gehirn leichter verständlich zu machen und helfen dabei, wichtige Erkenntnisse aus den Daten zu ziehen. Sie zeigen das „Big Picture“ und komplementieren damit die Schwächen von statistischen Modellen und maschine-learning-Verfahren, welche komplexe Zusammenhänge lediglich auf einzelne wenige Statistiken reduzieren. Auf Datenvisualisierung zu verzichten oder nicht ihr gesamtes Potential auszuschöpfen kann dazu führen, potenzielle Insides zu übersehen oder gar falsches Wissen zu generieren. Datenvisualisierungsmethoden haben sich in den letzten Jahren stetig weiterentwickelt und aktuell entstehen am Randgebiet der Datenvisualisierung viele neue Themen, wie Data Democratization, Data Storytelling oder die Verwendung künstlicher Intelligenz in der Datenvisualisierung, um nur einige Beispiele zu nennen.

In diesem Artikel werden die Gefahren beleuchtet, die entstehen, wenn allein auf Statistiken ohne Datenvisualisierung vertraut wird, sowie einige Technologien zur Visualisierung von Daten. Außerdem werden die neuesten Entwicklungen in diesem Bereich beschrieben und zum Schluss wird ein Ausblick auf aktuelle Trends und Zukunftsthemen dargelegt.

Ich habe einen signifikanten, linearen, starken Zusammenhang von r = 0.816 gefunden – wozu dann noch meine Daten visualisieren?
Wer sich nur Datensätze und die dazugehörigen Statistiken anschaut kann sehr schnell zu falschen Schlüssen gelangen. Anscombe (1973) hat dies bereits vor 50 Jahren eindrucksvoll sichtbar gemacht: Abbildung 1 zeigt das „Anscombe-Quartett“ aus vier Streudiagrammen, die alle die gleiche Korrelation von r = 0.816 zeigen, sowie die gleichen Mittelwerte, Varianzen und Standardfehler. Die Annahme einen linearen Zusammenhang gefunden zu haben bewahrheitet sich jedoch nur für Abbildung 1(A).

Grafik Anscombe Quartett
Abbildung 1. Das Anscombe-Quartett zeigt vier unterschiedliche Scatterplots mit nahezu identischen statistischen Eigenschaften: Mittelwert von x = 9; Mittelwert von y = 7,5; Standardabweichung x = 1; Standardabweichung y = 4,122; r = 0.816; p =.002.

Abbildung 1(B) zeigt einen perfekten quadratischen Zusammenhang, der mit dem menschlichen Auge leicht zu erkennen ist. Die statistischen Kennwerte unterscheiden sich jedoch nicht von den anderen Streudiagrammen. Abbildung 1(C) zeigt, dass einzelne Ausreißer dafür sorgen können, dass ein ansonsten perfekter linearer Zusammenhang überschätzt wird. Wohingegen Abbildung 1(D) zeigt, dass aufgrund eines Ausreißers fälschlicherweise ein starker linearer Zusammenhang identifiziert wird, obwohl in Wirklichkeit kein Zusammenhang erkennbar ist (potenzieller Fehler erster Art).

In allen diesen Fällen würde man – nur von den Kennwerten ausgehend – annehmen, dass in den Daten ein starker, signifikanter und linearer Zusammenhang zwischen unseren Variablen vorliegt. Dabei zeigt ein Blick auf die Scatterplots, dass man damit nur in einem von vier Fällen, nämlich in Abbildung 1 (A), richtig liegt.

9 Grafiken aus dem Datasaurus
Abbildung 2. Neun Grafiken aus dem Datasaurus-Dutzend. Obwohl sie unterschiedlich aussehen, hat jeder Datensatz die gleichen zusammenfassenden Statistiken (Mittelwert X=54.26, Mittelwert Y=47.83, Standardabweichung X=16.76, Standardabweichung Y=26.93 und Pearson-Korrelation= -0.06)

Metajka und Fitzmaurice (2017) haben sich das Anscombe-Quartett zum Vorbild genommen und noch eindrucksvollere Beispiele generiert, die sie als das „Datasaurus Dozen“ bezeichnen. In diesem Beispiel haben Metajka und Fitzmaurice einen bestehenden Datensatz verändert und dabei dessen statistischen Eigenschaften beibehalten. Visualisiert sind keine Gemeinsamkeiten zu erkennen, statistisch teilen sich die zwölf Datensätze allerdings wieder die gleichen Werte für die Standardstatisitiken (vgl. Abbildung 2).

Auch wenn die Datensätze des Datasaurus und die des Anscombe-Quartetts künstlich herbeigeführt sind, zeigen sie dennoch, dass Datenvisualisierung nicht nur ein nettes Beiwerk ist, sondern Interpretationsfehler verhindert. Auch im realen Geschäftsleben begegnet man regelmäßig ähnlichen Beispielen: Finanzielle Zufriedenheit und Einkommen korrelieren häufig nur schwach miteinander. Plottet man die Daten jedoch wird man erkennen, dass im Normalfall ein deutlicher Zusammenhang für Niedrigverdiener zu erkennen ist, der jedoch vom Rest der Verteilung „überschattet“ wird.

Ein anderes Beispiel: Auf dem Land finden eher ältere Menschen ein Produkt gut, in Städten eher jüngere. Fälschlicherweise wurde aber nicht erhoben, ob Personen auf dem Land oder in der Stadt leben. In dem Fall erhält man die Daten wie sie in Abbildung 2 in der „X-Shape“ zu sehen sind (angenommen X sei das Alter und Y das Rating meines Produktes). Erhalten würde man eine schwach negative Korrelation von r = -0.06 – plottet man die Daten jedoch, kann man erkennen, dass etwas nicht stimmt. Man geht auf die Suche nach einem moderierenden Effekt und mit etwas Geschick kann man herausfinden, dass Urbanität ein wichtiger Faktor ist, den man in Zukunft miterheben sollten.

Hier kommt die besondere Stärke von Datenvisualisierung ins Spiel, das „Big Picture“. Statistische oder auch machine-learning Verfahren können natürlich auch Ausreißer identifizieren und nicht-lineare Effekte aufdecken, aber dazu brauchen sie alle notwendigen Variablen. Datenvisualisierung ermöglicht uns zu erkennen, wenn etwas mit unseren Daten nicht stimmt und aktiv auf die Suche nach Erklärungen zu gehen: Benötige ich andere Daten? Kann mir Feature-Engineering helfen? Sprich, kann ich Stadtmenschen eventuell anhand anderer Variablen identifizieren und dies in meinem Modell berücksichtigen? Wie verteilen sich uni- und bivariate Ausreißer und was kann dahinterstecken? Habe ich womöglich ein Datenqualitätsproblem, das potenzielle Effekte verdeckt?

Möglichkeiten moderner Visualisierungsmethoden
Klassische Visualisierungsmethoden hatten immer den Nachteil, dass sie – insbesondere in der Forschung – auf Papier funktionieren mussten, weshalb sich Streudiagramme und Balkendiagramme lange als Standard gehalten haben. Auch klassische dreidimensionale Scatterplots ergeben auf einer reinen zweidimensionalen Fläche keinen Sinn, da unserem Gehirn Tiefeninformationen fehlen, um einen solchen Plot einfach interpretieren zu können. Abbildung 3(A) zeigt uns zwar ein 3D-Koordinatennetz, aber erst durch das Rotieren in den Abbildungen 3(C) bis 3(E) wird klar, an welcher Stelle sich die Datenpunkte wirklich im Raum befinden. Der große Vorteil von moderner Datenvisualisierung ist jedoch, dass Visualisierungen interaktiv sein können. So erlauben neuere, dreidimensionalen Scatterplots dem Anwender nach Belieben den Scatterplot zu drehen, zu zoomen oder Punkte zu highlighten, wodurch es noch leichter wird, die Punktewolke zu interpretieren.

Grafik Data Visualization
Abbildung 3 (Beschriftung fehlt)

Heutige Interaktivität geht sogar noch weiter – so können mehrere Visualisierungen nebeneinander bestehen und miteinander verknüpft werden. Abbildung 4.A zeigt ein Beispiel fiktiver Abteilungen und Einnahmen pro Produkt. Die Einnahmen pro Produkt sind über alle Abteilungen zu sehen, ein Klick auf eine Abteilung passt jedoch die Darstellung an und zeigt die Einnahmen für diese konkrete Abteilung (vgl. Abbildung 4.B).

Grafik Interaktiver Plot
Abbildung 4.A. Interaktiver Plot zeigt links Einnahmen nach Landesgesellschaften und Rechts die Einnahmen je Produkt aggregiert über alle Landesgesellschaften hinweg.
Grafik Interaktiver Plot
Abbildung 4.B. Im Kreisdiagramm (links) wurde die Landesgesellschaft “Italy” selektiert, das Balkendiagramm (rechts) wird interaktiv gefiltert und zeigt nur noch die Einnahmen je Produkt für die Landesgesellschaft “Italy”.

Die Möglichkeiten moderner Verfahren, Informationen zu verdichten, gehen sogar noch weiter. Das bekannteste Beispiel ist wohl der „Bubble-Plot“ der Gapminder-Stiftung (Gapminder-Stiftung,  2021). Als Datenpunkte dienen hier Nationen, die X-Achse zeigt das durchschnittliche Einkommen, die Y-Achse die mittlere Lebenserwartung, die Größe der Punkte zeigt die Bevölkerungsgröße und die verschiedenen Farben kennzeichnen die Regionen. Der Clue: die Grafik zeigt nicht nur den Istzustand, sondern verfügt über einen Regler über den sich die Zeit interaktiv vor und zurückdrehen lässt. Dabei können einzelne Staaten selektiert werden, um die zeitliche Entwicklung einzelner Länder für einen beliebigen Zeitraum festzuhalten. Abbildung 5 zeigt beispielsweise die Entwicklung von Deutschland von 1950 bis 2019, die übrigen Staaten zeigen nur den Stand für 2019.

Animierte Grafik Bubble Plot Gapminder Stiftung
Abbildung 5. Interaktiver Bubble-Plot der Gapminder-Stiftung (Gapminder-Stiftung, 2021): Einkommen vs. Lebenserwartung über die Zeit

Welche Tools eignen sich zur Daten Visualisierung?
Auf dem Markt tummeln sich mittlerweile Myriaden an Datenvisualisierungstools, alle mit ihren eigenen Vor- und Nachteilen. Das bekannteste Datenvisualisierungs-Tools ist mit Sicherheit Microsoft PowerBI, mit dem 29FORWARD ebenfalls gerne arbeitet, zum Beispiel um eine historische Parfümerie mit Dashboards zu Kundenverhalten und Sales Performance zu versorgen.

Ebenfalls sehr gute Erfahrungen wurde mit SAS Visual Analytics gemacht, zuletzt genutzt für ein Kundenprojekt zur Visualisierung relevanter Kennzahlen hinsichtlich der COVID-19 Pandemie inklusive Geovisualisierung, Zeitreihen, Prognosen und Simulationen. Für die jeweiligen Regionen war es dadurch schneller und einfacher möglich, Entwicklungen und Hot Spots zu erkennen, um frühzeitig Maßnahmen einzuleiten.

Zu guter Letzt erfreuen sich Open Source Lösungen allgemeiner Beliebtheit. Tools wie Python, R und vor allem R-Shiny eignen sich sehr gut, um Dashboards zu bauen. Einige offen zugängliche Beispiele des Herstellers finden sich hier: R-Shiny, 2021.

Ein Blick in die Zukunft
Festhalten lässt sich, dass sich die Tools zur Datenvisualisierung in den letzten Jahren um einiges weiterentwickelt haben. Was soll also noch kommen? Man könnte meinen, dass sich Datenvisualisierung aktuell auf einem Plateau befindet – es entstehen zwar kaum neue Verfahren, dafür werden jedoch andere Themen rund um die Datenvisualisierung immer relevanter. Jeder Punkt wäre einen eigenen Artikel wert, daher werden die Punkte hier nur angerissen.

Datademocratization beschreibt, dass Daten mit einer großen Gruppe von Menschen geteilt werden und so zum einen Transparenz geschaffen wird und zum anderen eine breite Gruppe an Menschen Insights in den Daten generieren können. Auch innerhalb von Betrieben ist Datademocratization möglich. Es macht durchaus einen Unterschied, ob eine Marketingabteilung immer nur fertige Ergebnisse vom Analytics-Team erhält oder ob die Datengrundlage interaktiv visualisiert wird. Auf diese Weise können Mitarbeiter, die vielleicht wenig Erfahrung mit Daten haben, dafür aber über ausreichend fachliches Wissen verfügen, weitere Insights gewinnen.

Data Storytelling beschreibt Techniken, die über die reine Darstellung von Daten hinausgehen. Typischerweise wird Data Storytelling eingesetzt, wenn bereits Insights generiert wurden, diese jedoch für die Zielgruppe noch zu abstrakt sind. Data Storytelling bettet diese Insides in einen Kontext ein und nutzt dafür – wie der Name bereits andeutet – vor allem narrative Methoden. Kurzgefasst: Alle Daten erzählen eine Geschichte und Data Storytelling beschäftigt sich damit, wie diese Geschichte interessant und verständlich aufbereitet werden kann.

Artificial Intelligence (AI) und Machine Learning (ML) beeinflussen ebenfalls den Bereich der Datenvisualisierung. Einerseits geht es darum, wie man komplexe AI&ML-Modelle visuell interpretierbar machen kann, andererseits unterstützen AI-Methoden auch teilautomatisiertes Reporting. Ein Beispiel dafür sind die SAS Visual Anayltics for Viya, wobei eine AI anhand der Daten, die ein Nutzer auswählt, vorschlägt welche Visualisierungen sich besonders eignen.

Das Thema Datenvisualisierung gewinnt aber nicht nur in betrieblichen Feldern an Bedeutung. Mittlerweile werden auch immer mehr Künstler auf Datenvisualisierung aufmerksam – kürzlich wurde die erste Datavisualization Mode-Kollektion von Geogria Lupi (2021) mit dem Namen Data Fashion veröffentlicht. Auch wenn dies nicht das primäre Anwendungsgebiet von 29FORWARD ist man dennoch erfreut, dass Datenvisualisierung damit auch in anderen Bereichen des Lebens verbreitetet und vielleicht sogar zukünftig an Schulen und Universitäten gelehrt wird, sodass die nächste Generation weitere Fortschritte im Bereich der Datenvisualisierung macht und – eventuell – die dritte Dimension gesprengt wird. Vielleicht mittels virtueller oder augmentierter Realität, erste Gehversuche werden unter dem Begriff „Immersive Datavisualization“ bereits gemacht.

Und nun?
Abschließend lässt sich sagen, dass Datenvisualisierung nach wie vor ein zentrales Element jeder statistischen Analyse sein sollte und sich heute mehr denn je visualisieren lässt. Vielleicht konnte dieser Artikel ein wenig dazu anregen, einen Blick auf die eigenen Datenvisualisierungen zu werfen. Vielleicht wird bereits eine Software zur Datenvisualisierungen eingesetzt, aber das Potential lässt sich noch erweitern. Alternativ kann man mit Open Source Lösungen erste Versuche starten, es muss nicht immer gleich das Nonplusultra an Software sein. Sie benötigen Unterstützung bei der Umsetzung? Sprechen Sie uns an, wir helfen gerne.

Sources:

Anscombe, F. J. (1973). Graphs in statistical analysis. The american statistician, 27 (1), 17-21.
Matejka, J., & Fitzmaurice, G. (2017, May). Same stats, different graphs: generating datasets with varied appearance and identical statistics through simulated annealing. In Proceedings of the 2017 CHI conference on human factors in computing systems (pp. 1290-1294).
Gapminder-Stiftung (2021) Interaktiver Bubble Plot, Abgerufen am 02.09.2021.
R-Shiny Gallery (2021), Abgerufen am 02.09.2021
Giorgia Lupi (2021), Blog Artikel: data-items-a-fashion-landscape-at-the-museum-of-modern-art, Abgerufen am 02.09.2021.
Sie haben Fragen, möchten Ihr Projekt mit uns besprechen oder suchen technische Unterstützung? Wir freuen uns auf ein Gespräch mit Ihnen.

Jetzt Termin vereinbaren

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz