Graue Linie

Artykuł specjalistyczny

Wizualizacja danych

Wizualizacja danych, gdy tylko jest to możliwe

Czym dokładnie jest wizualizacja danych? Każdego dnia firma gromadzi nowe dane dotyczące wielu różnych procesów. Jednak przy tak dużej ilości danych może być trudno uchwycić rzeczywisty przekaz. W tym miejscu do gry wkracza wizualizacja danych. Nowoczesne wizualizacje danych przekładają te złożone informacje na kontekst wizualny, aby ułatwić ludzkiemu mózgowi zrozumienie połączeń i pomóc w wyciągnięciu ważnych wniosków z danych. Pokazują „duży obraz” i w ten sposób uzupełniają słabości modeli statystycznych i metod uczenia maszynowego, które redukują złożone relacje tylko do kilku pojedynczych statystyk Niestosowanie wizualizacji danych lub niewykorzystywanie jej pełnego potencjału może prowadzić do przeoczenia potencjalnych spostrzeżeń lub nawet generowania fałszywej wiedzy. Metody wizualizacji danych stale rozwijały się w ostatnich latach, a wiele nowych tematów pojawia się obecnie na obrzeżach wizualizacji danych, takich jak demokratyzacja danych, opowiadanie historii danych lub wykorzystanie sztucznej inteligencji w wizualizacji danych, aby wymienić tylko kilka przykładów.

Niniejszy artykuł zwraca uwagę na niebezpieczeństwa związane z poleganiem wyłącznie na statystykach bez wizualizacji danych, a także na niektóre technologie wizualizacji danych. Opisuje również najnowsze osiągnięcia w tej dziedzinie i kończy się prognozą dotyczącą aktualnych trendów i przyszłych tematów.

Znalazłem znaczącą, liniową, silną korelację r = 0,816 – więc po co wizualizować moje dane?
Jeśli patrzysz tylko na zestawy danych i związane z nimi statystyki, możesz bardzo szybko dojść do błędnych wniosków. Anscombe (1973) zwizualizował to w imponujący sposób już 50 lat temu: Rysunek 1 przedstawia „kwartet Anscombe’a” czterech wykresów rozrzutu, z których wszystkie pokazują tę samą korelację r = 0,816, a także te same wartości średnie, wariancje i błędy standardowe. Jednak założenie, że znaleziono korelację liniową, jest prawdziwe tylko dla wykresu 1(A).

Grafik Anscombe Quartett
Abbildung 1. Das Anscombe-Quartett zeigt vier unterschiedliche Scatterplots mit nahezu identischen statistischen Eigenschaften: Mittelwert von x = 9; Mittelwert von y = 7,5; Standardabweichung x = 1; Standardabweichung y = 4,122; r = 0.816; p =.002.

Rysunek 1(B) pokazuje idealną kwadratową zależność, która jest łatwa do rozpoznania ludzkim okiem. Parametry statystyczne nie różnią się jednak od innych wykresów punktowych. Rysunek 1(C) pokazuje, że pojedyncze wartości odstające mogą powodować przeszacowanie idealnej zależności liniowej. Z drugiej strony, rysunek 1(D) pokazuje, że silna korelacja liniowa jest fałszywie identyfikowana z powodu wartości odstających, chociaż w rzeczywistości nie można rozpoznać żadnej korelacji (potencjalny błąd pierwszego rodzaju).

We wszystkich tych przypadkach można by założyć – opierając się wyłącznie na wartościach charakterystycznych – że istnieje silna, znacząca i liniowa zależność między naszymi zmiennymi w danych. Spojrzenie na wykresy rozrzutu pokazuje, że jest to poprawne tylko w jednym z czterech przypadków, a mianowicie na rysunku 1 (A).

9 Grafiken aus dem Datasaurus
Abbildung 2. Neun Grafiken aus dem Datasaurus-Dutzend. Obwohl sie unterschiedlich aussehen, hat jeder Datensatz die gleichen zusammenfassenden Statistiken (Mittelwert X=54.26, Mittelwert Y=47.83, Standardabweichung X=16.76, Standardabweichung Y=26.93 und Pearson-Korrelation= -0.06)

Metajka i Fitzmaurice (2017) przyjęli kwartet Anscombe jako model i wygenerowali jeszcze bardziej imponujące przykłady, które nazwali „Datasaurus Dozen”. W tym przykładzie Metajka i Fitzmaurice zmodyfikowali istniejący zbiór danych, zachowując jego właściwości statystyczne. Wizualnie nie widać żadnych podobieństw, ale statystycznie dwanaście zestawów danych ma te same wartości dla standardowych statystyk (patrz rysunek 2).

Nawet jeśli zbiory danych Datasaurus i Anscombe Quartet są sztucznie wygenerowane, nadal pokazują, że wizualizacja danych nie jest tylko miłym dodatkiem, ale zapobiega błędom interpretacyjnym. Podobne przykłady są również regularnie spotykane w prawdziwym życiu biznesowym: Satysfakcja finansowa i dochody często słabo ze sobą korelują. Jeśli jednak wykreślisz dane, zauważysz, że zwykle istnieje wyraźna korelacja dla osób o niskich zarobkach, ale jest ona „przyćmiona” przez resztę rozkładu.

Inny przykład: Osoby starsze są bardziej skłonne do polubienia produktu na wsi, podczas gdy osoby młodsze są bardziej skłonne do polubienia go w mieście. Jednak błędnie nie zarejestrowano, czy ludzie mieszkają na wsi, czy w mieście. W takim przypadku otrzymamy dane pokazane na rysunku 2 w „kształcie X” (zakładając, że X to wiek, a Y to ocena mojego produktu). Wynikiem byłaby słaba ujemna korelacja r = -0,06 – ale jeśli wykreślisz dane, zobaczysz, że coś jest nie tak. Zaczynasz szukać efektu moderującego i przy odrobinie umiejętności możesz dowiedzieć się, że miejskość jest ważnym czynnikiem, który powinien zostać uwzględniony w przyszłych ankietach.

W tym miejscu do gry wkracza szczególna siła wizualizacji danych, „duży obraz”. Metody statystyczne lub uczenia maszynowego mogą oczywiście również identyfikować wartości odstające i odkrywać efekty nieliniowe, ale potrzebują do tego wszystkich niezbędnych zmiennych. Wizualizacja danych pozwala nam rozpoznać, kiedy coś jest nie tak z naszymi danymi i aktywnie szukać wyjaśnień: Czy potrzebuję innych danych? Czy inżynieria cech może mi pomóc? Innymi słowy, czy mogę zidentyfikować mieszkańców miasta na podstawie innych zmiennych i uwzględnić to w moim modelu? Jak rozkładają się wartości odstające jedno- i dwuwartościowe i co może się za nimi kryć? Czy mam problem z jakością danych, który ukrywa potencjalne efekty?

Możliwości nowoczesnych metod wizualizacjin
Tradycyjne metody wizualizacji zawsze miały tę wadę, że musiały działać na papierze – zwłaszcza w badaniach – dlatego wykresy punktowe i słupkowe od dawna są standardem. Nawet klasyczne trójwymiarowe wykresy punktowe nie mają sensu na czysto dwuwymiarowej powierzchni, ponieważ naszemu mózgowi brakuje informacji o głębi potrzebnych do łatwej interpretacji takiego wykresu. Rysunek 3(A) pokazuje nam siatkę współrzędnych 3D, ale dopiero po obróceniu jej na rysunkach 3(C) do 3(E) staje się jasne, gdzie punkty danych są faktycznie zlokalizowane w przestrzeni. Jednak wielką zaletą nowoczesnej wizualizacji danych jest to, że wizualizacje mogą być interaktywne. Na przykład nowsze trójwymiarowe wykresy rozrzutu pozwalają użytkownikowi dowolnie obracać, powiększać lub podświetlać punkty, co jeszcze bardziej ułatwia interpretację chmury punktów.

Grafik Data Visualization
Abbildung 3 (Beschriftung fehlt)

Dzisiejsza interaktywność idzie jeszcze dalej – kilka wizualizacji może istnieć obok siebie i być ze sobą połączonych. Rysunek 4.A pokazuje przykład fikcyjnych działów i przychodów na produkt. Przychody na produkt można zobaczyć we wszystkich działach, ale kliknięcie działu dostosowuje wizualizację i pokazuje przychody dla tego konkretnego działu (patrz rysunek 4.B).

Grafik Interaktiver Plot
Rysunek 4.A. Interaktiver Plot zeigt links Einnahmen nach Landesgesellschaften und Rechts die Einnahmen je Produkt aggregiert über alle Landesgesellschaften hinweg.
Grafik Interaktiver Plot
Rysunek 4.B. Im Kreisdiagramm (links) wurde die Landesgesellschaft “Italy” selektiert, das Balkendiagramm (rechts) wird interaktiv gefiltert und zeigt nur noch die Einnahmen je Produkt für die Landesgesellschaft “Italy”.

Możliwości nowoczesnych metod podsumowywania informacji idą jeszcze dalej. Najbardziej znanym przykładem jest prawdopodobnie „wykres bąbelkowy” z Gapminder Foundation (Gapminder Foundation, 2021). Punkty danych to narody, oś X pokazuje średni dochód, oś Y średnią długość życia, rozmiar kropek pokazuje wielkość populacji, a różne kolory oznaczają regiony. Wskazówka: wykres nie tylko pokazuje aktualną sytuację, ale ma również suwak, który może być używany do interaktywnego obracania czasu do przodu i do tyłu. Poszczególne kraje można wybierać w celu rejestrowania rozwoju poszczególnych krajów w czasie dla dowolnego okresu. Na przykład rysunek 5 pokazuje rozwój Niemiec od 1950 do 2019 roku, podczas gdy inne kraje pokazują tylko stan na 2019 rok.

Animierte Grafik Bubble Plot Gapminder Stiftung
Abbildung 5. Interaktiver Bubble-Plot der Gapminder-Stiftung (Gapminder-Stiftung, 2021): Einkommen vs. Lebenserwartung über die Zeit

Które narzędzia są odpowiednie do wizualizacji danych?
Obecnie na rynku dostępnych jest niezliczona ilość narzędzi do wizualizacji danych, z których każde ma swoje zalety i wady. Najbardziej znanym narzędziem do wizualizacji danych jest z pewnością Microsoft PowerBI, z którym 29FORWARD również lubi pracować, na przykład w celu zapewnienia historycznej perfumerii pulpitów nawigacyjnych dotyczących zachowań klientów i wyników sprzedaży.

Mamy również bardzo dobre doświadczenia z SAS Visual Analytics, ostatnio wykorzystanym w projekcie klienta do wizualizacji istotnych kluczowych danych liczbowych związanych z pandemią COVID-19, w tym geowizualizacji, szeregów czasowych, prognoz i symulacji. Dzięki temu odpowiednie regiony mogły szybciej i łatwiej rozpoznać rozwój sytuacji i punkty zapalne, aby zainicjować działania na wczesnym etapie.

Wreszcie, rozwiązania open source cieszą się ogólną popularnością. Narzędzia takie jak Python, R, a zwłaszcza R-Shiny są bardzo odpowiednie do tworzenia dashboardów. Kilka ogólnodostępnych przykładów od producenta można znaleźć tutaj: R-Shiny, 2021.

Spojrzenie w przyszłość
Oczywiste jest, że narzędzia do wizualizacji danych znacznie się rozwinęły w ostatnich latach. Co więc jeszcze przed nami? Można by pomyśleć, że wizualizacja danych znajduje się obecnie na płaskowyżu – prawie nie pojawiają się żadne nowe procesy, ale inne tematy związane z wizualizacją danych stają się coraz bardziej istotne. Każdy z tych punktów zasługiwałby na osobny artykuł, więc poruszymy je tylko tutaj.

Demokratyzacja danych opisuje udostępnianie danych dużej grupie osób, tworząc z jednej strony przejrzystość, a z drugiej umożliwiając szerokiej grupie osób generowanie spostrzeżeń na podstawie danych. Demokratyzacja danych jest również możliwa w firmach. Zdecydowanie ma znaczenie, czy dział marketingu otrzymuje tylko gotowe wyniki od zespołu analitycznego, czy też baza danych jest wizualizowana interaktywnie. W ten sposób pracownicy, którzy mogą mieć niewielkie doświadczenie z danymi, ale mają wystarczającą wiedzę specjalistyczną, mogą uzyskać dalszy wgląd.

Storytelling danych opisuje techniki, które wykraczają poza zwykłą prezentację danych. Storytelling danych jest zwykle stosowany, gdy spostrzeżenia zostały już wygenerowane, ale nadal są zbyt abstrakcyjne dla grupy docelowej. Storytelling danych osadza te spostrzeżenia w kontekście i – jak sama nazwa wskazuje – wykorzystuje przede wszystkim metody narracyjne. W skrócie: Wszystkie dane opowiadają pewną historię, a storytelling danych dotyczy tego, jak tę historię można przedstawić w interesujący i zrozumiały sposób.

Sztuczna inteligencja (AI) i uczenie maszynowe (ML) wpływają również na dziedzinę wizualizacji danych. Z jednej strony chodzi o to, jak sprawić, by złożone modele AI i ML można było interpretować wizualnie; z drugiej strony metody AI wspierają również półautomatyczne raportowanie. Jednym z przykładów jest SAS Visual Analytics for Viya, w którym sztuczna inteligencja sugeruje, które wizualizacje są szczególnie odpowiednie w oparciu o dane wybrane przez użytkownika.

Jednak temat wizualizacji danych zyskuje na znaczeniu nie tylko w obszarach biznesowych. Coraz więcej artystów zdaje sobie sprawę z wizualizacji danych – pierwsza kolekcja mody wizualizacji danych autorstwa Geogrii Lupi (2021) została niedawno opublikowana pod nazwą Data Fashion. Nawet jeśli nie jest to główny obszar zastosowania 29FORWARD, cieszymy się jednak, że wizualizacja danych staje się coraz bardziej powszechna w innych dziedzinach życia, a być może w przyszłości będzie nawet nauczana w szkołach i na uniwersytetach, dzięki czemu następne pokolenie będzie mogło poczynić dalsze postępy w dziedzinie wizualizacji danych i – być może – wkroczyć w trzeci wymiar. Być może za pomocą wirtualnej lub rozszerzonej rzeczywistości; pierwsze próby są już podejmowane pod nazwą „immersyjnej wizualizacji danych”.

A teraz?
Podsumowując, można powiedzieć, że wizualizacja danych nadal powinna być centralnym elementem każdej analizy statystycznej i może być wizualizowana teraz bardziej niż kiedykolwiek. Być może ten artykuł zainspirował Cię do przyjrzenia się własnym wizualizacjom danych. Być może korzystasz już z oprogramowania do wizualizacji danych, ale jego potencjał można jeszcze zwiększyć. Alternatywnie, możesz rozpocząć swoje pierwsze próby z rozwiązaniami open source – nie zawsze musi to być najlepsze oprogramowanie. Potrzebujesz wsparcia przy wdrożeniu? Porozmawiaj z nami, chętnie pomożemy.

Źródła:

Anscombe, F. J. (1973). Graphs in statistical analysis. The american statistician, 27 (1), 17-21.
Matejka, J., & Fitzmaurice, G. (2017, May). Same stats, different graphs: generating datasets with varied appearance and identical statistics through simulated annealing. In Proceedings of the 2017 CHI conference on human factors in computing systems (pp. 1290-1294).
Gapminder Foundation (2021) Interactive Bubble Plot, Retrieved 02/09/2021.
R-Shiny Gallery (2021), data pobrania: 02/09/2021
Giorgia Lupi (2021), Artykuł na blogu: data-items-a-fashion-landscape-at-the-museum-of-modern-art, Retrieved 02/09/2021.
Masz pytania, chciałbyś omówić z nami swój projekt lub szukasz wsparcia technicznego? Z niecierpliwością czekamy na rozmowę.

Umów się na spotkanie już teraz

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz

Gerne leiten wir Sie weiter. Hierbei übermitteln wir einige Daten an den Anbieter. Mehr Informationen unter: Datenschutz

Chętnie przekierujemy Cię na tę stronę. W ten sposób przekazujemy pewne dane dostawcy. Więcej informacji w sekcji: Ochrona danych

Chętnie przekierujemy Cię na tę stronę. W ten sposób przekazujemy pewne dane dostawcy. Więcej informacji w sekcji: Ochrona danych

Chętnie przekierujemy Cię na tę stronę. W ten sposób przekazujemy pewne dane dostawcy. Więcej informacji w sekcji: Ochrona danych