Priručnik za data novinarstvo 1.0
Loading

Korištenje vizualizacije za razumijevanje podataka

Vizualizacija je ključna za analizu kvantitativnih podataka. Ona je prva linija napada i otkriva kompleksnu strukturu podataka koja se drugačije ne bi mogla proučavati. Otkrivamo efekte koje ne vidimo i preispitujemo one vidljive.

Hobart Press)
— William S. Cleveland (Visualizing Data

Sami podaci, koji se sastoje od bitova i bajtova pohranjenih u fajl na kompjuterski hard drive, su nevidljivi. Kako bismo vidjeli i razumjeli kvantitativne podatke, moramo ih vizualizirati. U ovom poglavlju ću koristiti šire razumijevanje termina vizualiziranje, koji uključuje i čisto tekstualno predstavljanje kvantitativnih podataka. Naprimjer, i samo unošenje podataka u spreadsheet se može razumjeti kao vizualizacija. Nevidljivi podaci se odjednom pretvore u vidljivu "sliku" na našem ekranu. Tako da pitanje nije da li novinari trebaju vizualizirati kvantitativne podatke ili ne, već koji tip vizualizacije može biti najkorisniji za određenu situaciju.

Drugim riječima: kada ima smisla ići dalje od tabelarne vizualizacije? Kratki odgovor glasi: gotovo uvijek. Same tabele nam definitivno nisu dovoljne za pregled nekog seta podataka. I same tabele nam ne omogućavaju da odmah identifikujemo obrasce među kvantitativnim podacima. Najčešći primjer su geografski obrasci koji se mogu primijetiti nakon što se podaci vizualiziraju na mapi. Ali postoje i druge vrste obrazaca o kojima ćemo govoriti u ovom poglavlju.

Korištenje vizualizacije za pronalaženje značenja

Nerealno je očekivati da će alati i tehnike za vizualizaciju kvantitativnih podataka odmah iz setova podataka izvući gotove priče. Ne postoje pravila ili "protokoli" koji nam mogu garantovati priču. Mislim da je logičnije da se traže značenja koja dobar novinar može stručno uplesti u priču.

Svaka nova vizualizacija nam može pružiti uvid u značenje podataka. Neka od tih značenja su možda već poznata (ali možda još uvijek nisu dokazana), dok druga mogu biti potpuno nova ili nas čak mogu i iznenaditi. Neka nova značenja mogu predstavljati početak priče, dok druga nastanu kao rezultat grešaka u podacima, koje se najlakše uoče upravo vizualizacijom.

Kako bi se značenja podataka otkrila na efikasniji način, proces opisan na slici Figure 4 (i u ostatku poglavlja) bi mogao biti veoma koristan.

Figure 4. Značenje podataka: vizualizacija (Gregor Aisch)
Naučite kako vizualizirati podatke

Vizualizacija omogućava jedinstven pogled na set podataka. Kvantitativne podatke možete vizualizirati na mnogo različitih načina.

Tabele imaju veliki utjecaj kada se radi sa relativno malim brojem podataka. One prikazuju oznake i količine savršeno struktuirano i organizovano i otkrivaju svoj puni potencijal kada se kombinuju sa mogućnošću sortiranja i filtriranja podataka. Pored toga, Edward Tufte je predložio da se mali dijelovi grafikona ubace u tabelu, na primjer jedan stub u redu ili mali linijski grafikon (od tada takođe poznat kao "sparkline"). Ipak, kao što sam spomenuo u uvodu, tabele očigledno imaju ograničenja. One su odlične za prikazivanje jednodimenzionalne vrijednosti van prosjeka, poput top 10, ali nisu dovoljne kada se radi višedimenzionalno poređenje (npr. broj stanovnika po zemljama u određenom vremenskom periodu).

Figure 5. Tufteovi savjeti: male linije u grafikonu (Gregor Aisch)

Generalno, grafikoni nam omogućavaju mapiranje dimenzija kvantitativnih podataka prema vizualnim svojstvima geometrijskih oblika. Mnogo se piše o efikasnosti individualnih vizuelnih svojstava, i ukratko: boja je značajna, a pozicija je sve. U raspršenom dijagramu, naprimjer, dvije dimenzije su mapirane x i y pozicijom. Može se prikazati i treća dimenzija, bojom ili veličinom prikazanih simbola. Linijski dijagrami su savršeni za prikazivanje promjena kroz određeno vrijeme, a bar dijagrami se koriste za poređenje kategorijskih kvantitativnih podataka. Dijagramske elemente možemo naredati jedan na drugi. Ako želite uporediti malu količinu podataka, dobro je prikazati više primjera jednog dijagrama (eng. "small multiples"). U svim dijagramima mogu se koristiti različite skale da bi se istražili različiti aspekti kvantitativnih podataka koji nas interesuju (npr. linearna ili logaritamska skala).

Zapravo, najveći broj kvantitativnih podataka s kojima radimo vezan je za stvarne ljude. Moć mapiranja je u tome da se kvantitativni podaci mogu ponovo povezati sa fizičkim svijetom. Zamislite set podataka koji prikazuje geografski položaj kriminalnih aktivnosti. Najbitnija je činjenica gdje se zločini dešavaju. Mape mogu otkriti i geografsku povezanost unutar podataka, npr. razlike između sjevera i Juga ili između urbanih i ruralnih područja.

Figure 6. Tematska mapa, eng. choropleth (Gregor Aisch)

Kada govorimo o povezanosti, četvrti najvažniji način vizualizacije je dijagram. Svrha dijagrama jeste prikazati međusobnu povezanost (rubovi) tačaka kvantitativnih podataka (čvorovi). Položaj čvorova se određuje pomoću manje ili više komplikovanih algoritama koji nam omogućavaju da odmah vidimo strukturu unutar mreže. Za dijagramsku vizualizaciju bitno je naći odgovarajući način modeliranja same mreže. Setovi podataka ne moraju uključiivati i veze između određenih kvantitativnih podataka, a čak i da uključuju, to ne mora biti ono najinteresantnije. Ponekad novinar treba definirati rubove i čvorove. Savršen primjer toga je Društveni dijagram američkog Senata, čiji rubovi povezuju senatore koji su isto glasali u više od 65% slučajeva.

Analizirajte i protumačite ono što vidite

Kada završite vizualizaciju kvantitativnih podataka, prelazite na sljedeći korak – izvlačenje određenih zaključaka na osnovu slike koja je kreirana. Možete se zapitati:

  • Šta vidim na slici? Da li je to ono što sam očekivao/la?

  • Postoje li zanimljivi obrasci?

  • Šta to znači u kontekstu podataka?

Ponekad se može desiti da vizualizacija, bez obzira kako lijepo izgledala, ne pokazuje ništa korisno. Ali skoro uvijek se nešto može saznati iz vizualizacije, bez obzira koliko trivijalno.

Dokumentujte svoja zapažanja i korake koje ste poduzeli

Ako na ovaj proces gledate kao na putovanje kroz set podataka, dokumentacija je vaš putni dnevnik. On će vam reći gdje ste putovali, šta ste tamo vidjeli i na koji način ste donijeli odluku za naredni korak. Dokumentovanje možete početi i prije nego što pogledate podatke.

U većini slučajeva, kada radimo sa setom podataka koje do tada nismo vidjeli, imamo određena očekivanja i pretpostavke o tim podacima. Obično postoji razlog zbog kojeg smo zainteresirani za određeni set podataka. Dobro bi bilo započeti dokumentovanje tako što ćete zapisati te misli. To nam omogućava da identificiramo naše predrasude i umanjimo rizik od toga da pogrešno protumačimo kvantitativne podatke, tako što ćemo naći samo ono što smo željeli na samom početku.

Zaista vjerujem da je dokumentovanje najvažniji korak u ovom procesu, a najčešće je to korak koji uglavnom preskočimo. Kao što ćete vidjeti u narednom primjeru, opisani proces uključuje i dosta iscrtavanja i manipulisanja kvantitativnim podacima. Možemo se zbuniti kada gledamo 15 dijagrama koje smo kreirali, naročito kada prođe određeno vrijeme. Zapravo, ti dijagrami vrijede (i vama i onima kojima želite prenijeti ono što ste otkrili) samo ako se predstave u kontekstu u kojem su i kreirani. Stoga morate odvojiti vremena da napravite bilješke o određenim stvarima:

  • Zašto sam kreirao/la ovaj dijagram?

  • Šta sam uradio/la s kvantitativnim podacima da bih ga kreirao/la?

  • Šta mi ovaj dijagram govori?

Transformirajte kvantitativne podatke

Prirodno je da ćete na osnovu onoga što ste primijetili na prvoj vizualizaciji moći pretpostaviti šta ćete sljedeće vidjeti. Možda ste otkrili neki interesantan obrazac koji biste sada željeli malo detaljnije proučiti.

Moguće promjene su:

Zumiranje

Da biste proučili određeni detalj vizualizacije

Sakupljanje

Da biste ukombinovali mnogo tačaka kvantitativnih podataka u jednu grupu

Filtriranje

Da biste (privremeno) uklonili određene tačke kvantitativnih podataka koji trenutno nisu u fokusu

Uklanjanje odstupanja

Da biste se riješili pojedinih tačaka koje odstupaju od 99% podataka u setu

Recimo da ste uradili vizualizaciju dijagrama i sve što ste dobili je samo zbrka čvorova kroz stotine rubova (to je vrlo čest rezultat kada se radi vizualizacija takozvanih gusto povezanih mreža), i uobičajen korak bi bio da filtrirate neke od rubova. Ako, naprimjer, rubovi predstavljaju protok novca iz donatorskih zemalja u zemlje koje primaju donacije, mogli bismo ukloniti sve iznose manje od nekog određenog iznosa.

Koje alate koristiti

Pitanje alata nije jednostavno. Svaka alatka koja se koristi za vizualizaciju kvantitativnih podataka je dobra za nešto. Manipulisanje vizualizacijom i podacima trebalo bi biti jednostavno i jeftino. Ako promjena parametara za vizualizaciju traje satima, nećete mnogo eksperimentisati. To ne znači da ne trebate naučiti kako se taj alat koristi. Ali kada naučite, trebalo bi da bude efikasno.

Vrlo često ima smisla koristiti alat koji obuhvata i manipulisanje podacima i njihovu vizualizaciju. Ako bi se razdvojili ti zadaci, to bi značilo da ćete često morati importovati i eksportovati kvantitativne podatke. Slijedi kratka lista alata za vizualizaciju i manipulisanje kvantitativnim podacima:

  • Spreadsheet alati kao što su LibreOffice, Excel ili Google Docs

  • Statistički programski sistemi: R (r-project.org) ili Pandas (pandas.pydata.org)

  • Grografski informacioni sistemi (GIS) poput Quantum GIS, ArcGIS ili GRASS

  • Biblioteke za vizualizaciju poput d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)

  • Alati za manipulisanje kvantitativnim podacima: Google Refine, Datawrangler

  • Softveri za vizualizaciju poput ManyEyes ili Tableau Public (tableausoftware.com/products/public)

Primjeri vizualizacija predstavljeni u sljedećem dijelu kreirani su uz pomoć R-a, koji je neka vrsta švicarskog noža u svijetu (naučne) vizualizacije kvantitativnih podataka.

Primjer: Interpretacija podataka o izbornim donacijama u SAD-u

U bazi podataka finansiranja predsjedničkih izbora u SAD-u nalazi se 450.000 donacija predsjedničkim kandidatima. CSV dokument je težak 60 megabajta, što je previše da bi se lako mogao analizirati u programima poput Excela.

Prvi korak je napisati inicijalne pretpostavke koje imate o FEC setu podataka o donacijama:

  • Obama dobija najviše donacija (jer je predsjednik i uživa najveću popularnost).

  • Broj donacija raste kako se približava dan izbora.

  • Obama dobija više malih donacija od republikanskih kandidata.

Da bismo odgovorili na prvo pitanje, moramo transformisati kvantitativne podatke. Umjesto da se bavimo pojedinačnim donacijama, trebamo sabrati sve donacije za svakog kandidata. Nakon što vizualiziramo podatke u tabeli, moći ćemo potvrditi svoju pretpostavku da je Obama sakupio najviše novca:

Kandidat Iznos ($)

Obama, Barack

72,453,620.39

Romney, Mitt

50,372,334.87

Perry, Rick

18,529,490.47

Paul, Ron

11,844,361.96

Cain, Herman

7,010,445.99

Gingrich, Newt

6,311,193.03

Pawlenty, Timothy

4,202,769.03

Huntsman, Jon

2,955,726.98

Bachmann, Michelle

2,607,916.06

Santorum, Rick

1,413,552.45

Johnson, Gary Earl

413,276.89

Roemer, Charles E. Buddy III

291,218.80

McCotter, Thaddeus G

37,030.00

Iako ova tabela prikazuje iznose od maksimalnog do minimalnog, ipak ne govori mnogo o obrascima kada je u pitanju rang kandidata. Figure 7 daje dodatni pogled na ove podatke - tzv. tačkasti (Lewisov) dijagram koji prikazuje sve podatke iz tabele, ali daje i obrazac. Naprimjer, tačkasti dijagram nam omogućava da odmah uporedimo razliku između Obame i Romneya ili Romneya i Perrya bez dodatnih oduzimanja. (Napomena: dijagram je kreiran uz pomoć R-a. Linkovi za izvore se nalaze na kraju ovog poglavlja).

Figure 7. Vizualizacija s ciljem pronalaženja temeljnih obrazaca (Gregor Aisch)

Okrenimo se sada sveukupnoj slici ovog seta podataka. U prvom koraku, vizualizirao sam sve iznose koji su donirani tokom vremena. Možemo primijetiti da su sve donacije veoma, veoma male u poređenju sa tri velika odstupanja. Dalje istraživanje pokazuje da velike donacije dolaze od Obama Victory Fund 2012 (poznat i kao Super PAC) i da su uplaćene 29.6. ($450k), 29.9. ($1,5mil) i 30.12. ($1,9mil).

Figure 8. Tri odstupanja (Gregor Aisch)

Iako su donacije Super PAC-a bez sumnje najinteresantnija priča, bilo bi zanimljivo pogledati širu sliku. Ove donacije nam kvare sliku o manjim iznosima koje su donirali pojedinci. Zbog toga ćemo ih ukloniti s liste. Ova izmjena je poznata kao uklanjanje ekstremnih vrijednosti. Nakon što smo ponovo uradili vizualizaciju, možemo vidjeti da je iznos većine donacija između $10.000 i -$5.000.

Figure 9. Uklanjanje ekstremnih vrijednosti (Gregor Aisch)

Prema ograničenjima za donacije koja je odredila FECA, pojedinci ne smiju donirati više od $2.500 po kandidatu. Kao što vidimo na dijagramu, mnoge donacije su veće od tog iznosa. Zapravo, dva velika iznosa donirana u maju privlače pažnju. Izgleda kao da se ogledaju u negativnim iznosima (povratima novca) iz juna i jula. Dalje istraživanje kvantitativnih podataka otkriva sljedeće transakcije:

  • 10.5. Stephen James Davis, San Francisco, zaposlenik u Banneker Partners (advokat), donirao je $25.800 Obami..

  • 25.5, Cynthia Murphy, Little Rock, zaposlena u Murphy Group (odjel za odnose s javnošću) donirala je Obami $33.300.

  • 15.6. Cynthiji Murphy je vraćeno $30.800, što je vrijednost donacije smanjilo na $2.500.

  • 8.7. Stephenu Jamesu Davisu je vraćeno $25.800, što je vrijednost donacije smanjilo na $0.

Šta je interesantno kod ovih cifri? Iznos od $30.800 koji je vraćen Cynthiji Murphy predstavlja maksimalnu vrijednost koju pojedinci mogu donirati nacionalnim strankama u toku godine. Možda je htjela objediniti obje donacije u jednoj transakciji, ali je to odbijeno. Iznos od $25.800, koji je vraćen Stephenu Jamesu Davisu dobijemo kada oduzmemo $5.000 od $30.800 (maksimalan iznos donacije za bilo koji drugi politički odbor).

Još jedna interesantna stvar koju sam otkrio jeste obrazac, prikazan horizontalnom linijom, donacija za kandidate Republikanske stranke od $5.000 i -$2.500. Da bih ih detaljnjije proučio, uradio sam vizualizaciju donacija za republikance. Dijagram koji sam dobio je savršen primjer obrazaca koji se ponavljaju kada su u pitanju kvantitativni podaci, a koje ne bismo primijetili bez vizualizacije.

Figure 10. Uklanjanje ekstremnih vrijednosti 2 (Gregor Aisch)

Tu možemo primijetiti mnogo donacija u iznosu od $5.000 za kandidate Republikanske stranke. Pregled podataka pokazuje da zapravo ima ovih donacija ima samo 1.243, što je 0,3% od ukupnog broja donacija, ali, s obzirom da su donacije ravnomjerno raspoređene tokom određenog vremena, pojavljuje se linija. Ono što je interesantno u vezi ove linije je to da su donacije pojedinaca ograničene na $2.500. Rezultat toga je da je svaki iznos za koji je donacija prelazila maksimalnu dozvoljenu vrijednost vraćen donatorima, što je rezultiralo pojavom druge linije koja prikazuje obrazac za -$2.500. Nasuprot tome, kad su u pitanju donacije za Baracka Obamu, sličnog obrasca nema.

Figure 11. Uklanjanje ekstremnih vrijednosti 3 (Gregor Aisch)

Zbog toga bi bilo interesantno saznati zbog čega hiljade republikanskih donatora nisu primijetili limit za pojedince od $2.500. Da bismo dalje analizirali ovu temu, možemo provjeriti ukupan broj donacija od $5.000 po kandidatu.

Figure 12. Donacije po kandidatu (Gregor Aisch)

Naravno, ovo je dosta iskrivljena slika pošto ukupan iznos donacija po kandidatu nije uzet u obzir. Sljedeći dijagram pokazuje postotak donacija od $5.000 po kandidatu.

Figure 13. Odakle dolazi senatorov novac? Donacije po kandidatu (Gregor Aisch)

Šta možemo naučiti iz ovoga

Često je ovakva vizuelna analiza novog seta podataka poput uzbudljivog putovanja u nepoznatu zemlju. Počinjete kao stranac koji ima samo kvantitativne podatke i pretpostavke, ali sa svakim novim korakom, sa svakim dijagramom koji napravite, saznate nešto novo o temi. Na osnovu tih saznanja donesete odluku o tome koji su naredni koraci koje treba poduzeti i šta vrijedi dalje istraživati. Kao što ste možda vidjeli u ovom poglavlju, proces vizualizacije, analize i transformisanja kvantitativnih podataka može se ponoviti neograničen broj puta.

Uzmite izvorni kod

Svi dijagrami prikazani u ovom poglavlju kreirani su uz pomoć divnog i moćnog softvera R. S obzirom da je kreiran kao alat za naučnu vizualizaciju, teško da neka tehnika vizualizacije ili manipulisanja kvantitativnim podacima nije ugrađena u njega. Za one koje interesuje kako vizualizirati i manipulisati kvantitativnim podacima uz pomoć R-a, evo izvornog koda za dijagrame iz ovog poglavlja:

Dostupan je i veliki broj knjiga i tutorijala o ovoj temi.

Gregor Aisch, Open Knowledge Foundation