Priručnik za data novinarstvo 1.0
Loading

Iza scene: Guardianov Datablog

Kada smo pokrenuli Datablog, nismo imali pojma ko će biti zainteresovan za sirove podatke, statistike i vizualizaciju. Kao što je jedan rukovodilac iz moje kancelarije rekao: ˝Zašto bi iko to želio?˝

Guardianov Datablog – koji ja uređujem – je zamišljen kao mali blog na kojem bi se nalazio kompletan set podataka koji stoje iza naših vijesti. Sada se sastoji od naslovnice; pretrage podataka vezanih za svjetske vlade i globalni razvoj; vizualizacije podataka koje rade Guardianovi grafički dizajneri i autori širom interneta; te od alata za pretraživanje podataka o javnoj potrošnji. Svakodnevno koristimo Google spreadsheets da podijelimo sve podatke koje koristimo u radu, vizualiziramo i analiziramo te podatke, te ih zatim koristimo za pisanje priča za novine i web sajt.

Kao uredniku vijesti i novinaru koji radi sa grafikama, ovo je predstavljalo logičan nastavak onoga što već radim – prikupljam i obrađujem podatke kako bi nastale smislene vijesti dana.

Pitanje koje su mi postavili je odgovoreno samo za sebe. Zadnjih nekoliko godina su bile nevjerovatne za javne podatke. Obama je kao prvo zakonsko rješenje donio odluku da se otvore riznice podataka američke vlade, a njegov primjer su pratile vlade širom svijeta: pokrenute su web stranice sa državnim statistikama u Australiji, na Novom Zelandu, te stranica Data.gov.uk britanske vlade.

Imali smo skandal sa troškovima članova parlamenta – primjer data novinarstva u Britaniji koji niko nije očekivao – što je rezultiralo time da se Westminster obaveže na objavljivanje ogromne količine podataka svake godine.

Imali smo opšte izbore na kojima su se sve stranke obavezale na transparentnost podataka, te su tako naše nepregledne količine podataka postale dostupne cijelom svijetu. Novine su odvojile i koji redak unutar svojih dragocjenih kolumni kako bi pisale o pokretanju COINS baze podataka Ministarstva finansija.

Istovremeno, kako internet izbacuje sve više podataka, čitaoce širom svijeta više nego ikada interesuju sirovi podaci na osnovu kojih se objavljuju vijesti. Kada smo pokrenuli Datablog, mislili smo da će naša publika biti programeri koji razvijaju aplikacije. A zapravo, to su ljudi koji žele saznati nešto više o emisiji ugljika, isočnoevropskim migracijama ili broju mrtvih u Afganistanu – ili čak koliko su puta Beatlesi u svojim pjesmama koristili riječ ˝ljubav˝ (613).

Figure 5. Vizualizirani proizvodni proces Guardianovog Databloga (the Guardian)

Postupno, Datablog je pratio i dodavao pričama koje su izlazile. Metodom crowdsourcinga smo prikupili 458,000 dokumenata o troškovima parlamentaraca i detaljno analizirali podatke o tome ko je od njih šta dobio. Pomogli smo našim korisnicima da istraže detaljne baze podataka o troškovima Trezora i objavili podatke na kojima je bila bazirana priča.

Ali stvari su se za data novinarstvo promijenile u proljeće 2010., a sve je počelo sa jednom tabelom: 92.201 red podataka, od kojih svaki sadrži detaljan pregled vojnih aktivnosti u Afganistanu. To su bili ratni dnevnici sa WikiLeaks-a. Tačnije, prvi dio. Planiran je i nastavak od dvije epizode: Irak i povjerljivi dokumenti. Zvanični naziv za prva dva dijela je SIGACTS: Baza podataka značajnih američkih vojnih operacija.

Dosta zavisi od toga koliko su novinske organizacije i redakcije geografski blizu. Ukoliko su u neposrednoj blizini, lako im se mogu predložiti priče i uključiti ih u cjelokupni proces. Ovdje bukvalno vrijedi – daleko od očiju, daleko od srca. Prije WikiLeaksa, mi smo se nalazili na drugom spratu, sa grafičkim odjeljenjem. Od kada se desio WikiLeaks, svi sjedimo na istom spratu kao i redakcija. Sada lakše možemo predlagati ideje urednicima, a novinari na nas računaju kada im je potrebna pomoć za priče.

Nije bilo tako davno kada su novinari zvanične podatke držali za sebe. Napisali bismo priče sa brojkama i objavili ih zahvalnoj javnosti koju nisu interesovale sirove statistike. Jednostavno je bilo nezamislivo da sirove informacije objavimo u novinama.

Dinamika se sada promijenila do neprepoznavanja. Naša uloga se mijenja u tumače koji ljudima pomažu da razumiju podatke – ili ih jednostavno objavljujemo, jer su sami po sebi interesantni.

Ali brojevi bez analize su samo brojevi, i upravo tu mi stupamo na scenu. Kada je britanski ministar tvrdio da nemiri iz avgusta 2011. nemaju nikakve veze sa siromaštvom, mi smo napravili mapu sa adresama stanovanja učesnika nemira i naveli indikatore siromaštva, te tako otkrili pravu istinu.

Iza svih naših priča u sklopu data novinarstva stoji jedan proces. On se stalno mijenja, kako se mijenjaju i alati i tehnike. Neki ljudi tvrde da je najbolje postati super haker, programirati i koristiti SQL programski jezik. Možete se opredijeliti za to, ali mi dosta posla obavljamo jednostavno u Excelu.

Prvo, lociramo podatke ili ih dobijemo iz raznih izvora, od udarnih priča, vladinih podataka, novinarskih istraživanja, i tako dalje. Zatim gledamo šta možemo uraditi sa tim podacima – da li ih trebamo spojiti sa nekim drugim setom podataka? Kako da prikažemo promjene tokom vremena? Tabele često trebaju biti veoma pedantno uređene – kolone koje se preklapaju ili ćelije koje su pogrešno spojene nisu baš od pomoći. I to ako dokument nije u PDF formatu, najgorem mogućem formatu za podatke poznatom čovječanstvu.

Često zvanični podaci dođu sa zvaničnim oznakama. Svaka škola, bolnica, izborna jedinica i jedinica lokalne uprave imaju jedinstvenu identifikacionu oznaku.

I zemlje ih imaju (naprimjer, oznaka Ujedinjenog Kraljevstva je GB). Ovo je korisno kada želite da spajate podatke. Iznenadili biste se u kolikoj vam mjeri rasporedi slova i riječi to mogu otežati. Imate naprimjer Burmu i Mijanmar, ili okrug Fayette u SAD-u – u državama koje se nalaze između Georgije i Zapadne Virdžinije ih ima 11. Upravo nam identifikacione oznake pomažu da poredimo slične sa sličnima.

Na kraju tog procesa se nalaze izlazne informacije. Da li će to biti priča ili grafika ili vizualizacija i koje alate ćemo koristiti? Nama su najdraži oni alati koji su besplatni i uz pomoć kojih možemo veoma brzo nešto proizvesti. Sofisticiranije grafike pravi naš tim za razvijanje softvera.

Dakle, mi obično koristimo Google Charts za manje linijske i tortne grafikone ili Google Fusion Tables za brzo i lagano kreiranje mapa.

Možda se čini kao da je to nešto sasvim novo, ali zapravo i nije.

U prvom izdanju Manchester Guardiana (5. maja 1821.), vijesti su se nalazile na zadnjoj stranici, kao što je to i bio običaj u to vrijeme. Na naslovnoj stranici, na prvom mjestu se nalazilo obavještenje o izgubljenom labradoru.

A usred priča i isječaka iz poezije, na trećoj strani otpozada, nalazile su se činjenice. Sveobuhvatna tabela sa troškovima školarine za školske ustanove iz tog kraja koje se nikada prije nisu ˝našle pred očima javnosti˝, kako piše NH.

NH je želio da se ti podaci objave jer bi u protivnom te činjenice morao iznijeti jedan od svećenika koji nisu bili obučeni za to. Njega je motivisala činjenica da su ˝te informacije dragocjene; jer ukoliko ne znate do koje mjere obrazovanje…preovladava, onda su najbolja moguća mišljenja o stanju i napretku društva zasigurno netačna.˝ Drugim riječima, ukoliko ljudi ne znaju šta se dešava, kako društvo uopšte može napredovati?

Ne znam šta bi bolje objasnilo ono što mi nastojimo da uradimo. Priče koje su se nekada nalazile na zadnjoj strani danas mogu dospjeti na naslovnicu.

Simon Rogers, the Guardian