Priručnik za data novinarstvo 1.0
Loading

Osnovni koraci u radu sa podacima

Postoje barem tri ključna koncepta koje morate razumjeti kada započinjete data projekat;

  • Zahtjevi za podacima trebaju početi spiskom pitanja na koja tražite odgovor.

  • Podaci su često zbrkani i treba ih srediti.

  • Moguće je da podaci imaju nedokumentovane značajke.

Figure 2. Zbrkani podaci

Znajte na koja pitanja želite odgovor

Na mnogo načina, rad sa kvantitativnim podacima podsjeća na intervjuisanje živog izvora. Podacima postavljate pitanja i navedete ih da vam daju odgovor. Ali, kao što i bilo koji izvor može pružiti samo one informacije koje posjeduje, set podataka može odgovoriti samo na ona pitanja za koja ima odgovarajuću evidenciju i varijable. To znači da trebate dobro razmisliti o tome na koja pitanja želite odgovor i prije nego dobijete podatke. U suštini, radite unazad. Prvo, izlistate izjave potkrijepljene kvantitativnim podacima koje želite uvrstiti u svoju priču. Zatim odlučite koje varijable i kvantitativne podatke trebate nabaviti i analizirati kako biste mogli formirati te izjave.

Uzmimo primjer izvještaja o lokalnom kriminalu. Recimo da želite uraditi priču koja se bavi obrascima kriminalnih radnji u vašem gradu i da izjave koje želite iznijeti uključuju i vrijeme u toku dana, te dane u sedmici kada je najvjerovatnije da će se različite vrste kriminala desiti, te koji dijelovi grada su najčešća mjesta gdje se određene kategorije kriminalnih radnji dešavaju.

Uvidjet ćete da vaši zahtjevi za podacima moraju uključiti datum i vrijeme kada je svaki zločin prijavljen, o kojoj vrsti kriminala je riječ (ubistvo, krađa, provala, itd.), te adresu mjesta na kojem se zločin desio. Tako da su kategorije Datum, Vrijeme, Kategorija zločina i Adresa minimum varijabli koje su vam potrebne kako biste odgovorili na ova pitanja.

Ali imajte na umu da postoji određeni broj potencijalno interesatntnih pitanja na koja ovaj set podataka od četiri varijable ne može odgovoriti, kao što su rasa i dob žrtava, ili ukupna vrijednost ukradene robe, ili koji policajci su najefikasniji prilikom hapšenja. Isto tako, moguće je da ćete dobiti podatke samo o određenom vremenskom periodu, naprimjer o prethodne tri godine, što znači da nećete znati da li su se kriminalni obrasci promijenili u toku dužeg vremenskog perioda. Ova pitanja su možda izvan onoga o čemu ste htjeli pisati, i to je u redu. Ali ne želite se dati na analizu kvantitativnih podataka i onda odjednom odlučiti da želite znati koliki je procenat zločina u različitim dijelovima grada riješen hapšenjem.

Jedan od zaključaka je da je često dobra ideja tražiti sve varijable i evidencije iz određene baze podataka, a ne samo manji set koji će odgovoriti na pitanja potrebna za priču koja se odmah piše. (Zapravo, cijeli set podataka može biti jeftiniji od jednog njegovog dijela ukoliko trebate platiti agenciji za programirenje potrebno kako bi se izvukao podset podataka.) Uvijek i sami možete izvući podset, a pristup cijelom setu podataka vam omogućava da odgovorite na nova pitanja koja se mogu pojaviti u toku rada, te mogu dovesti do novih ideja za neku narednu priču. Moguće je da se zbog zakona o povjerljivosti podataka ili drugih pravila neke varijable, kao što su identiteti žrtava ili imena tajnih doušnika, neće moći objaviti. Ali i djelimična baza podataka je bolja od nikakve, sve dok razumijete na koja pitanja reducirana baza podataka može ili ne može odgovoriti.

Sređivanje neurednih podataka

Jedan od najvećih problema u radu sa bazama podataka je činjenica da ćete često za analizu koristiti podatke koji su prikupljani za birokratske svrhe. Problem je u tome što su standardi za tačnost za ove dvije grupe podataka potpuno drugačiji.

Naprimjer, ključna funkcija baze podataka pravosudnog sistema je da se pobrine da se optuženi Jones iz zatvora dovede pred sudiju Smitha na saslušanje. Za to zaista nije toliko bitno da li je Jonesov datum rođenja pogrešan, ili je njegova adresa pogrešno napisana, pa čak ni da li je njegovo kršteno ime netačno. Sistem uglavnom može koristiti i ovakvu nesavršenu evidenciju kako bi Jonesa dovela pred sudiju Smitha u zakazano vrijeme.

Ali takve greške mogu ugroziti nastojanja data novinara da otkrije obrasce u bazi podataka. Iz tog razloga, prvo što trebate uraditi kada nabavite novu bazu podataka je da pogledate koliko je neuredna i da je sredite. Dobar i brz način da nađete podatke koji su neuredni je da kreirate tabele frekventnosti kategoričkih varijabli, onih za koje se pretpostavlja da će imati relativno mali broj različitih vrijednosti. (Kada koristite Excel, naprimjer, ovo možete uraditi pomoću Filter ili Pivot Tables za svaku kategoričku varijablu.)

Uzmimo za primjer "Spol". Otkrit ćete da vaše polje Spol uključuje različite vrijednosti: Muško, Žensko, M, Ž, 1, 0, MUŠKO, ŽENSKO, itd., uključujući i pogrešno napisane varijable, kao npr. ´ŽNSKO´. Da biste proveli pravilnu analizu po spolovima, morate standardizirati – odlučiti se za jednu oznaku, npr. M i Ž – i onda sve varijante promijeniti tako da odgovaraju standardima. Druga baza podataka koja ima ovakve probleme su podaci o potrošnji fondova za kampanje u Americi, gdje se u polju Zanimanje mogu naći ˝Advokat˝, ˝Pravnik˝, ˝Adv˝, ˝Savjetnik˝, ˝Parničar˝ ili bilo koja druga varijacija ili pogrešno napisana titula. Dakle, opet je potrebno standardizirati zanimanja i napraviti što je moguće kraću listu.

Sređivanje podataka postaje još problematičnije kada se radi sa imenima. Jesu li “Joseph T. Smith”, “Joseph Smith”, “J.T. Smith”, “Jos. Smith” i “Joe Smith” ista osoba? Možda ćete morati provjeriti neke druge varijable, kao što su adresa ili datum rođenja, ili čak istražiti druge evidencije kako biste saznali odgovor. Ali alati poput Google Refine mogu očistiti i standardizirati podatke na brži i manje zamoran način.

Prljavi podaci

Zahvaljujući generalno jakim zakonima o javnim arhivama u SAD-u, dobiti podatke nije teško kao što može biti u mnogim drugim zemljama. Ali jednom kada ih dobijemo, i dalje se suočavamo sa izazovom rada sa podacima koji su prikupljeni za birokratske, a ne analitičke svrhe. Podaci su često "zbrkani", sa nestandardiziranim vrijednostima. Nekoliko puta sam dobio podatke koji se ne poklapaju sa smjernicama i rječnikom koji dolazi uz njih. Neke agencije insistiraju na neprikladnim formatima kao što je .pdf, koje morate konvertovati. Problemi poput ovih čine da stvarno cijenite kada dobijete set podataka koji ne zadaje glavobolju.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Podaci mogu imati nedokumentovane značajke

Osnova svake baze podataka je takozvani data rječnik. Ovaj će vam fajl (text ili PDF ili čak spreadsheet) reći kako je fajl sa podacima formatiran (razgraničeni text, text fiksirane širine, Excel, dBase, itd.), raspored varijabli, naziv svake varijable, te tip podatka svake varijable (tekstualni niz, decimalan, itd.). Ove podatke ćete iskoristiti da pravilno importujete fajl sa podacima u softver za analizu koji namjeravate koristiti (Excel, Access, SPSS, Fusion Tables, bilo koji SQL, itd.)

Drugi ključni element data rječnika je objašnjenje svih kodova koji određene varijable koriste. Naprimjer, spol se može kodirati tako da je ´1=Muško´ a ´0=Žensko´. Zločini se mogu kodirati na osnovu šifri za zločine iz statuta pravosuđa. Bolnički dosjei mogu koristiti bilo koji od stotina petocifrenih kodova za dijagnoze bolesti od koje se neki pacijent liječi. Bez data rječnika, jako je teško, možda čak i nemoguće, pravilno analizirati ove setove podataka.

Ali čak i sa data rječnikom možete naići na probleme. Slično se desilo novinarima Miami Heralda na Floridi prije nekoliko godina kada su radili analizu različitih kazni koje su sudije izricale osobama uhapšenim zbog vožnje pod utjecajem alkohola. Novinari su od suda nabavili kvantitativne podatke o presudama i analizirali brojke vezane za tri različite kaznene varijable u data rječniku: vrijeme u pritvoru, vrijeme u zatvoru i iznos novčane kazne. Ove brojke su značajno varirale kod različitih sudija, tako da su novinari dobili dokaz za priču o tome kako su neke sudije stroge, a neke blage.

Ali podaci su kod svih sudija pokazivali da 1-2% slučajeva nije rezultiralo ni pritvorom, niti zatvorskom ili novčanom kaznom. Tako da je grafik koji pokazuje kaznene obrasce svakog od sudija sadržavao mali broj slučajeva klasificiranih kao ˝Bez kazne˝. Kada je priča sa grafikom odštampana, sudije su žustro reagovale i tvrdile da ih Herald optužuje da krše državni zakon koji nalaže da se kazne sve osobe optužene za vožnju u pijanom stanju.

Tako da su se novinari vratili kod službenika suda koji im je dostavio data fajl i pitale ga šta je uzrokovalo grešku. Rečeno im je da su pomenuti slučajevi uključivali siromašne optuženike koji su prvi put uhapšeni: inače bi im se propisala novčana kazna, ali oni nisu imali novca, tako da su im sudije dodjeljivale društveno korisni rad, kao što je čišćenje ulica. Ispostavilo se da je zakon koji zahtijeva kaznu usvojen nakon što je kreirana struktura za bazu podataka. Tako da su svi službenici suda znali da u podacima nula u svakoj od varijabli (pritvor, zatvor, novčana kazna) znači društveno korisni rad. Međutim, ovo nije bilo navedeno u data rječniku, te je Herald morao napisati ispravku.

Lekcija koju iz ovog slučaja možemo izvući je da agenciju od koje dobijemo podatke uvijek pitamo da li su među podacima neki nedokumentovani elementi, neki kodovi koji su nedavno kreirani i nisu uključeni u data rječnik, promjene u izgledu fajla, ili nešto drugo. Isto tako, uvijek pregledajte rezultate analize i upitajte se da li su smisleni. Heraldovi novinari su grafikon gradili malo prije krajnjeg roka kada je priča trebala biti završena i toliko su se skoncentrisali na prosječne kazne svakog sudije da nisu obratili pažnju na nekoliko slučajeva za koje se činilo da su prošli nekažnjeno. Trebali su se upitati da li ima smisla to što sve sudije krše državni zakon, pa čak i u tako maloj mjeri.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Izmiješani, skriveni i odsutni podaci

Sjećam se zanimljive situacije kada smo pokušali da pristupimo mađarskim podacima o EU subvencijama za farme: sve je bilo tu ali u ogromnom PDF dokumentu i pomiješano sa podacima o državnim subvencijama. Naši programeri su satima morali raditi dok nismo dobili podatke koje smo mogli koristiti.

Zanimljiv slučaj su bili i podaci o EU subvencijama za ribolov, koje su državne agencije u svih 27 zemalja članica obavezne objaviti. Ovdje možete vidjeti odlomak iz izvještaja koji smo o tome napisali: "U Velikoj Britaniji, naprimjer, format podataka varira od HTML stranica za pretragu koje je veoma lako koristiti do PDF pregleda ili čak listi primatelja subvencija u različitim formatima, skrivenih negdje na dnu saopštenja za štampu. Sve ovo unutar jedne zemlje. U međuvremenu, u Njemačkoj i Bugarskoj se objavljuju prazne liste. Naslovi su tu ali nema podataka."

Brigitte Alfter, Journalismfund.eu