Priručnik za data novinarstvo 1.0
Loading

Petominutni vodič

Tražite kvantitativne podatke o određenoj temi ili problemu? Niste sigurni koji podaci su dostupni ili gdje da ih pronađete? Ne znate gdje da počnete? U ovom dijelu pišemo o tome kako početi potragu za javnim izvorima kvantitativnih podataka na internetu.

Učinite vašu pretragu efikasnijom

Iako ih nije uvjek lako naći, mnoge baze podataka na internetu su indeksirane, bilo da su oni koji su ih objavili to željeli ili ne. Slijedi nekoliko savjeta:

  • Kada tražite kvantitativne podatke, pobrinite se da koristite i pojmove vezane za sadržaj podatka koji pokušavate naći, kao i neke informacije o formatu ili izvoru u kojem očekujete da se nalaze. Google i drugi pretraživači vam omogućavaju pretragu prema tipu fajla. Naprimjer, možete potražiti samo spreadsheetove (tako što pretragu proširite sa "filetype:XLS filetype:CSV"), geopodatke ("filetype:shp") ili izvode iz baza podataka ("filetype:MDB, filetype:SQL, foletype:DB"). Ukoliko želite, možete tražiti i PDF-ove ("filetype:PDF").

  • Možete pretraživati i prema dijelovima URL-a. Pretraživanjem Googla sa "inurl:downloads filetype:xls", tražite sve Excel fajlove koji u svojoj web adresi sadrže ˝downloads˝ (ukoliko nađete samo jedan download, često se isplati provjeriti koji još rezultati na web serveru postoje za taj isti folder). Isto tako, pretragu možete ograničiti na rezultate unutar jedne domene, tako što ćete, naprimjer, tražiti "site:agency.gov".

  • Još jedan popularan trik je da u pretragu ne uključite direktno sadržaj, već da tražite mjesta na kojima bi velike količine kvantitativnih podataka mogle biti dostupne. Naprimjer, "site:agency.gov Directory Listing" vam može ponuditi neke listinge koje generira web server sa pristupom sirovim podacima, dok će "site:agency.gov Database Download" tražiti liste koje su kreirane namjenski.

Pravo na izvor

Prvi trik koji koristim da dobijem podatke od javnih ustanova je da idem direktno onome ko čuva podatke – ne osobi zaduženoj za odnose s javnošću, ne preko zahtjeva za pristup informacijama. Naravno da bih mogla napisati zahtjev za pristup informacijama ili javnim arhivama, ali to će polako pokrenuti proces. Vjerovatno ću dobiti odgovor da podaci nisu u formatu koji sam tražila ili da (kao što se desilo u nekoliko slučajeva) taj vladin organ koristi vlastiti softver i ne može izdvojiti informacije u formatu koji sam tražila. Ali ako prvo uspješno dođem do osobe koja upravlja podacima u toj organizaciji, mogu pitati koje podatke o određenoj temi imaju i kako ih čuvaju. Mogu saznati koji format koriste. Mogu govoriti data jezikom i saznati šta treba da uradim da bi moj zahtjev za podacima bio odobren. Prepreke na ovom putu? Često je teško doći do ovih ljudi. Oficir za javne informacije (PIO) će htjeti da se obratim njima. Moje iskustvo je da je najbolje pokušati organizovati telefonski razgovor s njima ili, još bolje, sastanak uživo između njih, gurua za podatke, i mene. A to mogu organizovati tako da im bude teško da me odbiju. „Ne želim im stvarati dodatni posao“, kažem, „ne želim da svoj zahtjev formulišem previše široko ili naporno, tako da će mi sastanak pomoći da tačno razumijem šta od podataka imaju i kako ih najbolje mogu zatražiti.“

Ako ova metoda ne upali, druga opcija je da u zahtjevu prvo tražim njihov pregled arhiva i data rječnik. Nakon toga zatražim same podatke. Nekada ću također prvi pitati na koji način i u kojem sistemu čuvaju podatke. Na taj način mogu istražiti načine ekstrakcije podataka prije nego što formulišem zahtjev.

Moja najuspješnija priča je iz doba kada sam radila za jedne male novine u Montani. Trebali su mi neki podaci iz okruga, za koje mi je rečeno da se ne mogu eksportovati iz glavne baze. Malo sam istraživala i ponudila da dođem i pomognem. Radila sam sa njihovom osobom za podatke, napravili smo kratki program i podatke prebacili na disketu (ovo je bilo davno). Imala sam podatke, a orkužni ured je sada imao način da obezbijedi podatke svima koji ih traže. Nisu namjeravali da se to desi, ali i njima je nekada bilo potrebno da ekstraktuju podatke i nisu do kraja razumjeli sistem, tako da smo pomogli jedni drugima.

Cheryl Philips, The Seattle Times

Pretražujte data sajtove i alate

Tokom proteklih nekoliko godina, na webu se pojavilo nekoliko aktivnih data portala, sistema za upravljanje podacima i drugih data sajtova. Na ovakvim mjestima možete saznati kakve vrste podataka postoje. Za početak, možete pogledati:

Figure 1. datacatalogs.org (Open Knowledge Foundation)
Zvanični portali sa kvantitativnim podacima

Spremnost vlade da objavi određene setove kvantitativnih podataka razlikuje se od zemlje do zemlje. Sve veći broj zemalja pokreće portale sa podacima (inspirisani američkim data.gov i data.gov.uk u UK-u) kako bi promovisali korištenje vladinih informacija u civilne i komercijalne svrhe. Ažurirani globalni index takvih siteova se može naći na datacatalogs.org. Drugi zgodan site je Guardian World Government Data (Guardianovi podaci svjetskih vlada), meta pretraživač koji sadrži mnoge kataloge sa podacima od međunarodnih vlada.

The Data Hub

Resurs baziran na online zajednici koju vodi Open Knowledge Foundation. Olakšava pretragu, dijeljenje i ponovno korištenje otvorenih i dostupnih izvora podataka, naročito na načine koji su mašinski automatizirani.

ScraperWiki

Online alat koji proces ekstraktovanja ˝korisnih dijelova podataka olakšava tako da se mogu koristiti u drugim aplikacijama ili ih mogu pretraživati novinari i istraživači˝. Većina softvera za ekstrakciju podataka (scrapera) i njihovih baza podataka su javni i mogu se iznova koristiti.

Portali s podacima Svjetske banke i Ujedinjenih nacija

Ovi portali pružaju kvalitetne indikatore za sve zemlje, često i mnogo godina unazad.

Buzzdata, Infochimps, DataMarket

Pokreće se određeni broj organizacija čiji je cilj da izgrade zajednice oko dijeljenja i preprodaje podataka.

DataCouch

Mjesto na kojem možete uploadovati, pročistiti, dijeliti i vizualizirati vaše kvantitativne podatke.

Freebase

Interesantan dio Google-a, pruža ˝graf povezanosti ljudi, mjesta i stvari kojeg je izgradila zajednica koja voli otvorene podatke.˝

Rezultati istraživanja

Postoje mnogi državni i disciplinarni sakupljači podataka iz istraživanja, kao što je UK Data Archive. Neki podaci su besplatni, ali ima i dosta onih za koje se morate pretplatitii ili koje ne možete koristiti i redistribuirati bez dozvole.

Izvlačenje podataka iz papirnih arhiva

Odmah nakon WikiLeaksovog objavljivanja američkih vojnih dokumenata iz Afganistana i Iraka, odlučili smo prilagoditi koncept da proslavimo 50-godišnjicu Alžirskog rata objavljivanjem Alžirskih vojnih dnevnika. Odlučili smo prikupiti i digitalizirati arhive francuske armije u Alžiru, koji su dostupni u arhivu Ministarstva rata u Parizu, iako u papirnom obliku. Poslali smo novinare i studente da fotografišu dokumente. Pokušali smo ih skenirati koristeći Canon P-150 prenosivi skener, ali ovo nije funkcionisalo, uglavnom zbog toga što je većina dokumenata bila uvezana.

Na kraju, 10.000 stranica je prikupljeno u nekoliko sedmica. Provukli smo ih kroz softver za prepoznavanje teksta (ABBYY FineReader), što je dalo loše rezultate. Štaviše, ministarstvo nam je odjednom, bez vidljivog razloga, odbilo pristup najinteresantnijim dijelovima arhiva. I nakon svega, ministarstvo zabranjuje ponovno objavljivanje dokumenata koji se mogu slobodno fotografisati, tako da smo odlučili da cijeli projekt nije vrijedan rizika i stavili ga na čekanje.

Nicolas Kayser-Bril, Journalism++

Pitajte forum

Potražite već postojeće odgovore ili postavite pitanje na Get The Data ili na Quora. GetTheData je site sa pitanjima i odgovorima gdje možete postaviti pitanja vezana za podatke i gdje možete naći kvantitativne podatke koji se tiču određene problematike, te saznati kako da tražite ili nađete određene izvore podataka, koje alate da koristite kako biste vizuelno istražili neki set kvantitativnih podataka, kako da pročistite podatke ili ih dobijete u formatu sa kojim možete raditi.

Pitajte mejling listu

Mejling liste kombinuju mudrost cijele zajednice vezane za određenu temu. Za data novinare, Data-Driven Journalism List i NICAR-L liste predstavljaju odličan početak. Obje ove liste sadrže kontakte data novinara i stručnjaka za CAR (kompjuterski potpomognuto izvještavanje) koji rade na različitim projektima. Postoji velika šansa da je neko napravio priču koja je ista kao vaša i zna odakle možete početi, ili ima link koji vodi do samih podataka. Možete pokušati i sa Project Wombat (lista za diskusije o pitanjima za koje je teško naći reference), mnogim listama organizacije Open Knowledge Foundation, mejling listama Info.org, ili tražiti liste vezane za temu ili region koji vas interesuje.

Pridružite se organizaciji Hacks/Hackers

Hacks/Hackers je međunarodna grassroots novinarska organizacija koja raste nevjerovatnom brzinom i ima desetine odjela i hiljade članova na četiri kontinenta. Njena misija je stvaranje mreže novinara (˝hacks˝) i kompjuterskih stručnjaka (˝hackers˝) koji će izmijeniti budućnost vijesti i informacija. Sa tako širokom mrežom imate dobre šanse da ćete naići na nekoga ko će znati gdje da potražite ono što vas interesuje.

Pitajte eksperta

Profesori, državni službenici i ljudi iz industrije često znaju gdje da traže podatke. Nazovite ih. Pošaljite im e-mail. Obratite im se na događajima. Pojavite se u njihovim uredima. Ljubazno ih pitajte: ˝Radim priču o X. Gdje to mogu naći? Da li znate ko posjeduje te podatke?˝

Raspitajte se o vladinom IT odjelu

Kada pokušavate doći do podataka, često je korisno poznavati tehničke i administrativne kontekste u kojima vlada održava informacije. Da li je u pitanju CORDIS, COINS ili THOMAS – te baze podataka postanu najkorisnije kada saznate nešto o tome koja im je svrha.

Pronađite vladine organizacijske šeme i potražite odjele na kojima se sektori preklapaju (npr. izvještavanje, IT služba), te zatim istražite njihove web sajtove. Dosta podataka se čuva u više odjela i, dok ih jedni čuvaju kao blago, drugi će vam je možda rado ponuditi.

Potražite dinamičke infografike na vladinim sajtovima. Oni često sadrže struktuirane izvore podataka/API-jeve koji se mogu nezavisno koristiti (npr. aplikacije za praćenje letova, java aplikacije za vremensku prognozu).

Pretraživanje telefonskih listinga

Prije nekoliko mjeseci, želio sam analizirati telefonske zapise (tadašnjeg) predsjedničkog kandidata, teksaškog guvernera Ricka Perryja. Dobio sam ih kao rezultat davno poslanog zahtjeva za javnim informacijama. Podaci su stigli u formi preko 120 strana faksiranih dokumenata. Poduhvat je zahtijevao unos i čišćenje podataka, te pretragu brojeva telefona na WhitePages.com.

Kada smo spojili imena sa državnim i federalnim (FEC) podacima izborima, pronašli smo da je Perry kontaktirao donatore i super PAC donatore sa državnih telefonskih linija, što je praksa na koju se ne gleda s odobravanjem i što je poteglo pitanje veza između njega i "super PAC"-a koji radi njemu u korist.

Jack Gillum, Associated Press

Tražite ponovo

Kada znate više o onome što tražite, tražite ponovo koristeći fraze i neobične kombinacije riječi koje ste primijetili. Možda ćete imati i više sreće sa pretraživačima!

Napišite zahtjev po Zakonu o slobodnom pristupu informacijama

Ukoliko vjerujete da vladin organ ima podatke koji su vam potrebni, onda je vaše najbolje oružje možda upravo zahtjev za informacijama koji se poziva na Zakon o slobodi pristupa informacijama. Ispod potražite dodatne informacije o tome kako da ga sastavite i pošaljete.

Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)

Kada zakon iznevjeri

Nakon što sam pročitao akademski članak o tome da objavljivanje podataka o higijenskim inspekcijama u restoranima smanjuje broj hranom izazvanih bolesti u Los Angelesu, pitao sam parišku higijensku službu za listu inspekcija. Prateći proceduru propisanu francuskim zakonom o pristupu informacijama, čekao sam 30 dana da odbiju moj zahtjev, a zatim otišao u Komisiju za pristup javnim podacima (franc. CADA), koja određuje legitimnost zahtjeva za pristup javnim informacijama. CADA je podržala moj zahtjev i administraciji naredila da objave podatke. Administracija je na to tražila još dva mjeseca vremena i CADA je to prihvatila. Dva mjeseca kasnije, još uvijek nisu ništa uradili.

Pokušao sam angažujem neke poznate (i skupe) advokate za otvorenost podataka da idu na sud s ovim (što košta 5000 eura i predstavlja sigurnu pobjedu uz podršku CADA-e), ali ih je bilo strah da kompromitiraju svoje odnose sa oficijelnim programima za otvorenost podataka. Ovaj primjer je jedan od nekoliko gdje je francuska administracija jednostavno ignorisala zakon i oficijelne inicijative nisu učinile ništa da podrže grassroots zahtjeve za podacima.

Nicolas Kayser-Bril, Journalism++