Priručnik za data novinarstvo 1.0
Loading

Podaci u vijestima: WikiLeaks

Sve je počelo kada me je jedan tim novinara istraživača pitao: ˝Ti se dobro snalazis s tabelama, zar ne?˝ A u pitanju su bile nevjerovatne tabele: 92.201 red podataka od kojih svaki sadrži detaljan prikaz vojnih dešavanja u Afganistanu. To su bili WikiLeaksovi ratni dnevnici. Tačnije, samo prvi dio. Planiran je i nastavak od dvije epizode: Irak i povjerljive poruke. Zvanični naziv za prva dva dijela je SIGACTS: Baza podataka značajnih američkih vojnih operacija.

Afganistanski ratni dnevnici – koje su podijeljeni sa The New York Times-om i Der Spiegel-om – predstavljaju data novinarstvo u akciji. Htjeli smo omogućiti našem timu specijaliziranih reportera da na osnovu informacija dobiju odlične ljudske priče – i htjeli smo ih analizirati kako bismo dobili jednu širu sliku i vidjeli kako se rat zapravo odvija.

Odmah na početku je bilo jasno nećemo objaviti kompletnu bazu podataka. WikiLeaks je to svakako planirao uraditi i htjeli smo biti sigurni da nećemo odati imena doušnika ili bespotrebno ugroziti NATO trupe. Istovremeno, našim novinarima istraživačima, kojima su predvodili David Leigh i Nick Davies (koji su sa Julianom Assangeom pregovarali o objavljivanju podataka), smo htjeli olakšati korištenje podataka. Isto tako, htjeli smo pristup ključnim informacijama učiniti što jednostavnijim i pristupačnijim ostatku svijeta.

Podatke smo dobili u obliku jednog velikog Excel fajla – preko 92.201 red podataka, od kojih neki nisu ništa sadržavali ili su bili loše formatirani. Novinarima nisu bili od nikakve pomoći jer nisu mogli pregledati podatke i na osnovu njih pisati smislene priče.

Naš tim je izgradio jednostavnu internu bazu podataka koristeći SQL. Novinari su sada mogli na osnovu ključnih riječi ili događaja pretraživati priče. Set podataka je tako odjednom postao pristupačan, a pisanje priča lakše.

Podaci su bili dobro struktuirani: svaki događaj je sadržavao sljedeće ključne podatke: vrijeme, datum, opis, broj žrtava i – što je bilo ključno – detaljno navedenu geografsku širinu i dužinu.

Figure 14. WikiLeaksovi ratni dnevnici (the Guardian)

Počeli smo i sa filtriranjem podataka kako bismo lakše ispričali jednu od ključnih ratnih priča: povećani napadi improvizovanim eksplozivnim napravama – domaćim bombama¸koje su nepredvidive i protiv kojih se teško boriti. Ovaj set podataka je i dalje bio masivan - ali je bilo lakše baratati njim. Bilo je oko 7.500 eksplozija takvih naprava ili zasjeda (zasjeda je kada se napad kombinuje sa, naprimjer, paljbom iz pješadijskog oružja ili sa raketnim granatama) u periodu između 2004. i 2009. Pronađeno je još 8.000 improvizovanih eksplozivnih naprava koje su uklonjene. Htjeli smo vidjeti kako su se mijenjale tokom vremena i uporediti ih. Ovi podaci su nam omogućili da vidimo da ih je najviše bačeno na jug gdje su tada bile stacionirane britanske i kanadske trupe, što je potvrdilo ono što su naši novinari koji su izvještavali iz rata već znali.

Irački ratni dnevnici objavljeni u oktobru 2010. su u javnost iznijeli 391.000 dokument o ratu u Iraku.

Ovo se razlikovalo od podataka o Afganistanu koji su procurili u javnost – može se slobodno reći da je zahvaljujući ovome ovaj rat postao najbolje dokumentovan u historiji. Sada smo imali sve moguće detalje koje smo mogli analizirati i prikazati. Ali jedan faktor se naročito ističe: broj poginulih, od kojih je najveći broj civila.

Baš kao i sa pričom o Afganistanu, Guardian je odlučio da ne objavi cijelu bazu podataka, uglavnom jer nismo bili sigurni da li se u rezimeu nalaze povjerljivi podaci o doušnicima i tako dalje.

Ali smo našim čitaocima omogućili da skinu tabele sa podacima o svim incidentima u kojima je neko poginuo, njih skoro 60.000. Uklonili smo rezimee, tako da su ostali samo osnovni podaci: vojni pravac, brojevi žrtava i geografske koordinate.

Pored toga, podatke o incidentima u kojima je neko poginuo smo stavili na mapu pomoću Google Fusion tabela. Nije ispalo savršeno, ali je predstavljalo početne napore da se mapiraju obrasci razaranja i pustošenja Iraka.

U decembru 2010. su objavljene povjerljive poruke. I ovo je pripadalo skroz drugoj ligi, jer je predstavljalo ogroman set podataka sa zvaničnim dokumentima: 251.287 depeša od preko 250 američkih ambasada i konzulata širom svijeta. To je predstavljalo jedinstvenu sliku američkog diplomatskog jezika – uključujući preko 50.000 dokumenata koji se tiču sadašnje Obamine administracije. Ali šta se nalazilo u tim podacima?

Same poruke su stigle preko ogromne tajne internet mreže rutera ili SIPRNet (Secret Internet Protocol Router Network). SIPRNet je vojni internet sistem Sjedinjenih država koji pokriva cijeli svijet a odvojen je od običnog civilnog interneta i vodi ga Ministarstvo odbrane u Vašingtonu. Od napada u septembru 2001., u SAD-u se radi na tome da se arhivi vladinih informacija međusobno povežu u nadi da ključne obavještajne informacije više neće zaglaviti u informacijskim silosima ili u ˝uskom grlu˝. Sve veći broj američkih ambasada se tokom prošle dekade uvezalo na SIPRNet kako bi mogli dijeliti vojne i diplomatske informacije. Do 2002., 125 ambasada je bilo na SIPRNetu; do 2005., taj broj je porastao na 180, a sada je već velika većina misija Sjedinjenih država širom svijeta povezano na sistem – upravo iz tog razloga je većina ovih povjerljivih informacija iz 2008. i 2009. Kao što je napisao David Leigh

Ambasadina depeša obilježena kao SIPDIS se automatski skida na povjerljivi web sajt odgovarajuće ambasade. Tu joj mogu pristupiti ne samo svi iz Ministarstva vanjskih poslova, već i pripadnici američke vojske koji imaju pristup tajnim podacima, lozinku i kompjuter koji je uvezan na SIPRNet.

…koji pokriva nevjerovatnih 3 miliona ljudi. Tu se nalazi nekoliko slojeva podataka, sve do nivoa SECRET NOFORN, što znači da su dizajnirani tako da se nikada ne pokazuju osobama koje nemaju američko državljanstvo. Namijenjeni su zvaničnicima u Vašingtonu, sve do nivoa državnog sekretara Hillary Clinton. Povjerljive poruke obično sastavljaju lokalni ambasadori ili njihovi podređeni. Dokumentima sa naznakom ˝državna tajna˝ i ostalim tajnim obavještajnim dokumentima višeg ranga se ne može pristupi iz SIPRNeta.

Za razliku od podataka koji su prethodno objavljeni, ovo je većinom bio tekst koji nije sadržavao cifre. Evo šta je obuhvatao:

Izvor

Ambasada ili organ koji je poslao povjerljivu poruku.

Spisak primalaca

Obično su se povjerljive poruke slale određenom broju ambasada i organa.

Predmet

U suštini, rezime povjerljive poruke.

Tagovi

U svakoj povjerljivoj poruci je tagovano nekoliko skraćenica ključnih riječi.

Tekst

Sama povjerljiva poruka. Odlučili smo se da ih, iz očiglednih sigurnosnih razloga, ne objavljujemo u potpunosti.

Interesantna strana ove priče je to kako su povjerljive poruke skoro uzrokovale to da određeni podaci iscure na zapovijed. Nakon što su objavljene, sedmicama su predstavljale glavne vijesti. Sada kada izađe priča o nekom korumpiranom režimu ili međunarodnom skandalu, pristup povjerljivim porukama nam omogućava i pristup novim pričama.

Analiziranje povjerljivih poruka predstavlja ogroman zadatak koji se možda nikada neće u potpunosti završiti.

Ovo je uređena verzija odlomka koji je prvo objavljen u Činjenice su svete: moć podataka, autora Simona Rogersa, The Guardian (izdanje za Kindle)