Priručnik za data novinarstvo 1.0
Loading

Devetomjesečna istraga o evropskim strukturnim fondovima

Financial Times i Biro za istraživačko novinarstvo (Bureau of Investigative journalism - BIJ) su 2010. udružili snage kako bi istražili evropske strukturne fondove. Cilj je bio da saznaju ko su primaoci evropskih strukturnih fondova, te da provjere da li se novac koristi u dobre svrhe. Sa 347 milijardi eura tokom sedam godina, Strukturni fondovi su drugi najveći program dodjele subvencija u EU. Ovaj program postoji već decenijama, ali osim opštih podataka, objavljeno je jako malo transparentnih podataka o tome ko su njegovi primaoci. Kako su se pravila o fondovima promijenila, vlasti su sada obavezne da javno objave spisak dobitnika subvencija, te opise projekata i iznos koji primaju od EU i iz državnih fondova.

Figure 2. Istraga o strukturnim fondovima EU (Financial Times i Biro za istraživačko novinarstvo)

Projektni tim je sastavljen od maksimalno 12 novinara i jednog programera zaposlenog na puno radno vrijeme tokom devet mjeseci. Samo za prikupljanje podataka je bilo potrebno nekoliko mjeseci.

Kao rezultat projekta nastala je petodnevna reportaža u Financial Times-u i BIJ-u, dokumentarac na BBC radiju, te nekoliko TV dokumentaraca.

Prije nego se upustite u projekat koji iziskuje tolike napore, morate se pobrinuti za to da rezultati budu originalni i da na kraju dobijete dobru priču o kojoj se ranije nije pisalo.

Sam proces se odvijao u nekoliko odvojenih koraka:

1. Odrediti ko ima podatke i kako se čuvaju

Opća uprava za regionalnu politiku EU ima portal koji vodi do web sajtova koji objavljuju podatke regionalnih vlasti . Mislili smo da će uprava imati bazu podataka koja sadrži podatke o svim projektima kojoj možemo direktno pristupiti ili do koje možemo doći pomoću zahtjeva za pristup informacijama. Međutim, toliko detaljna baza podataka ne postoji. Ubrzo smo uvidjeli da mnogi linkovi koje je Uprava nudila ne rade, te da većina vlasti objavljuje podatke u PDF formatu, a ne u formatima koji omogućavaju analizu, tipa CSV ili XML .

Tim od skoro 12 ljudi je radio na identifikovanju najnovijih podataka i sakupljanju linkova u jednoj velikoj tabeli koju smo koristili za saradnju. Pošto polja podataka nisu bila jedinstvena (naprimjer, naslovi su bili na različitim jezicima, za neke setove podataka su korištene različite valute, neke su uključivale preglede i državnih i EU fondova), bilo je neophodno da što je moguće preciznije prevedemo i opišemo polja sa podacima dostupna u svakom setu podataka.

2. Skinuti i pripremiti podatke

Sljedeći korak se sastojao od skidanja svih tabela, PDF-ova i, u nekim slučajevima, izvlačenja (scrapinga) izvornih podataka sa interneta.

Svaki set podataka je morao biti standardizovan. Najveći zadatak je predstavljalo izvlačenje podataka iz PDF-ova, od kojih su neki imali stotine stranica. Puno toga je urađeno pomoću UnPDF i ABBYY FineReadera, koji omogućavanju pretvaranje podataka u formate tipa CSV ili Excel.

Morali smo više puta provjeravati da li su alati za izvlačenje podataka iz PDF formata ispravno izvukli podatke. To smo radili pomoću filtriranja, sortiranja i sabiranja konačnih iznosa (kako bismo bili sigurni da se podudaraju sa onim što se nalazi u PDF-u).

3. Kreirati bazu podataka

Programer iz našeg tima je napravio SQL bazu podataka. Svaki od fajlova koje je pripremio je kasnije korišten za izgradnju SQL baze podataka. Svi pojedinačni fajlovi su se jednom dnevno uploadovali u jednu veliku SQL bazu podataka kojoj se moglo pristupiti preko sučelja pomoću ključnih riječi.

4. Provjeravanje i analiza

Tim je podatke analizirao na dva glavna načina:

Preko sučelja za pretraživanje baze podataka

Za ovo je bilo potrebno ukucati ključnu riječ (npr. ˝duhan˝, ˝hotel˝,˝firma A˝) u pretraživač. Uz pomoć Google prevoditelja, koji je uključen u pretraživač naše baze podataka, te ključne riječi se prevode na 21 jezik, što je omogućavalo da pretraga vrati odgovarajuće rezultate. Rezultati su se mogli skinuti na kompjuter i istraživači su dalje mogli istraživati projekte koji ih interesuju.

Makroanalizom, koristeći cijelu bazu podataka

Ponekada bismo skinuli cijelu bazu podataka koju bismo mogli analazirati uz pomoć ključnih riječi ili grupisanjem podataka prema zemlji, regiji, vrsti troškova, broju projekata po primaocu subvencija, itd.

Za naše priče su korišteni podaci dobiveni iz obje ove analize, ali i na osnovu terenskog i desk istraživanja.

Provjeravanje tačnosti podataka (njihovim prikupljanjem i poređenjem sa iznosima za koje su vlasti tvrdile da su dodijeljene) je iziskivalo mnogo vremena. Jedan od glavnih problema je predstavljala činjenica da su vlasti većinom objavljivale samo iznos ˝državnih i EU fondova˝. Prema zakonima EU, svaki program može određeni procenat ukupnog troška pokriti EU fondovima. Nivo finansiranja iz EU se određuje na programskom nivou takozvanom stopom sufinansiranja. Svaki program (npr. regionalna konkurentnost) se sastoji od nekoliko projekata. Na nivou projekata, jedan projekat bi tehnički mogao cjelokupne troškove pokriti EU fondovima, dok bi drugi dobio 0% fondova, dokle god su grupirani zajednp. ukupan iznos na programskom nivou ne prelazi odobreni iznos sufinansiranja.

Ovo je značilo da smo svaki grant EU koji smo naveli u svojim pričama morali provjeriti sa kompanijom kojoj je dodijeljen.

Cynthia O’Murchu, Financial Times