Priručnik za data novinarstvo 1.0
Loading

Data novinari otkrivaju svoje omiljene alate

Psssss. To je zvuk koji proizvode vaši podaci dok ih vadite iz vakumiranog omota. I šta sada? Šta tražite? I koje alate ćete koristiti? Pitali smo data novinare da nam ispričaju nešto o tome kako oni rade sa kvantitativnim podacima. Evo šta su nam rekli.

Mi u Guardianovom Datablogu zaista volimo ostvariti interakciju sa našim čitaocima i dozvoliti im da brzo repliciraju naše data novinarstvo, što znači da se mogu nadovezati na posao koji mi obavimo i ponekada i primijetiti nešto što je nama promaklo. Tako da, što su alati intuitiviji, to bolje. Pokušavamo izabrati alate do kojih bilo ko može doći, koji ne zahtijevaju učenje programskog jezika ili posebnu obuku, te plaćanje visokih iznosa.

Zbog ovoga trenutno često koristimo Googlove proizvode. Svi kvantitativni podaci koje pročistimo i objavimo su dostupni kao Google Spreadsheet, što znači da svi koji posjeduju Google korisnički račun mogu downloadovati te podatke, importovati ih na svoj korisnički račun i napraviti vlastite grafike, sortirati podatke i kreirati pivot tabele ili importovati podatke u alat koji odaberu.

Za mapiranje podataka koristimo Google Fusion tabele. Kada u Fusionu pravimo ´toplinske´ tabele, dijelimo svoje KML fajlove tako da ih čitaoci mogu downloadovati i izraditi vlastite toplinske mape eventualnim dodavanjem dodatnih slojeva kvantitativnih podataka na originalnu mapu sa Databloga. Druga dobra značajka ovih Googleovih alata je da funkcionišu na različitim platformama koje naši čitaoci koriste kako bi pristupili blogu, kao što su desktop kompjuteri, mobiteli i tableti.

Pored Google Spreadsheets i Fusiona, u svakodnevnom poslu koristimo i dva dodatna alata. Prvi je Tableau, koji vizualizira multidimenzionalne setove podataka, a drugi ManyEyes, za brzu analizu kvantitativnih podataka. Nijedan od ovih alata nije savršen, tako da i dalje tragamo za boljim alatima za vizualizaciju koji bi se svidjeli našim čitaocima.

the Guardian
— Lisa Evans

Hoću li ikada postati programer? Čisto sumnjam! Ja lično ne smatram da svi novinari moraju znati programirati. Ali mislim i da je veoma bitno da znaju šta je uopšte moguće i da znaju kako da razgovaraju sa programerima.

Ukoliko tek počinjete, ne zalijećite se. Morate ubijediti svoje kolege i urednike da vam rad sa podacima može obezbijediti priče koje inače ne biste pronašli i koje se isplati raditi. Kada uvide vrijednost ovakvog pristupa, možete početi raditi i kompleksnije priče i projekte.

Moj savjet vam je da naučite koristiti Excel i počnete sa jednostavnim pričama. Počnite polako i vremenom ćete doći do analiziranja baza podataka i mapiranja. Toliko toga možete uraditi u Excelu – to je nevjerovatno moćan alat i većina ljudi ne koristi ni najmanji dio njegovih funkcija. Ukoliko možete, krenite na kurs iz Excela za novinare poput kursa koji organizuje Centar za istraživačko novinarstvo.

Što se tiče interpretiranja podataka: ne uzimajte ovo zdravo za gotovo. Morate biti savjesni. Obratite pažnju na detalje i dobro prostudirajte rezultate. Pišite zabilješke o tome kako procesuirate podatke i sačuvajte kopiju originalnih podataka. Greške se lako dešavaju. Ja svoje analize uvijek obavljam dva ili tri puta ispočetka. Još bolje bi bilo kada bi vaš urednik ili neko drugi odvojeno analizirao te podatke i kada biste zatim uporedili rezultate.

Financial Times
— Cynthia O'Murchu

Sposobnost pisanja i korištenja kompleksnih softvera jednako brzo kao što novinar piše priču je nešto prilično novo. Nekada je za to bilo potrebno mnogo više vremena. Stvari su se promijenile zahvaljujući razvoju dva besplatna/open source sistema: Django i Ruby on Rails, oba pokrenuta sredinom 2000-ih.

Django, koji je izgrađen na Python programerskom jeziku, su razvili Adrian Holovaty i tim koji je radio u jednoj redakciji -   the Lawrence Journal-World u Lawrenceu, Kansas. Ruby on Rails su u Čikagu razvili David Heinemeier Hansson i 37Signals, firma za web aplikacije.

Iako ova dva okvira drugačije pristupaju ˝MVC obrascu˝, oba su odlična i omogućavaju izgradnju čak i veoma kompleksnih web aplikacija i to veoma brzo. Zahvaljujući njima, moguće je preskočiti određene bazične korake prilikom izgradnje aplikacije. Stvari poput kreiranja i preuzimanja podataka iz baze podataka, te poređenje URL-ova sa određenim kodom u aplikaciji, su ugrađene u sistem, tako da programeri ne moraju pisati kodove za te osnovne funkcije.

Iako nije sprovedena formalna anketa među timovima koji se bave aplikacijama za vijesti u SAD-u, generalno se podrazumijeva da većina timova koristi jedan od ova dva sistema za aplikacije iza kojih stoje baze podataka. Mi u ProPublica koristimo Ruby on Rails.

Razvoj brzih web servera je unaprijedio usluge, baš kao što zahvaljujući Amazon Web Services pokretanje web aplikacija više ne predstavlja spor proces.

Mi koristimo prilično standardne alate u radu sa podacima: Google Refine i Microsoft Excel za sređivanje podataka; SPSS i R za statističke proračune; ArcGIS i QGIS za geoinformacijske podatke; Git za upravljanje izvornim kodom; TextMate, Vim i Sublime Text za pisanje koda; te MySQL, PostgreSQL i SQL Server za baze podataka. Izgradili smo vlastiti JavaScript okvir pod nazivom ˝Glass˝, koji nam pomaže da u Java Scriptu veoma brzo izgradimo teške aplikacije za korisnički interfejs.

ProPublica
— Scott Klein

Ponekad su najbolji alati oni najjednostavniji – moć spreadsheeta se često podcjenjuje. Zahvaljujući tome što sam spreadsheet koristila i kada je sve bilo u DOS-u, uspjela sam razumjeti kompleksnu formulu partnerstva između vlasnika The Texas Rangersa – u vrijeme kada je George W. Bush bio jedan od ključnih vlasnika. Spreadsheet mi može pomoći da obilježim rezultate koji odskaču ili greške u proračunima. Mogu pisati skripte za sređivanje podataka i još puno toga. To je osnovni alat za data novinare.

Ipak, moji omiljeni alati su moćniji – SPSS za statističke analize i programi za mapiranje koji mi omogućavaju da geografski uočim obrasce.

The Seattle Times
— Cheryl Phillips

Ja strašno volim Python. Python je odličan programski jezik otvorenog koda kojeg je lako pisati i čitati (npr. ne morate stavljati tačku zarez poslije svake linije). I što je još važnije, Python ima nevjerovatnu bazu korisnika i stoga ima i dodatke (koji se nazivaju paketi) za bukvalno sve što vam je potrebno.

Smatram da je Django novinarima rijetko potreban. To je sistem za web aplikacije baziran na Pythonu, koji se koristi za kreiranje velikih web aplikacija baziranih na bazama podataka. Definitvno je pretežak za male interaktivne infografike.

Koristim i QGis, open source alat koji omogućava široki dijapazon GIS funkcija koje su potrebne data novinarima koji se tu i tamo bave geografskim podacima. Ukoliko trebate pretvoriti geoprostorne podatke iz jednog formata u drugi, onda vam je potreban upravo QGis. On može obraditi gotovo sve formate geografskih podataka koji postoje (Shapefiles, KML, GeoJSON, …). Ukoliko trebate izbaciti određena područja, QGis i to može uraditi. Plus, postoji ogromna zajednica korisnika QGis-a , tako da na webu možete naći mnogo resursa kao što su tutorijali.

R je prije svega kreiran kao naučni alat za vizualizaciju. Teško je naći bilo koju metodu za vizualiziranje kvantitativnih podataka ili tehniku za manipulisanje podacima koja nije već ugrađena u R. R je svijet sam za sebe, Meka vizualne analize kvantitativnih podataka. Jedina mana je što morate naučiti (još jedan) programski jezik jer R ima svoj vlastiti. Ali, čim počnete učiti, uvidjet ćete da nema moćnijeg alata. Obučeni data novinari mogu koristiti R za analiziranje ogromnih setova podataka koji prevazilaze Excelova ograničenja (naprimjer, ukoliko imate tabelu sa milion redova).

Ono što je stvarno odlično kod rada sa R-om je to što tokom cijelog procesa možete voditi "protokol" onoga što radite sa podacima, od čitanja CSV fajla do generiranja grafikona. Ukoliko se kvantitativni podaci promijene, grafikone možete regenerirati jednim klikom. Ukoliko nekoga zanima koliko je vaš grafikon pouzdan, možete im pokazati tačan izvor podataka koji svima omogućava da ponovo samostalno kreiraju grafikon (ili nađu eventualne greške).

NumPy + MatPlotLib na neki je način ista stvar u Pythonu. I to je dobra opcija ukoliko već dobro poznajete rad u Pythonu. Zapravo, NumPy i MatPlotLib su dva primjera Python paketa. Mogu se koristiti za analizu i vizualizaciju podataka i oba su ograničena na statične vizualizacije. Ne mogu se koristiti za kreiranje interaktivnih grafikona koji sadrže naprednije stvari.

Ja ne koristim MapBox, ali sam čuo da je odličan alat ukoliko želite kreirati sofisticiranije mape koje se baziraju na OpenStreetMap. On vam, naprimjer, omogućava da odaberete stilove mape (boje, nazive, itd.). Postoji i dodatak ta MapBox pod nazivom Leaflet. Leaflet je u suštini viši nivo JavaScript biblioteke za mapiranje koji vam omogućava da lako mijenjate alate za kreiranje mapa (OSM, MapBox, Google Maps, Bing itd.).

RaphaelJS je prilično skromna biblioteka vizualizacija koja vam omogućava da radite sa osnovnim primitivnim elementima (krugovima, linijama, tekstom) i da ih animirate, dodajete interakcije, itd. U njemu ne postoji stubičasti grafikon spreman za upotrebu, već sami morate nacrtati pravougaonike.

Međutim, kod Raphaela je dobro to što će sve što u njemu kreirate raditi i u Internet Exploreru. To nije slučaj sa mnogim drugim (nevjerovatnim) bibliotekama za vizualizaciju poput d3. Nažalost, mnogo korisnika i dalje koristi IE, a nijedna redakcija si ne može priuštiti da ignoriše 30% svojih korisnika.

Pored RaphaelJS, postoji i mogućnost da kreirate Flash opciju za IE. To je ono što New York Times u suštini radi. To znači da svaku aplikaciju morate dvaput razviti.

Još uvijek nisam siguran koji proces je ˝najbolji˝ za prebacivanje vizualizacije u IE i moderne browsere. Često se pokaže da su RaphaelJS aplikacije užasno spore na IE, deset puta sporije nego kada se pokrenu u Flashu na modernim browserima. Tako da su Flash verzije možda bolja opcija ukoliko želite svim korisnicima ponuditi visokokvalitetne animirane vizualizacije.

Open Knowledge Foundation
— Gregor Aisch

Ja najviše koristim Excel, koji može riješiti većinu CAR problema i ima prednost što se lako može savladati i dostupan je većini novinara. Kada trebam spojiti tabele, obično koristim Access, ali onda spojenu tabelu vratim u Excel i nastavim sa poslom. Za geografske analize koristim ESRI ArcMap: moćan je i koriste ga agencije koje prikupljaju geokodirane podatke. TextWrangler je odličan za ispitivanje data teksta sa neobičnim izgledom i graničnicima i može obavljati sofisticirane funkcije pronalaska i zamjene sa standardnim izrazima. Kada su mi potrebne statističke tehnike poput linearnog opadanja, koristim SPSS; on ima point-and-click meni koji se lako koristi. Za pravo teške stvari poput setova podataka koji imaju na milione podataka koji zahtijevaju filtriranje i programiranje transformacije varijabli, koristim SAS softver.

Walter Cronkite School of Journalism
— Steve Doig

Alati kojima radimo su Python i Django za hakiranje, struganje i igranje sa kvantitativnim podacima, te PostGIS, QGIS i MapBox komplet alata za izgradnju ludih web mapa. R i NumPy + MatPlotLib su trenutno konkurenti za nama najdraži skup alata za eksplorativne analize kvantitativnih podataka, mada nam je u skorije vrijeme najdraži alat za obradu podataka domaći CSVKit. Skoro sve što radimo je smješteno u oblaku.

Chicago Tribune
— Brian Boyer

U La Nación koristimo:

  • Excel za sređivanje, organizovanje i analiziranje kvantitativnih podataka;

  • Google Spreadsheets za objavljivanje i povezivanje sa servisima poput Google Fusion Tables i Junar Open Data Platform;

  • Junar za dijeljenje kvantitativnih podataka i ubacivanje u članke i postove na blogu;

  • Tableau Public za naše interaktivne vizualizacije kvantitativnih podataka;

  • Qlikview, veoma brz alat poslovne inteligencije za analizu velikih setova podataka;

  • NitroPDF za konvertovanje PDF-ova u text i Excel fajlove; i

  • Google Fusion Tables za vizualizaciju mapa.

La Nacion (Argentina)
— Angélica Peralta Ramos

Kao građanska zajednica bez tehničkih preferenci, mi u Transparency Hackers koristimo dosta različitih alata i programskih jezika. Svaki član ima alate koje preferira i upravo ta raznolikost čini i našu snagu i našu slabost. Neki od nas grade ‘Transparency Hacker Linux Distribution’, koji možemo pokrenuti bilo gdje i početi hakovati kvantitativne podatke. Ovaj toolkit sadrži neke interesantne alate i biblioteke za obrađivanje podataka poput Refine, RStudio i OpenOffice Calc (alat kojeg stručnjaci obično previde, a koji je zapravo koristan za brze/male stvari). Isto tako, prilično često koristimo i Scraperwiki da brzo napravimo prototipe i spasimo rezultate online.

Za vizualizaciju kvantitativnih podataka i grafikone koristimo dosta alata. Python i NumPy su prilično moćni. Nekoliko ljudi iz naše zajednice se poigrava sa R-om, ali mislim da se za većinu naših projekata i dalje koriste Javascript, d3, Flot i RaphaelJS. Na kraju, dosta smo eksperimentisali sa mapiranjem i ispostavilo se da je Tilemill veoma interesantan alat za rad.

Transparência Hacker
— Pedro Markun