Priručnik za data novinarstvo 1.0
Loading

Internet kao izvor podataka

Kako možete saznati više informacija o nečemu što postoji samo na internetu? Bilo da tražite e-mail adresu, web sajt, sliku ili članak na Wikipediji, u ovom odlomku ću vas provesti kroz alate koji će vam reći nešto više o tome šta se iza njih krije.

Web alati

Kao prvo, možete koristiti nekoliko razlčitih servisa kako biste saznali više o cijelom sajtu, a ne samo o jednoj određenoj stranici unutar njega.

Whois

Ukoliko odete na whois.domaintools.com (ili jednostavno ukucate whois www.example.com u Terminal.app na Macu - sa adresom umjesto ovdje navedenog primjera) možete dobiti osnovne informacije o registraciji bilo kojeg web sajta. U proteklih nekoliko godina, neki vlasnici su odabrali ´privatnu´ registraciju koja sakriva njihove podatke tako da se ne mogu vidjeti, ali u mnogim slučajevima ćete vidjeti ime, adresu, e-mail i broj telefona osobe koja je registrovala taj sajt. Isto tako, ovdje možete unijeti i numeričke IP adrese i dobiti podatke o organizaciji ili osobi koja je vlasnik tog servera. Ovo je naročito korisno kada pokušavate ući u trag informacijama o korisniku koji zloupotrebljava servis, jer većina web sajtova bilježi IP adrese svih svojih posjetilaca.

Blekko

Pretraživač Blekko nudi neobično opširan uvid u interne statistike koje sakupi na sajtovima dok pertražuje web. Ukoliko ukucate naziv domene i zatim "/seo" , dobit ćete stranicu sa informacijama o tom URL-u. Prvi tab na slici Figure 7 vam pokazuje koji sajtovi linkaju na ovu domenu i poredani su po popularnosti. Ovo može biti nevjerovatno korisno kada pokušavate razumjeti koliki je domen nekog sajta i ukoliko želite razumjeti zašto ima tako visoku poziciju među rezultatima Googleove pretrage, jer se baziraju na linkovima postavljenim na drugim sajtovima. Figure 8 vam govori koji se još web sajtovi pokreću sa iste mašine. Prevarantski i spam sajtovi često izgledaju kao legitimni tako što izgrade više sajtova koji su povezani i međusobno se ocjenuju i linkaju jedni na druge. Izgledaju kao nezavisne domene, i čak mogu imati i različite registracijske podatke, ali često pripadaju istom serveru, jer je to mnogo jeftinije. Ove statistike vam pružaju uvid u skrivenu poslovnu strukturu sajta koji istražujete.

Figure 6. Blekko pretraživač (Blekko.com)
Figure 7. Razumijevanje popularnosti na internetu: ko linka na koga? Druga korisna opcija je ˝Crawl stats˝, naročito sekcija ˝Cohosted with˝. (Blekko.com)
Figure 8. Uočavanje web spamera i prevaranata (Blekko.com)
Compete.com

Pregledanjem profila američkih potrošača, compete.com gradi detaljne statistike o korištenju većine web sajtova, a neki osnovni detalji su dostupni besplatno. Odaberite tab ´Site profile´ i ukucajte domenu (Figure 9). Vidjet ćete grafikon prometa na tom sajtu u toku prethodne godine, zajedno sa ciframa koje pokazuju koliko ljudi ga je posjetilo i koliko često (Figure 10) . Pošto su bazirane na anketama, brojevi predstavljaju procjenu, ali se pokazalo da su prilično tačni kada sam ih uporedio sa internim statistikama. Naročito se pokazalo da predstavljaju dobar izvor kada se porede dva sajta, jer iako brojevi možda nisu precizni, ipak prikazuju relativnu razliku u njihovoj popularnosti. Anketirani su samo američki građani, tako da podaci neće biti od neke koristi za pretežno međunarodne web sajtove.

Figure 9. Compete.com servis za određivanje profila web sajtova (Compete.com)
Figure 10. Šta je popularno? Šta se traži? Najpopularnija mjesta na webu (Compete.com)
Google-ova pretraga web sajtova

Opcija koja može biti nevjerovatno korisna kada pokušavate da istražujete cjelokupni sadržaj određene domene je ključna riječ "site:". Ukoliko dodate i "site:example.com" u polje za pretraživanje, Google će izbaciti samo rezultate sa stranice koju ste specificirali. Pretragu možete dodatno suziti tako što ćete uključiti i prefiks stranica koje vas interesuju, naprimjer "site:example.com/pages/", i dobit ćete samo one rezultate koji odgovaraju tom obrascu. Ovo je naročito korisno kada tražite informacije koje su vlasnici domene ostavili javno dostupnima, ali ih nisu baš htjeli reklamirati, tako da ukoliko odaberete prave ključne riječi, možete otkriti veoma dobar materijal.

Web stranice, slike i video zapisi

Ponekada vas interesuju samo aktivnosti vezane za neku priču, a ne cijeli web sajt. Sljedeći alati će vam ponuditi drugačiji pregled toga kako ljudi čitaju, odgovaraju na, kopiraju i dijele sadržaj na internetu.

Bit.ly

Uvijek koristim bit.ly kada želim saznati kako ljudi međusobno dijele određeni link. Da biste ga koristili, ukucajte URL koji vas interesuje. Zatim kliknite na link Info Page+. Tako ćete doći na stranicu sa statistikama (mada ćete možda prvo morati odabrati "aggregrate bit.ly link", ukoliko ste logovani). Tako ćete steći sliku o tome koliko je neka stranica popularna, uključujući aktivnosti na Facebooku i Twitteru, a ispod ćete vidjeti javne konverzacije o linku koje nudi backtype.com. Meni je ova kombinacija podataka o saobraćaju i konverzacijama veoma korisna kada pokušavam razumjeti zašto su neki sajt ili stranica popularni i ko su tačno ljudi koji ih posjećuju. Naprimjer, tako sam došao do snažnih dokaza da je priča o grassroots pokretu oko Sarah Palin netačna.

Twitter

Što ovaj alat za mikroblogging postaja popularniji, to je i korisniji u istraživanju toga kako ljudi dijele informacije i razgovaraju o pojedinim dijelovima sadržaja. Nevjerovatno je lako otkriti javne konverzacije o nekom linku. Jednostavno prekopirate URL koji vas interesuje u prostor za pretragu i zatim kliknete ´more tweets´ kako biste dobili cjelokupan set rezultata.

Google’s Cache

Kada neka stranica postane kontroverzna, autori je mogu ukloniti ili promijeniti bez napomene. Ukoliko posumnjate da ste naišli na problem, prvo potražite Googleovu predmemoriju (cache) te stranice koji izgleda upravo onako kako je izgledao kada ga je pretraživač zadnji put pretražio. Učestalost metodičkog, automatskog pretraživanja interneta se konstantno povećava, tako da ćete najbolje rezultate dobiti ukoliko ovo uradite nekoliko sati nakon što se promjena desi. Ukucajte ciljani URL u Googlov okvir za pretragu i zatim kliknite na trostruku strelicu desno od rezultata. Trebao bi se pojaviti grafički pregled, a ukoliko imate sreće na njegovom vrhu će se nalaziti i mali ´Cache´ link. Kliknite na njega kako biste vidjeli Googleov screenshot stranice. Ukoliko se ne može otvoriti, možete se prebaciti na primitivniju text-only stranicu (koja sadrži samo tekst) tako što ćete kliknuti na drugi link na vrhu cijele cache stranice. Ukoliko nađete bilo kakav bitan sadržaj, uradite screenshot ili ga kopirajte, jer će se promijeniti kada automatski pretraživač ponovo dođe do njega.

Vremeplov internet arhive

Ukoliko vas interesuje kako se određena stranica mijenjala tokom dužeg vremenskog perioda, tokom mjeseci ili godina, Internet Archive nudi uslugu pod nazivom Vremeplov, koja periodično slika najpopularnije web sajtove. Odete na sajt, ukucate link koji želite istražiti i, ukoliko postoje njegove kopije, otvorit će vam se kalendar kako biste odabrali period koji želite pregledati. Zatim će vam se pokazati približna verzija te stranice iz perioda koji ste odabrali. Često će nedostajati slike i neki dijelovi dizajna, ali se obično može vidjeti na koji sadržaj te stranice se tada stavljao naglasak.

View Source

Ovo je možda malo manje vjerovatno, ali programeri često ostave komentare ili neke druge tragove u HTML kodu koji stoji u pozadini bilo koje stranice. U zavisnosti od toga koji browser koristite, nalazit će se na drugačijem meniju, ali uvijek postoji opcija "View source" koja će vam omogućiti da pretražite sirovi HTML. Ne morate razumjeti šta znače dijelovi koji su mašinski čitljivi, samo tražite dijelove teksta koji se često nalaze razbacani između njih. Čak i ako se radi samo o napomeni o autorskim pravima ili imenu autora, često iz toga možete zaključiti kako je stranica nastala i sa kojom svrhom.

TinEye

Ponekada vas zaista interesuje izvor neke slike, ali bez jasnog pratećeg teksta o autorstvu ovo ne možete uraditi pomoću tradicionalnih pretraživača kao što je Google. TinEye nudi specijalizirani proces obrnute pretrage slike. Vi ponudite sliku, a TinEye pronađe ostale slične slike na internetu. Pošto za poređenje koriste tehnologiju prepoznavanja slike, ovo djeluje čak i kada je slika izrezana, promijenjena ili kompresovana. Ovaj alat može biti nevjerovatno koristan kada sumnjate da je neka slika za koju se tvrdi da je original ili nova zapravo pogrešno predstavljena, jer vas može odvesti do stvarnog izvora.

YouTube

Ukoliko kliknete na ikonu "Statistike" u donjem desnom uglu bilo kojeg videa, možete dobiti bogat set informacija o njegovoj publici tokom vremena. Iako nisu potpune, ove statistike mogu biti korisne za neki okvirni pregled gledalaca, odakle dolaze i kada su pregledali video.

E-mailovi

Ukoliko istražujete e-mailove, često će vas zanimati detalji poput identiteta i lokacije pošiljaoca. Ne postoji nijedan besplatan i dobar alat koji bi vam u ovome pomogao, ali je korisno poznavati osnove o skrivenim zaglavljima koji su dio svake e-mail poruke. Oni su nalik poštanskim brojevima i mogu otkriti nevjerovatno mnogo podataka o pošiljaocu. Često sadrže IP adresu mašine sa koje je poslat e-mail, što je nalik identifikacijskim podacima o pozivatelju kada se radi o telefonskim pozivima. Tada možete pokrenuti whois pretragu tog IP broja kako biste saznali koja organizacija posjeduje tu mašinu. Ukoliko se uspostavi da je u pitanju Comcast ili A&T ili drugi servis koji korisnicima obezbjeđuju konekciju, onda možete posjetiti MaxMind kako biste dobili približnu lokaciju.

Kako biste ova zaglavlja vidjeli u Gmailu, otvorite poruku i zatim otvorite meni odmah pored ´Reply´ u gornjem desnom uglu i odaberite ´Show original' (prikaži original).

Tada će vam se pojaviti nova stranica koja će otkrtiti skriveni sadržaj. Na početku će se nalaziti nekoliko desetina redova koje se sastoje od riječi i kolona. IP adresa koju tražite se možda nalazi u jednoj od ovih kolona, ali njen naziv će zavisiti od toga kako je e-mail poslat. Ukoliko je poslat sa Hotmaila, zvat će se X-Originating-IP:, ali ako je poslat sa Outlooka ili Yahoo-a, nalazit će se u prvom redu koji počinje sa Received:.

Pretraga adrese na Whois-u, pokazuje da je dodijeljena Virgin Media, što je provajder internet usluga u UK-u. Zatim ga provedem kroz MaxMind-ov servis za geolokacije i otkrijem da dolazi iz mog rodnog grada Kembridža. Ovo znači da skoro sa sigurnošću mogu tvrditi da su mi e-mail poslali moji roditelji, a ne neki prevaranti!

Trendovi

Ukoliko istražujete neku širu temu, a ne određeni sajt, evo nekoliko alata koj vam mogu pomoći:

Posjećenost članaka na Wikipediji

Ukoliko vas interesuje kako se mijenjao interes javnosti za neku temu ili osobu tokom vremena, moguće je dobiti pregled dnevnih posjeta bilo koje stranice na Wikipediji pomoću stats.grok.se. Ovaj sajt je malo grubo urađen, ali će vam uz malo kopanja omogućiti da otkrijete informacije koje vam trebaju. Ukucajte ime koje vas interesuje kako biste dobili mjesečni pregled saobraćaja na toj stranici. Pokazat će vam se grafik koji pokazuje koliko je puta stranica pregledana svakog dana u mjesecu koji navedete. Nažalost, možete pregledati samo mjesec po mjesec, tako da ćete svaki put morati birati naredni mjesec kako biste pregledali dugoročnije promjene.

Google Insights

Jasan prikaz onoga što javnost obično pretražuje možete dobiti pomoću Google Insights (Figure 11). Ukucajte nekoliko popularnih fraza za pretraživanje, kao što je ´Justin Bieber vs Lady Gaga´, i dobit ćete grafikon koji pokazuje relativan broj tih pretraga tokom vremena. Kvantitativni podaci se mogu pregledati na mnogo različitih načina, od užih geografskih područja do detaljnjijih informacija za duži vremenski period. Jedino razočarava nedostatak apsolutnih vrijednosti, jer dobijete samo relativne postotke koje je nekada teško interpretirati.

Figure 11. Google Insights (Google)

Pete Warden, nezavisni analitičar i programer