Kako spojiti posjete Wikipediji s jedinstvenim entitetima iz Wikidata

Kako spojiti posjete Wikipediji s jedinstvenim entitetima iz Wikidata

U posljednjih nekoliko tjedana razvijena je analitička platforma koja se oslanja na podatke o posjetama Wikipediji. Početni cilj bio je upoznati se s alatom za transformaciju podataka i unaprijediti vještine upravljanja podacima, no tijekom rada pojavilo se jednostavno, ali intrigantno pitanje: što je zapravo najpopularnije na Wikipediji?

Zašto obični brojevi posjeta ne daju potpunu sliku

Na prvi pogled se čini da je dovoljno pregledati broj pregleda pojedinih stranica. Međutim, ista tema može biti predstavljena pod različitim naslovima u stotinama jezičnih izdanja Wikipedije. To znači da se značaj jedne teme može razbiti na mnoge fragmentirane zapise, što otežava točnu procjenu njezine popularnosti. Dodatno, neki korisnici posjećuju više jezičnih verzija iste stranice, pa se njihov doprinos ne evidentira kao jedinstveni posjet.

Entitetski model temeljen na Wikidata

Kako bi se prevazišla ova fragmentacija, izgrađen je model usmjeren na entitete. Svaki entitet – bilo da je riječ o osobi, mjestu, pojmu ili događaju – ima jedinstveni identifikator u Wikidata. Povezivanjem svih jezičnih naslova na taj identifikator moguće je objediniti sve posjete pod jedinstvenu temu.

Ključni koraci u izgradnji modela bili su:

  • Preuzimanje mjesečnog skupa podataka o posjetama s Wikimedia platforme.
  • Usklađivanje naslova stranica s entitetima u Wikidata putem njihovih Q‑oznaka.
  • Agregiranje broja pregleda po entitetu, neovisno o jezičnoj varijanti.
  • Izrada tabličnog skladišta podataka koje podržava brze upite i vizualizacije.

Za transformaciju podataka korišten je alat za upravljanje podacima, koji je omogućio definiranje jasnih pravila i automatizaciju cijelog procesa. Svaki korak je dokumentiran i može se ponoviti za buduće ažuriranje podataka.

Interaktivna nadzorna ploča za istraživanje trendova

Rezultat rada je interaktivna nadzorna ploča na kojoj korisnici mogu pregledavati najpopularnije teme kroz različite vremenske periode, uspoređivati aktivnost različitih jezičnih zajednica i pratiti kako se pažnja prema određenim temama mijenja tijekom vremena.

Na ploči su dostupni sljedeći alati:

  • Grafički prikaz najpos

If you like this post you might also like these

More Reading

Post navigation

Paul Revere – noćni glasnik koji je pripremio kolonište za prvi otpor

Paul Revere, jedan od najpoznatijih likova američke povijesti, ostao je zapamćen po svojoj hrabrosti i odlučnosti. Njegova legendarnа noćna vožnja 1775. godine postala je simbol otpora protiv britanske vlasti i potaknula je koloniste da se pripreme za sukob. Ovaj članak pruža pregled njegovog...

The Signpost – internetski časopis Wikipedije u razvoju i djelovanju

The Signpost (prije poznat kao The Wikipedia Signpost ) je internetski časopis koji prati sve događaje i promjene na engleskoj Wikipediji. Njegov rad organizira volonterska zajednica urednika, a sadržaj nastaje zahvaljujući doprinosu članova Wikimedijine zajednice. Časopis objavljuje vijesti,...
back to top