Zipfov zakon: Tajna jezika i njihove učestalosti

U svakodnevnom govoru često primjećujemo da neke riječi čestije se pojavljuju od drugih. Taj obrazac nije slučajnost, već rezultat dubokog matematičkog zakona poznatog kao Zipfov zakon. U ovom članku istražit ćemo što je taj zakon, kako se primjenjuje na hrvatski jezik i koje su njegove značajne implikacije za lingvistiku, računalnu jezu i komunikaciju.

Sadržaj...

Što je Zipfov zakon?

Zipfov zakon je matematička zakona koja opisuje raspodjelu učestalosti pojavljivanja riječi u prirodnim jezicima. Nazvan je po američkom lingvistu Georgeu Zipfu, koji je prvi put primijetio ovaj obrazac 1932. godine. Zakon kaže da je najčešće korištena riječ dvaput češća od druge, tri puta češća od treće, i tako dalje. U matematičkom obliku, učestalost riječi je obrnuta proporcionalna njenom rangiranju: f(r) ∝ 1/r, gdje je f(r) učestalost riječi na rang r.

Kako se primjenjuje u jeziku?

Primjena Zipfovog zakona na konkretne jezike otkriva zanimljive obrasce. U hrvatskom jeziku, najčešće riječi su veznici i, i, te, kao i pomoćne glagolske riječi. Na primjer, riječ i pojavljuje se oko 2,5 puta češće od riječi da, a da je tri puta češće od riječi ono. Ovi podaci potvrđuju da je raspodjela učestalosti vrlo ravnomjerna i da se najčešće riječi brzo usporavaju u učestalosti kako se rang povećava.

Za ilustraciju, pogledajmo sljedeću listu najčešćih hrvatskih riječi i njihove učestalosti u velikom korpusu:

i – 5,2%
da – 2,1%
je – 1,8%
na – 1,5%
u – 1,3%
koji – 0,9%
od – 0,8%
sa – 0,7%
za – 0,6%
kako – 0,5%

Ova lista ilustrira kako se učestalost brzo smanjuje s rastućim rangom, što je tipično za Zipfov zakon.

Zašto je važan za lingvistiku i tehnologiju?

Zipfov zakon ima brojne praktične primjene. U lingvistici, on pomaže u razumijevanju strukture jezika i u izgradnji modela jezika. U računalnoj jezi, algoritmi za strojno prepoznavanje govora i obradu prirodnog jezika koriste ovu zakonu za optimizaciju memorije i brzine. Na primjer, pri kompresiji teksta, najčešće riječi se mogu zamijeniti kraćim kodovima, čime se smanjuje veličina podataka.

U području umjetne inteligencije, modeli poput GPT-4 koriste Zipfov zakon kako bi bolje predvidjeli sljedeću riječ u rečenici, jer znaju da je najčešće riječ