Zipf-eloszlás

A Wikipédiából, a szabad enciklopédiából
Valószínűségi tömeg függvény
Kumulatív eloszlás függvény

A Zipf-eloszlás (Zipf-törvény) egy tapasztalati törvény, matematikai statisztika eszközeivel kifejezve.

Zipf-eloszlást mutat számos fizikai és szociáltudományi jelenség, melyek a diszkrét hatványtörvény típusú valószínűség eloszlások családjába tartoznak.

Az eloszlást George Kingsley Zipf (1902–1950), amerikai nyelvészről nevezték el.

Zipf említette először (1935) megfigyeléseit, később hasonló megállapításokra jutott Jean-Baptiste Estoup (1868-1950), francia gyorsíró [1], és Felix Auerbach, német fizikus.[2]

Motiváció[szerkesztés | forrásszöveg szerkesztése]

A Zipf-törvény azt állítja, hogy egy természetes nyelv egyes részeiben, egy szó előfordulási gyakorisága fordítva arányos a frekvencia (előfordulási) táblában levő rangjával. Így, a leggyakoribb szó közel kétszer gyakoribb, mint a második leggyakoribb szó, és háromszor gyakoribb, mint a harmadik helyen lévő, stb.

Példának hozza fel az úgynevezett Brown-gyűjteményt (Brown University-ben kb 500 angol szöveget vizsgáltak meg a nyelvészek), ahol a “the” a leggyakrabban előforduló szó, és közel 7%-ban fordul elő az összes szót tekintve. A Zipf-törvényt (Zipf-eloszlás) igazolandó, a második leggyakoribb szó az “and”, melynek előfordulási gyakorisága 3,5%.

Hasonló törvényszerűség (eloszlás) figyelhető meg, nem csupán a szövegtestekben, hanem más területeken is, mint például: különböző országokban a városok lakosságának eloszlásánál, vállalatok méreteinél, jövedelem eloszlásnál, stb.

A városok-lakosság viszonyra vonatkozó eloszlást először Felix Auerbach, 1913-ban írta le.[2].

Városokra vonatkozó teljes eloszlás log-normális eloszláshoz közelebb áll, és a Gibrat-törvényt követi.[3].

Mindkét törvény konzisztens, mert a log-normális eloszlás farokrészét tipikusan nem kezeli a Zipf-eloszlás (Pareto-eloszlás).

Elméleti áttekintés[szerkesztés | forrásszöveg szerkesztése]

A Zipf-eloszlást legjobban egy log-log koordináta-rendszerben ábrázolható, ahol a koordináták a sorban lévő tétel, és a frekvencia (előfordulási gyakoriság).

Legyen:

  • N az elemek száma;
  • k a sorrendi ’rang’;
  • s exponens értéke, mely jellemzi az eloszlást

Ekkor a Zipf-eloszlás megjósolja az N elemű populációból, a k-ik elem frekvenciájátf(k;s,N), :

f(k;s,N)=\frac{1/k^s}{\sum_{n=1}^N (1/n^s)}.

Zipf-törvény érvényes, ha minden elem előfordulása független, és azonos valószínűségi változóik vannak a hatványtörvény eloszlás szerint: p(f) {{=}}\alpha f^{-1-1/s}.[4]

A példa az angol nyelvben: N a szavak száma, és ha a Zipf-törvény klasszikus változatát használjuk, akkor s=1.

Az f(ks,N)

f(k;s,N)=\frac{1}{k^s H_{N,s}}

ahol HN,s a N'-edik általánosított harmonikus szám, és k-adik a legtöbbet szereplő szó.

A Zipf-törvény legegyszerűbb esete az 1f függvény.

Egy adott Zipf eloszlású gyakoriság esetén, a legtöbbet előforduló szótól a legkevesebbet előfordulóig sorba rakva kapjuk az eredményt: a második tétel ½ arányban fog előfordulni, mint az első, a harmadik 1/3 arányban fordul elő az elsőhöz képest.

Azaz az n-edik legtöbbet előforduló szó, 1n-ik gyakorisággal fordul elő az elsőhöz képest. Azonban ez nem teljesen érvényes, mert a számok integerként fordulnak elő, nem lehet például egy szónak 2.5 –szörös előfordulása. Ennek ellenére, széles tartományban, jó közelítéssel, sok természeti jelenség a Zipf-eloszlás szerint viselkedik.

Matematikailag, egy Zipf-eloszlásnál, az összes relatív gyakoriság (frekvencia) szummája egyenlő egy harmonikus sorral, és

\sum_{n=1}^\infty \frac{1}{n}=\infty.\!

A nyelveknél, a szavak előfordulási frekvenciája, egy igen széles farok tipusú eloszlást mutat, ezért a Zipf-eloszlással közel s=1-gyel modellezhető.

Amíg az s exponens nem haladja túl az 1 értéket, lehetséges, hogy ez a törvény érvényes végtelen sok szóra, mivel

\zeta (s) = \sum_{n=1}^\infty \frac{1}{n^s}<\infty. \!

ahol ζ a Riemann-féle zéta-függvény

Statisztikai magyarázat[szerkesztés | forrásszöveg szerkesztése]

Nem ismert, miért érvényes a Zipf-eloszlás a legtöbb nyelvre.[5]

Ezt azonban részben megmagyarázhatja a véltelenszerűen generált szövegek statisztikai analízise. Wentian Li kimutatta, hogy egy dokumentum, melyben minden karakter véletlenszerűen van kiválasztva, a “szavak” a Zipf-eloszlást követik (ez közel lineáris görbét ad egy log-log koordináta-rendszerben).[6]

Vitold Belevitch (1921 – 1999), belga matematikus közölt egy matematikai levezetést (On the Statistical Laws of Linguistic Distribution). A levezetés a Taylor-sor alkalmazásával a Zipf-eloszlást eredményezte, további sorbafejtés során a Mandelbrot-törvény adódott.[7][8]

Zipf azt feltételezte, hogy egy adott nyelven sem a beszélő, sem a hallgató nem kíván keményen odafigyelni ahhoz, hogy megértse a beszédet, és ez a folyamat eredményezheti közelitőleg a megfigyelt Zipf-törvényt.[9][10]

Internet és a Zipf-eloszlás[szerkesztés | forrásszöveg szerkesztése]

Szavak eloszlása a Wikipedián

Az ábrán az angolnyelvű Wikipedia-ban előforduló szavak frekvenciája (előfordulási gyakoriság) látható (2006. november 27.). Az ábrázolás log-log típusú, ahol „x” az adott szó „rangja” a frekvencia táblában, „y” a szó teljes előfordulásának számértéke. Amint várható volt, a leggyakrabban a „the”, „of” és „and” szavak fordulnak elő.

A Zipf –eloszlásnak a görbék felső része felel meg, közel a zöld vonalat (1/x) követve (lásd valószínűségi tömeg függvény log-log ábrázolása).

Kapcsolat más eloszlásokkal[szerkesztés | forrásszöveg szerkesztése]

A Zipf-eloszlást megkaphatjuk a Pareto-eloszlásból a változók cseréjével. A Zipf-eloszlást szokták diszkrét Pareto-eloszlásnak is hívni [11], mert hasonló a folytonos Pareto-eloszlással, ugyan úgy, mint ahogy a diszkrét egyenletes eloszlás hasonló a folytonos egyenletes eloszlással. A Zipf-eloszlást alkalmazzák szolgáltatás orientált környezetekben is.

Kapcsolódó szócikkek[szerkesztés | forrásszöveg szerkesztése]

Irodalom[szerkesztés | forrásszöveg szerkesztése]

  • Gabaix, Xavier: "Zipf's Law for Cities: An Explanation". (hely nélkül): Quarterly Journal of Economics 114 (3). 1999. 739–67. o.  
  • George K. Zipf: Human Behavior and the Principle of Least Effort. (hely nélkül): Addison-Wesley. 1949. 
  • George K. Zipf: The Psychobiology of Language. (hely nélkül): Houghton-Mifflin. 1935. 

Fordítás[szerkesztés | forrásszöveg szerkesztése]

Ez a szócikk részben vagy egészben a Zipf's law című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Források[szerkesztés | forrásszöveg szerkesztése]

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  2. ^ a b Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
  3. Eeckhout J. (2004), Gibrat's law for (All) Cities. American Economic Review 94(5), 1429-1451.
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial"
  5. Léon Brillouin, La science et la théorie de l'information, 1959, réédité en 1988, traduction anglaise rééditée en 2004
  6. Wentian Li (1992.). „Random Texts Exhibit Zipf's-Law-Like Word Frequency Distribution”. IEEE Transactions on Information Theory 38 (6), 1842–1845. o. DOI:10.1109/18.165464.  
  7. Neumann, Peter G. "Statistical metalinguistics and Zipf/Pareto/Mandelbrot", SRI International Computer Science Laboratory, accessed and archived 29 May 2011.
  8. Belevitch V (1959. december 18.). „On the statistical laws of linguistic distributions”. Annales de la Société Scientifique de Bruxelles 73, 310–326.. o.  
  9. Zipf GK. Human Behavior and the Principle of Least Effort. Cambridge, Massachusetts: Addison-Wesley (1949) 
  10. Ramon Ferrer i Cancho and Ricard V. Sole (2003.). „Least effort and the origins of scaling in human language”. Proceedings of the National Academy of Sciences of the United States of America 100 (3), 788–791. o. DOI:10.1073/pnas.0335980100. PMID 12540826.  
  11. N. L. Johnson, S. Kotz, and A. W. Kemp. Univariate Discrete Distributions, second, New York: John Wiley & Sons, Inc. (1992). ISBN 0-471-54897-9 , p. 466.