Shannon-entrópiafüggvény

A Wikipédiából, a szabad enciklopédiából

A Shannon-féle entrópiafüggvényt Claude Shannon amerikai matematikus és híradástechnikai szakember vezette be a negyvenes évek legvégén az információ nevű fogalom fizikai mennyiséggé és mérhetővé tételére (bár már Shannon előtt is próbálkoztak ezzel, ld. lentebb). Ma e fogalom és tanulmányozása az információelmélet egyik alapja.

E függvény definiáláshoz feltételezzük, hogy egy kommunikációs folyamatban veszünk részt, melynek csatornáján az X halmaz jeleiből összetevődő véges sorozatok, üzenetek áramlanak. Ha sok üzenet áll rendelkezésre, mérni (vagy pedig becsülni) tudjuk azt a p(x) valószínűséget, hogy adott x∈X elem milyen gyakran fordul elő (várhatóan) egy üzenetben, továbbá, hogy valahogy mérhető vagy meghatározható az x jel információtartalma is, amit I(x) jelöljön. Legyen egy üzenet az

x = (x1,x2,…,xj)∈Xj

jelek sorozata. Ekkor az üzenet információtartalma Shannon definíciója szerint

H(x)   =   H(x1,x2,…,xj) =
= p(x1)I(x1)+p(x2)I(x2)+…+p(xj)I(xj)  =
= p(x1)log2p(x1)-1 + p(x2)log2p(x2)-1 + … + p(xj)log2p(xj)-1 .

Tehát az x üzenet információtartalma jelei I(x) := p(x)log2[p(x)-1] „egyedi információtartalmának” várható értéke.

A Shannon-képlet intuitív levezetése[szerkesztés | forrásszöveg szerkesztése]

Shannon egy véges sok jelből álló (véges ábécé feletti) üzenet információértékét az üzenet jeleinek mint a jelre jellemző valószínűséggel bekövetkező események információtartalmának „átlagos”, azaz várható értékeként határozta meg:

 H \left( x_{1}, x_{2} , ... , x_{j} \right) = \sum_{i=1}^{j} p \left( x_{i} \right) I \left( x_{i} \right) .

Ez még nem elégséges a definícióhoz, pontosan azért, mert az I(x) „adott jelhez tartozó információtartalom” mennyiséget nem definiáltuk. Ennek definiálásához Shannon további két feltételezéssel élt:

  1. Kisebb valószínűségű üzenetnek (és így jelnek) az információtartalma nagyobb. Hiszen ha olyan eseményről szerzünk tudomást, amely átlagos, gyakori, azaz nagy valószínűségű; annak nincs nagy jelentősége; ellenben ritkább eseményre kevésbé vagyunk felkészülve, tehát ha ilyen következik be, az fontosabb.
  2. 1/2 valószínűségű esemény információtartalma 1 legyen (egységválasztás, azaz normálás).
  3. Független események együttesének mint eseménynek az információtartalma a két esemény információtartalmának összege legyen (additivitás).

Matematikailag bebizonyítható, hogy a következő képlet adja meg, ha a fenti normális(?) feltételezésekkel élünk:

 H \left( \underline{X} \right)  =  H \left( x_{1} , x_{2} , ... , x_{n} \right)  :=  \sum_{i=1}^{n} p(x_{i}) \log _{2} \frac{1}{ p \left( x_{i} \right) }

A fenti H függvény néhány jellemzője:

  1.  p(\bold{x}) \le p(\bold{y}) \Rightarrow H(\bold{x}) \ge H(\bold{y})
  2.  p(\bold{x})p(\bold{y}) = p(\bold{xy}) \Rightarrow H(\bold{xy}) = H(\bold{x})+H(\bold{y})
  3.  p(\bold{x}) = \frac{1}{2} \Rightarrow H(\bold{x}) = 1

Története[szerkesztés | forrásszöveg szerkesztése]

Korábban (1928) R. V. L. Hartley már bevezetett egy információfogalmat (Hartley-információ). Szerinte egy n elemű véges X halmaz valamely elemének azonosításához, ha elvileg bármelyik lehet közülük a keresett elem,

I(n) = log2 |X| = log2(n)

mértékű információra van szükség. E definíció szerint bármely elem (kiválasztása) azonos információtartalmat hordoz.

A fenti definíció azért bírálható, mert az információ értéke nem függ attól, hogy az egyes elemeket milyen valószínűséggel kívánjuk kiválasztani. Shannon vezetett be egy konkrét problémából, egy hírközlési csatorna kapacitásának definíciójának szükségességéből kiindulva egy olyan információdefiníciót, amely a fenti problémára tekintettel van („The Mathematical Theory of Communication” c. cikkeiben, mely a Bell System Technical Journal c. lapban jelent meg 1948 júliusában és októberében). Neumann János javaslatára nevezte el saját információmérő függvényét entrópiafüggvénynek, noha az elnevezés nemcsak a fizikai entrópiával kapcsolatos sok hasonlóságra mutat rá, de attól való különbségei miatt rengeteg kritika is érte (az ilyenek egy lehetséges motivációjáról és alternatív definícióról ld. például T. Stonier: Információ és az Univerzum belső szerkezete).

Később – elsősorban szovjet – kutatók, mint Fagyejev, Hincsin, axiomatikusan is felépítették.

Axiomatikus definíciók[szerkesztés | forrásszöveg szerkesztése]

A H függvény tulajdonságai a következők:

 1.   \forall i \in \left\{ 1,2,...,n \right\}: \ H(a_{1},...,a_{i-1},\bold{x}_{i},a_{i+1}) \in C[-\infty,+\infty]
 2.   \forall i,j \in \left\{ 1,2,...,n \right\}: \ i \le j \Rightarrow
 \Rightarrow \ H(x_{1},...,x_{i-1},x_{i},x_{i+1},...,x_{j-1},x_{j},x_{j+1},...,x_{n}) = H(x_{1},...,x_{i-1},x_{j},x_{i+1},...,x_{j-1},x_{i},x_{j+1},...,x_{n})
 3.   \max \left\{ H(\underline{x}) \ | \ \underline{x} \in \mathbb{R}^{n} \right\} = H\left(\frac{1}{n},\frac{1}{n},...,\frac{1}{n}\right)
 4.   H\left(x_{1},...,x_{n},0) = H(x_{1},...,x_{n}\right)
 5.   x_{n} = \sum_{k=1}^{m}y_{k} \Rightarrow H(x_{1},...,x_{n-1},y_{1},...,y_{m}) = H(x_{1},...,x_{n-1})+p(x_{n})H(y_{1},...,y_{m})
 6.   H \left( \frac{1}{2} , \frac{1}{2} \right) = 1
  • Fagyejev belátta, hogy 1.-2.-5.-6.-ból következik, hogy H-t a Shannon-képlet adja meg;
  • Hincsin belátta, hogy 1.-3.-4.-6.-ból is következik ugyanez.

Hivatkozások[szerkesztés | forrásszöveg szerkesztése]

Források[szerkesztés | forrásszöveg szerkesztése]

  • Csiszár Imre – Fritz József: Információelmélet. ELTE jegyzet. Nemzeti Tankönyvkiadó, Bp., 1995.
  • Csiszár Villő: Információelmélet. Előadássorozat, ELTE, 2003.

Irodalom[szerkesztés | forrásszöveg szerkesztése]

  • Claude Shannon: „The Mathematical Theory of Communication”; Bell System Technical Journal, 1948. július-október