Medián

A Wikipédiából, a szabad enciklopédiából

A medián a statisztika egy nevezetes középértéke, úgynevezett helyzeti középérték. Ahhoz, hogy mediánt számíthassunk a populáció (sokaság) egy ismérvére vonatkozóan, az ismérvnek legalább számértékű, ordinális mérési szintűnek (sorbarendezhetőnek) kell lennie.

A medián fogalma[szerkesztés | forrásszöveg szerkesztése]

Véges elemszámú sokaság esetén a medián a sorba rendezett adatok közül a középső érték; vagy másképpen: a medián az az érték, amely a sorba rendezett adatokat két egyenlő részre osztja. Ha a sokaság elemeinek száma páratlan, akkor az iménti meghatározás egyértelmű, mert akkor van egy középső adat, amely előtt ugyanannyi adat van, mint utána. Páros számú elem esetén két középső adat van, ez esetben a kettő közti bármelyik érték mediánnak tekinthető. A gyakorlatban a két érték számtani közepét szokták megadni. (Néha megadják a két középső értéket, az alsó és a felső mediánt.)

A két esetet egyszerre figyelembe véve a medián definíciója: az az érték, amelynél az adatok legfeljebb 50%-a kisebb és legfeljebb 50 %-a nagyobb. A medián a kvantilisek közül a legegyszerűbb, vagyis statisztikai sokaságot kétfelé vágó érték.

Az x valószínűségi változó mediánját \tilde{x} vagy \mu_{1/2}(x)\,\!. jelöli.[1]

Példák[szerkesztés | forrásszöveg szerkesztése]

  • Páratlan elemszám esetén:
1 2 5 4 3 1 4 3 3 4 3 5 1
A rendezett sokaság:
1 1 1 2 3 3 3 3 4 4 4 5 5
A medián a középső elem:
1 1 1 2 3 3 3 3 4 4 4 5 5
  • Páros elemszám esetén:
1 4 2 4 2 3 5 3 1 1
A rendezett sokaság:
1 1 1 2 2 3 3 4 4 5
A medián a középső elemek számtani közepe: 2,5.

Egyenértékű megfogalmazásai[szerkesztés | forrásszöveg szerkesztése]

A medián valamely értékekre vonatkoztatva az az érték, aminél a többinek a fele nagyobb és a fele kisebb (természetesen páros elemszám esetén a számtani közepet kell venni). Például egy népesség életkorának a mediánja az az életkor, aminél a népességnek pont a fele idősebb és pont a fele fiatalabb.

A medián az az x szám, melytől a sokaság elemeinek abszolút eltérés összege a legkisebb:

|x-x_1|+|x-x_2|+...+|x-x_n|=min

A valószínűség-számításban:

A medián az a μ érték, ahol az eloszlásfüggvény: 1/2: F(μ)=1/2

Az exponenciális eloszlás mediánja: μ = (ln2)/λ

A medián minimáltulajdonsága: Ha x-nek létezik várható értéke, akkor az |x-c| várható értéke akkor minimális, ha c=μ (a medián): M(|x-c|)>=M(|x-μ|)

Magasabb dimenzióban[szerkesztés | forrásszöveg szerkesztése]

A többdimenziós statisztikában az

E(\left|X-c\right|)

minimalizáló c vektorát centroidnak is nevezik,[2] ahol E(\left|X-c\right|) egy adott normában értendő. Ez megfelel az egydimenziós eset abszolútértékének. A centroid szót azonban más jelentésben is használják.

Ha a centroidot az eloszlás egy leszűkítésére veszik, akkor medioidnak hívják. Ez a ponthalmaz származhat például egy másik eloszlásból.

Alkalmazása[szerkesztés | forrásszöveg szerkesztése]

A kilógó adatokkal szembeni kis érzékenysége miatt jobban jellemzi a nem normális eloszlásokat, mint az átlag, vagy a várható érték.

Példa: 10 személy közül egynek 1 000 000 a jövedelme, a többinek 1000. Ekkor az átlagjövedelem 100 900, míg a medián 1000.

A képfeldolgozásban a monokróm bitképeken gyakran látható egy zajféleség, amiben minden pixel a szomszédoktól függetlenül egy adott kis valószínűség szerint lesz fehér, egy hasonlóan kis valószínűséggel lesz fekete, és egy egyhez közeli valószínűséggel változatlan marad. Az efféle zaj jól csökkenthető az adott pixelből és szomszédjaiból (3 x 3-as négyzet) kapott medián használatával.

Alternatívái[szerkesztés | forrásszöveg szerkesztése]

A medián egy alternatívájaként Amartya Sen bevezette a jólléti függvényt a jövedelmek eloszlásának vizsgálatára.

Általánosítása[szerkesztés | forrásszöveg szerkesztése]

A medián helyett n-kvantilisek is használhatók, amik az alapsokaságot n egyenlő részre osztják. A medián a második kvartilis, az ötödik decilis, és az ötvenedik percentilis.

Néhány kvantilisnek latin eredetű önálló neve van:

  • 3-kvantilisek: tercilisek
  • 4-kvantilisek: kvartilisek
  • 5-kvantilisek: kvintilisek
  • 9-kvantilisek: nonilisek
  • 10-kvantilisek: decilisek
  • 12-kvantilisek: duodecilisek
  • 20-kvantilisek: vigintilisek
  • 100-kvantilisek: percentilisek

Általánosabban, az eloszlásfüggvény inverzét nevezik az adott eloszlás kvantilisfüggvényének.

Története[szerkesztés | forrásszöveg szerkesztése]

Gustav Fechner népszerűsítette a medián használatát a formális adatelemzésben, bár korábban Laplace már használta.[3]

Lásd még[szerkesztés | forrásszöveg szerkesztése]

Források[szerkesztés | forrásszöveg szerkesztése]

  1. http://mathworld.wolfram.com/StatisticalMedian.html
  2. Carvalho, Luis & Lawrence, Charles (2008), "Centroid estimation in discrete high-dimensional spaces with applications in biology", Proc Natl Acad Sci U S A 105 (9): 3209-3214, DOI 10.1073/pnas.0712329105
  3. Keynes, John Maynard; A Treatise on Probability (1921), Pt II Ch XVII §5 (p 201).
  • R.J. Serfling. Approximation Theorems of Mathematical Statistics. John Wiley & Sons, 1980.
  • Brown, George W. ”On Small-Sample Estimation.” The Annals of Mathematical Statistics, Vol. 18, No. 4 (Dec., 1947), pp. 582–585.
  • Lehmann, E. L. “A General Concept of Unbiasedness” The Annals of Mathematical Statistics, Vol. 22, No. 4 (Dec., 1951), pp. 587–592.
  • Allan Birnbaum. 1961. “A Unified Theory of Estimation, I”, The Annals of Mathematical Statistics, Vol. 32, No. 1 (Mar., 1961), pp. 112–135
  • van der Vaart, H. R. 1961. “Some Extensions of the Idea of Bias” The Annals of Mathematical Statistics, Vol. 32, No. 2 (Jun., 1961), pp. 436–447.
  • Parametric Statistical Theory. Walter de Gruyter (1994)  Sablon:MR

További információk[szerkesztés | forrásszöveg szerkesztése]