Hisztogram

A Wikipédiából, a szabad enciklopédiából
Példa hisztogram

A hisztogram metrikusan skálázott tulajdonságok grafikus ábrázolása. Ha túl sok érték szerepel, akkor osztályokba vonják össze őket. Az egyes osztályok szélessége változhat. A mennyiségeket a szorosan egymás mellé rajzolt téglalapok jelölik, ahol az egyes téglalapok területe az adott osztály gyakoriságát mutatja.[1][2][3] A téglalapok magassága az osztály gyakorisági sűrűségét jelöli, ami az adott osztály szélességével leosztott gyakoriság.

A hisztogramok felfoghatók a folytonos valószínűségi változó sűrűségfüggvényének becsléseként.

Matematikai definíciója[szerkesztés | forrásszöveg szerkesztése]

Egy standard normális eloszlásból vett 10 000 darabos minta normál és kumulatív hisztogramja

Általánosabb matematikai értelemben a hisztogram egy m_i függvény, ami az egyes diszjunkt osztályokba tartozó megfigyeléseket számolja. A hisztogram, mint grafikon ennek egy ábrázolási módja. Ha n az összes megfigyelések száma, és k az osztályok száma, akkor az m_i eleget tesz ennek a feltételnek:

n = \sum_{i=1}^k{m_i}.

Kumulatív hisztogram[szerkesztés | forrásszöveg szerkesztése]

A kumulatív hisztogram a megfigyelt mennyiségek kumulatív ábrázolása, ami az eloszlásfüggvényt közelíti. A közönséges hisztogramtól eltérően itt nem az egyes osztályokba eső mennyiségeket, hanem azok összesített számát ábrázolják minden, az adott osztálynál nem nagyobb osztályra. Képlettel, az m_j osztályok M_i kumulatív hisztogramja:

M_i = \sum_{j=1}^i{m_j}.

Alkalmazása[szerkesztés | forrásszöveg szerkesztése]

Hisztogramokat a képfeldolgozásban és a leíró statisztikában használnak. Hisztogramot készítenek, ha:

  • azt gyanítják, hogy több tényező hat egy folyamatra, és ezt bizonyítani akarják
  • értelmes specifikációs határokat akarnak megállapítani egy folyamatra
  • nemcsak az eloszlás egyes adatait akarják látni, hanem annak kinézetét is.

Elkészítése[szerkesztés | forrásszöveg szerkesztése]

Példa állandó szélességű hisztogramra, ahol az abszolút gyakoriságokat vették fel

A hisztogram elkészítéséhez a szúrópróbaszerű mintavételezés értéktartományát k egymást határoló szakaszra, osztályokra bontják.[4] Figyelni kell arra, hogy a szélső osztályok ne maradjanak nyíltak, tehát legyen az alsónak alsó, a felsőnek felső határa.[1][5] Az osztályok szélességének nem kell megegyeznie, de segíti az értelmezést, ha legalábbis középen egyenlő szélességűek. Minden osztály fölé akkora területű téglalapot rajzolnak, amekkora arányos az osztály gyakoriságával.

Gyakorisági sűrűség[szerkesztés | forrásszöveg szerkesztése]

A háromszögek területe arányos az nj osztálygyakorisággal, ezért a megfelelő hj háromszög magassága h_j = n_j/d_j, ahol dj az osztály szélessége. Ez azonnal világossá válik, mihelyt felidézzük, hogy a téglalapok területe megfelel az osztály szélességének és az gyakorisági sűrűségnek szorzatának. A legmagasabb osztály a móduszosztály.[1] Ha az osztályok ugyanolyan szélesek, akkor a gyakorisági sűrűség és a gyakoriság egyenesen arányosak. Ekkor a téglalapok magassága összehasonlítható, és gyakoriságként értelmezhető.

Az osztályok számának meghatározása[szerkesztés | forrásszöveg szerkesztése]

Az osztályok számának meghatározására több ökölszabályt is kitaláltak:

Mérések száma Osztályok száma
<50 5 - 7
50 - 100 6 - 10
100 - 250 7 - 12
>250 10 - 20

Nincs legjobb módszer arra, hogy mikor hány osztály kell. A különböző módszerek mind feltételeznek valamit az eloszlásról. A céltól és az eloszlástól függően különböző osztályszám és szélesség javasolható. A megfelelő osztályszámot és szélességet további kísérletezéssel találják meg.

Egy példa:

k = \left \lceil \frac{\max x - \min x}{h} \right \rceil.
Sturges-szabály

A Sturges-szabály szerint:[6]

k = 1 + \log_2 n = 1 + 3{,}3 \cdot \log_{10} n

A képlet a binomiális eloszlásból származik, és közel normális eloszlást feltételez. Felteszi továbbá, hogy legalább 30 adatpont van. Újabban már nem használják, mert nem veszi figyelembe a szórást.

Az osztályszélesség, h Scott szerint:[7]

h = \frac {3{,}49 \cdot \sigma} {\sqrt[3]{n}}

vagy Freedman és Diaconis alapján:[8]

h = \frac {2 \cdot (Q_3-Q_1)} {\sqrt[3]{n}}

ahol \sigma a szórás, n a mérések száma, és Q_3-Q_1 a kvartilisek távolsága. Kevésbé érzékeny a távoli pontokra, mint a szórást használó Scott-szabály.

A fenti Scott-szabály csak normális eloszlású adatokra alkalmazható, különben korrekciós tényezőkkel figyelembe kell venni a ferdeséget és a lapultságot is. Normális eloszlásból származó mintán minimalizálja a négyzetes hibát.

A Doane-formula[9] a Sturges-szabály javítása nem normális eloszlású adatokra:

 k = 1 + log_e( n ) + log_e ( 1 + \hat a ( \frac{n}{6} )^{1/2} )

ahol a a lapultságra adott becslés.

Négyzetgyökszabály:

k = \sqrt{n}, \,

Több diagramszerkesztő, például az Excelé ezt használja.

A rizikófüggvény L2 becslésén alapuló módszer[10]:

 \underset{h}{\operatorname{arg\,min}} \frac{ 2 \bar{m} - v } {h^2}

ahol \textstyle \bar{m} a középérték, és \textstyle v a hisztogram torzított szórása a \textstyle h osztályszélességgel. \textstyle \bar{m}=\frac{1}{k} \sum_{i=1}^{k} m_i és \textstyle v= \frac{1}{k} \sum_{i=1}^{k} (m_i - \bar{m})^2 .

Tulajdonságai[szerkesztés | forrásszöveg szerkesztése]

A hisztogram a szóban forgó gyakoriságok területarányos ábrázolása. A j-edik téglalap területe megfelel a c \cdot f(x_j) mennyiségnek, ahol f(x_j)\, a j-edik osztály relatív vagy abszolút gyakorisága, és c\, arányossági tényező.

Ha ez a c\, arányossági tényező éppen az összes mérés száma, akkor a téglalapok területe megegyezik a megfelelő osztályok abszolút gyakoriságának. Ekkor a hisztogramot abszolútnak nevezik.[11] Ha ez az arányossági tényező 1, akkor a téglalapok területe a relatív osztálygyakoriságokkal egyezik meg. Ekkor a hisztogram relatív vagy normált. Ekkor, mivel a területek a relatív gyakoriságokkal egyeznek meg, az összegük 1.[11]

Az oszlopdiagramtól eltérően az egyes téglalapok az osztályok teljes szélességét kitöltik, ami azt jelenti, hogy a szomszédos téglalapok összeérnek, mivelhogy az egyes osztályok is összeérnek.

Az oszlopdiagramtól eltérően a hisztogram x tengelyén is mennyiségeket kell felvenni. Az értékeknek rendezetteknek és skálázhatóknak kell lenniük.

A hisztogramról a következők olvashatók le elsősorban:

  • a görbe lefutása
  • a centráltság
  • a szórás

Példa[szerkesztés | forrásszöveg szerkesztése]

32 európai országban mérték az ezer főre jutó autók számát. Az értékeket a következőképpen osztályozták:

32 országban az 1000 főre jutó autók számának hisztogramja


A j osztály Az 1000 főre jutó autók száma Az országok száma
(abszolút osztálygyakoriság)
nj
Osztályszélesség
dj
Magasság
(gyakorisági sűrűség)
hj = nj/dj
1 0 - 200 5 200 - 0 = 200 0,025
2 200 - 300 6 100 0,06
3 300 - 400 6 100 0,06
4 400 - 500 9 100 0,09
5 500 - 700 6 200 0,03
Összeg Σ   32  

A vízszintes tengelyre az osztályok közepét és határait vitték fel. A függőleges tengelyen nem készítenek beosztást, nehogy a magasságot nézzék gyakoriságnak a terület helyett. Ez a veszély azonban nem áll fenn, ha az osztályok egyformán szélesek, mivel ekkor a magasság is arányos a gyakorisággal; ekkor az nj-k ábrázolhatók a függőleges tengelyen.

A Statistics Online Computational Resource (SOCR) oldalai sok interaktív bemutatót tartalmaznak a hisztogramok készítéséről[12] és kezeléséről.[13]

Átlageltolt hisztogramok[szerkesztés | forrásszöveg szerkesztése]

A bal kép négy hisztogramot mutat ugyanarról az adathalmazról. Mindegyiken 0,2 az osztályszélesség, alakjuk mégis eltér, mivel máshol kezdődik az első osztály: -6,0; -5,5; -5,0 és -4,5. Ez a példa jól mutatja, hogy az osztályszélesség és az osztályok száma mellett a bal osztályhatár is fontos. David Scott ezért átlageltolt (average-shifted) hisztogramot javasolt.[14]

A jobb képen átlageltolt hisztogramot láthatunk. A négy hisztogramot egymásra helyezve és minden x értékre kiátlagolva kapták a függőleges tengelyre felmért magasságokat. A gyakorlatban lényegesen több előzőleg elkészített hisztogramot átlagolnak ki így. Az átlageltolt hisztogramot a hisztogram és a magsűrűségbecslés közé helyezik el. Az átlageltolás megoldja a bal osztályhatár problémáját, de nem segít az osztályok számának meghatározásában.

A képfeldolgozásban[szerkesztés | forrásszöveg szerkesztése]

Egy fekete-fehér kép hisztogramja; a kép nagy része fekete vagy fehér

A digitális képfeldolgozásban a hisztogram a kép színértékeiről vagy szürkeségi fokozatáról készül. Ez alapján adatok nyerhetők az előforduló színekről, kontrasztokról és fényességekről. Egy színes képről több hisztogram is készíthető az egyes színcsatornák, vagy az összes szín szerint. Mivel a legtöbb eljárás a fekete-fehér képeket támogatja, ezért inkább az egyes színcsatornák hisztogramját használják, ami lehetővé teszi a kép feldolgozásának azonnali folytatását. A színcsatornák száma az alapszínek számától függ: RGB estén három, CMYK esetén négy.

A kép hisztogramja a fényességértékek eloszlását mutatja. A lehetséges színértékek tengelyére az egyes színértékek gyakoriságát viszik fel. Minél magasabb ez, annál többször fordul elő az adott színérték a képen.

A digitális fényképészet gyakran használ hisztogramot. A jól felszerelt digitális fényképezőgépek valós időben mutatnak hisztogramokat, hogy így segítsék a képi egyensúly megtalálását. Ez pontosabb képszerkesztést tesz lehetővé, mint ami a kamerakép alapján tehetséges lehetne. Felismerhetők és javíthatók például a világítás hibái, ha a kép túl sötét vagy túl világos lenne. A kép későbbi feldolgozásában sokat számítanak a rajta levő kontrasztok és a fényességek, ezért érdemes a hisztogramokat figyelni.

A hisztogramok egy klasszikus felhasználása a színegyensúly beállítása (equalizing). A hisztogramot és a megfelelő színeket egy alkalmas függvénnyel transzformálják. Jobban kiegyensúlyozza a színeket, mint a kontrasztok erősítése.

Alacsony és magas kulcsú fényképészet[szerkesztés | forrásszöveg szerkesztése]

Magas kulcsú kép hisztogramja; a pixelek 70 %-az értékek legfelső 2 %-ába eszik (a 250-255 tartományba) a teljes fényességi skálából (0-255). A többi 250 értékre a pixelek 30 %-a jut

Az alacsony kulcsú fényképészetben a kép részletei, pixeljei az alacsony tónusértékeken koncentrálódnak; a kép sötét. A hisztogramon a legtöbb pixel az alacsony tartományban szerepel.

A magas kulcsú fényképészetben ellenben a pixelek a magas értékeken koncentrálódnak. A kép világos.

Ha a kép túl van világosítva, akkor az értékek eltolódnak a magasabb értékek felé. A hisztogram szerint a maximum nem éretik el. Ez azt mutatja, hogy sok kis részlet kimarad a képről, mivel le lett vágva egy fényességi tartomány, és ami olyan fényes, az a képen fehér.

Története[szerkesztés | forrásszöveg szerkesztése]

A hisztogramok először William Playfair skót mérnök és közgazdász 1786-ban megjelent The Commercial and Political Atlas című művében bukkantak fel.[15] Ó vezette be korábban a sor- és a tortadiagramot is. 1833-ban a francia André-Michel Guerry hisztogramokkal jelenítette meg az adatokat.[16] Adolphe Quetelet belga statisztikus és szociológus 1846 körül továbbfejlesztette a hisztogramot. Magát a hisztogram(historical diagram)[17] szót először Karl Pearson angol matematikus használta 1891-ben az előadásain, és 1895-ben a mai jelentésében vezették be.[18][19][20]

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

  1. ^ a b c Bernd Rönz, Hans G. Strohe, Lexikon Statistik, Gabler Verlag, 1994, S. 157
  2. Larry Wasserman, All of Nonparametric Statistics, Springer, 2005, S. 127
  3. Arens et al., Mathematik, Spektrum Akademischer Verlag, 2008, S. 1226
  4. Thomas A. Runkler: Data Mining: Methoden und Algorithmen intelligenter Datenanalyse. 1. Auflage. Vieweg + Teubner, 2010, S. 47.
  5. Erhard Cramer, Udo Kamps: Grundlagen der Wahrscheinlichkeitsrechnung und Statistik: Ein Skript für Studierende der Informatik, der Ingenieur- und Wirtschaftswissenschaften. 2. Auflage. Springer, 2008, S. 45.
  6. Herbert A. Sturges: The choice of a class interval. In: Journal of the American Statistical Association. Nr. 21, 1926, S. 65-66.
  7. David W. Scott: On optimal and data-based histogram. In: Biometrika. 3, Nr. 66, 1979, S. 605–610.
  8. David Freedman, Persi Diaconis: n the histogram as a density estimator: L_2 theory. In: Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57, Nr. 4, 1981, S. 453-476.
  9. Doane DP (1976) Aesthetic frequency classification. American Statistician, 30: 181–183
  10. Shimazaki, H., Shinomoto, S. (2007.). „A method for selecting the bin size of a time histogram”. Neural Computation 19 (6), 1503–1527. o. DOI:10.1162/neco.2007.19.6.1503. PMID 17444758.  
  11. ^ a b Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, 2005, S. 31-32.
  12. http://wiki.stat.ucla.edu/socr/index.php/SOCR_EduMaterials_ModelerActivities_MixtureModel_1
  13. http://wiki.stat.ucla.edu/socr/index.php/SOCR_EduMaterials_Activities_PowerTransformFamily_Graphs
  14. David Scott: Multivariate Density Estimation: Theory, Practice, and Visualization. John Wiley, 1992, ISBN 978-0471547709.
  15. Playfair, William; The Commercial and Political Atlas: Representing, by Means of Stained Copper-Plate Charts, the Progress of the Commerce, Revenues, Expenditure and Debts of England during the Whole of the Eighteenth Century, London 1786
  16. André-Michel Guerry: Essai sur la Statistique Morale de la France. Paris 1833.
  17. „He explained that the histogram could be used for historical purposes to create blocks of time of ‘charts about reigns or sovereigns or periods of different prime ministers’.“. The Rutherford Journal
  18. Sheldon M. Ross: Introductory Statistics. 2. Auflage. Elsevier Academic Press, 2005, S. 56-57.
  19. Yadolah Dodge: The Concise Encyclopedia of Statistics. Springer, 2008, S. 236-237.
  20. Eileen Magnello: Karl Pearson's Gresham Lectures: W. F. R. Weldon, Speciation and the Origins of Pearsonian Statistics. In: The British Journal for the History of Science, Vol. 29, No. 1. Cambridge University Press, 1996, S. 48.