„Hisztogram” változatai közötti eltérés

A Wikipédiából, a szabad enciklopédiából
[ellenőrzött változat][ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
→‎Gyakorisági sűrűség: Az osztályok számának meghatározása
13. sor: 13. sor:
===Gyakorisági sűrűség===
===Gyakorisági sűrűség===
A háromszögek területe arányos az ''n''<sub>''j''</sub> osztálygyakorisággal, ezért a megfelelő ''h''<sub>''j''</sub> háromszög magassága <math>h_j = n_j/d_j</math>, ahol d<sub>j</sub> az osztály szélessége. Ez azonnalvilágossá válik, mihelyt felidáézzük, hogy a téglalapok területe megfelel az osztály szélességének és az gyakorisági sűrűségnek szorzata. A legmagasabb osztály a móduszosztály.<ref name=Roenz1994>Bernd Rönz, Hans G. Strohe (1994), ''Lexikon Statistik'', Gabler Verlag, S.&nbsp;250</ref> Ha az osztályok ugyanolyan szélesek, akkor a gyakorisági sűrűség és a gyakoriság egyenesen arányosak. Ekkor a téglalapok magassága összehasonlítható, és gyakoriságként értelmezhető.
A háromszögek területe arányos az ''n''<sub>''j''</sub> osztálygyakorisággal, ezért a megfelelő ''h''<sub>''j''</sub> háromszög magassága <math>h_j = n_j/d_j</math>, ahol d<sub>j</sub> az osztály szélessége. Ez azonnalvilágossá válik, mihelyt felidáézzük, hogy a téglalapok területe megfelel az osztály szélességének és az gyakorisági sűrűségnek szorzata. A legmagasabb osztály a móduszosztály.<ref name=Roenz1994>Bernd Rönz, Hans G. Strohe (1994), ''Lexikon Statistik'', Gabler Verlag, S.&nbsp;250</ref> Ha az osztályok ugyanolyan szélesek, akkor a gyakorisági sűrűség és a gyakoriság egyenesen arányosak. Ekkor a téglalapok magassága összehasonlítható, és gyakoriságként értelmezhető.
===Az osztályok számának meghatározása===
Az osztályok számának meghatározására több ökölszabályt is kitaláltak:

:{| class="wikitable"
|-
! Mérések száma
! Osztályok száma
|-
| <50
| 5 - 7
|-
| 50 - 100
| 6 - 10
|-
| 100 - 250
| 7 - 12
|-
| >250
| 10 - 20
|}

A Sturges-szabály szerint:<ref>{{Literatur
|Autor = Herbert A. Sturges
|Titel = The choice of a class interval
|Sammelwerk = Journal of the American Statistical Association
|Nummer = 21
|Jahr = 1926
|Seiten = 65-66
}}
</ref>
:<math>k = 1 + \log_2 n = 1 + 3{,}3 \cdot \log_{10} n</math>

Ezt azonban újabban már nem használják, mert nem veszi figyelembe a [[szórás (valószínűség-számítás)|szórás]]t.

Az osztályszélesség, <math>h</math> Scott szerint:<ref>
{{Literatur
|Autor = David W. Scott
|Titel = On optimal and data-based histogram
|Sammelwerk = Biometrika
|Band = 3
|Nummer = 66
|Jahr = 1979
|Seiten = 605–610
|DOI = 10.1093/biomet/66.3.605
}}
</ref>
:<math>h = \frac {3{,}49 \cdot \sigma} {\sqrt[3]{n}}</math>

vagy Freedman és Diaconis alapján:<ref>
{{Literatur
|Autor = David Freedman, Persi Diaconis
|Titel = n the histogram as a density estimator: <math>L_2</math> theory
|Sammelwerk = Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete
|Band = 57
|Nummer = 4
|Jahr = 1981
|Seiten = 453-476
|DOI = 10.1007/BF01025868
}}
</ref>
:<math>h = \frac {2 \cdot (Q_3-Q_1)} {\sqrt[3]{n}}</math>

ahol <math>\sigma</math> a szórás, <math>n</math> a mérések száma, és <math>Q_3-Q_1</math> a [[kvartilis]]ek távolsága.

A fenti Scott-szabály csak [[normális eloszlás]]ú adatokra alkalmazható, különben korrekciós tényezőkkel figyelembe kell venni a [[ferdeség]]et és a [[lapultság]]ot is.


==Jegyzetek==
==Jegyzetek==

A lap 2012. november 14., 17:13-kori változata

Példa hisztogram

A hisztogram metrikusan skálázott tulajdonságok grafikus ábrázolása. Ha túl sok érték szerepel, akkor osztályokba vonják össze őket. Az egyes osztályok szélessége változhat. A mennyiségeket a szorosan egymás mellé rajzolt téglalapok jelölik, ahol az egyes téglalapok területe az adott osztály gyakoriságát mutatja.[1][2][3] A téglalapok magassága az osztály gyakorisági sűrűségét jelöli, ami az adott osztály szélességével leosztott gyakoriság.

A hisztogramok felfoghatók a folytonos valószínűségi változó sűrűségfüggvényének becsléseként.

Alkalmazása

Hisztogramokat a képfeldolgozásban és a leíró statisztikában használnak. Hisztogramot készítenek, ha:

  • azt gyanítják, hogy több tényező hat egy folyamatra, és ezt bizonyítani akarják
  • értelmes specifikációs határokat akarnak megállapítani egy folyamatra
  • nemcsak az eloszlás egyes adatait akarják látni, hanem annak kinézetét is.

Elkészítése

Példa állandó szélességű hisztogramra, ahol az abszolút gyakoriságokat vették fel

A hisztogram elkészítéséhez a szúrópróbaszerű mintavételezés értéktartományát k egymást határpoló szakaszra, osztályokra bontják.[4] Figyelni kell arra, hogy a szélső osztályok ne maradjanak nyíltak, tehát legyen az alsónak alsó, a felsőnek felső határa.[5][1] Az osztályok szélességének nem kell megegyeznie, de segíti az értelmezést, ha legalábbis középen egyenlő szélességűek. Minden osztály fölé akkora területű téglalapot rajzolnak, amekkora arányos az osztály gyakoriságával.

Gyakorisági sűrűség

A háromszögek területe arányos az nj osztálygyakorisággal, ezért a megfelelő hj háromszög magassága , ahol dj az osztály szélessége. Ez azonnalvilágossá válik, mihelyt felidáézzük, hogy a téglalapok területe megfelel az osztály szélességének és az gyakorisági sűrűségnek szorzata. A legmagasabb osztály a móduszosztály.[1] Ha az osztályok ugyanolyan szélesek, akkor a gyakorisági sűrűség és a gyakoriság egyenesen arányosak. Ekkor a téglalapok magassága összehasonlítható, és gyakoriságként értelmezhető.

Az osztályok számának meghatározása

Az osztályok számának meghatározására több ökölszabályt is kitaláltak:

Mérések száma Osztályok száma
<50 5 - 7
50 - 100 6 - 10
100 - 250 7 - 12
>250 10 - 20

A Sturges-szabály szerint:[6]

Ezt azonban újabban már nem használják, mert nem veszi figyelembe a szórást.

Az osztályszélesség, Scott szerint:[7]

vagy Freedman és Diaconis alapján:[8]

ahol a szórás, a mérések száma, és a kvartilisek távolsága.

A fenti Scott-szabály csak normális eloszlású adatokra alkalmazható, különben korrekciós tényezőkkel figyelembe kell venni a ferdeséget és a lapultságot is.

Jegyzetek

  1. a b c Bernd Rönz, Hans G. Strohe, Lexikon Statistik, Gabler Verlag, 1994, S. 157 Forráshivatkozás-hiba: Érvénytelen <ref> címke, „Roenz1994” nevű forráshivatkozás többször van definiálva eltérő tartalommal
  2. Larry Wasserman, All of Nonparametric Statistics, Springer, 2005, S. 127
  3. Arens et al., Mathematik, Spektrum Akademischer Verlag, 2008, S. 1226
  4. Sablon:Literatur
  5. Sablon:Literatur
  6. Sablon:Literatur
  7. Sablon:Literatur
  8. Sablon:Literatur