Hibák és reziduálisok

A hibák és reziduálisok a statisztika és az optimalizálás témakörein belül két egymáshoz nagyon közel álló és könnyen összekeverhető fogalom, amelyek a statisztikai minta egyetlen elemének megfigyelt értékére vonatkoznak, összevetve a „teoretikusan elvárható értékkel”. A vizsgált értékhez tartozó hiba (vagy mérési zaj) a megfigyelt érték eltérése a (megfigyelhetetlen) valódi értéktől, amely egy, az érdeklődés középpontjában álló mennyiségi változó része (pl. egy populáció átlaga). A vizsgált értékhez tartozó reziduális pedig a megfigyelt érték eltérése a becsült értéktől (pl. egy adott minta átlaga). A megkülönböztetés a regresszióelemzés alkalmazásakor kiemelt fontosságú, ahol a fogalmakat regressziós hibáknak és regressziós reziduumoknak nevezik, amelyekből levezethető az ún. studentizált reziduálisok koncepciója.

Problémafelvetés[szerkesztés]

Tegyük fel, hogy vannak megfigyelt adataink egy egyváltozós eloszlásból, és meg szeretnénk becsülni az eloszlás átlagát (lokációs modell). Ebben az esetben a hibák a megfigyelt értékek eltérései a populáció átlagától, míg a reziduumok a minta átlagától való eltérések.

A statisztikai hiba (vagy zaj) az a mennyiség, amellyel a megfigyelt érték eltér az előre várt, a teljes populáció alapján megállapított értéktől, amely populációból a mintát véletlenszerűen kiválasztottuk.

Például, ha a populációban a 21 éves férfiak átlagos magassága 175 cm és a véletlenszerűen kiválasztott személy 180 cm, a „hiba” mértéke 5 cm. Ha a kiválasztott személy 170 cm, a „hiba” akkor is 5 cm. A várható érték, amely a teljes populáció átlaga, általában nem megfigyelhető és éppen ezért a statisztikai hiba sem válik közvetlenül vizsgálhatóvá.

A reziduális (vagy illeszkedéstől való eltérés) másrészt egy megvizsgálható becslés a nem megfigyelhető statisztikai hibáról. A magasságmérős példánál maradva: tegyük fel, hogy véletlenszerű mintánk van n személyről. A mintaátlag jó becslést adhat a populáció átlagáról.

Ebben az esetben megállapítható:

A mintában szereplő férfiak magassága és a populáció átlagos magassága közötti eltérés egy statisztikai hiba, miközben
A mintában szereplő férfiak magassága és a megfigyelhető mintaátlag közötti eltérés egy reziduális.

Fontos, hogy a mintaátlag definíciójából következően a véletlenszerű mintában megfigyelhető reziduálisok összege szükségszerűen 0, tehát a reziduumok következésképpen nem függetlenek egymástól. A statisztikai hibák azonban függetlenek és összegük szinte bizonyosan nem nulla a véletlen mintán belül (hiszen a populáció- és mintaátlagok eltérőek).

Statisztikai elemzések során a statisztikai hibák (különösen normális eloszlás esetén) egy standard pontszámmal (z-érték számítása) standardizálhatók, míg a reziduálisok t-próbával vagy még általánosabban az ún. studentizált „törölt” reziduálisok számításával.

Egyváltozós eloszlásokban[szerkesztés]

Ha egy normális eloszlású populációt vizsgálunk, amelynek átlaga μ és szórása σ, emellett az esetek függetlenek egymástól, akkor az értékeink:

X_{1},\dots ,X_{n}\sim N(\mu ,\sigma ^{2})\,

a mintaátlag pedig:

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

amely egy véletlen változó az alábbi eloszlással:

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

A statisztikai hibák ekkor:

e_{i}=X_{i}-\mu ,\,

amelyek várható értéke hagyományosan nulla^[1]

míg a reziduálisok:

r_{i}=X_{i}-{\overline {X}}.

A statisztikai hibák négyzeteinek összege, elosztva σ²-tel, khí-négyzet eloszlást mutat, n szabadságfokkal:

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

Azonban ez a mennyiség nem vizsgálható, mivel a populáció átlaga ismeretlen. A reziduumok négyzeteinek összege ugyanakkor megfigyelhető. Ezt az összeget elosztva a varianciával (σ²) egy khí-négyzet eloszlást kapunk, csupán n – 1 szabadságfokkal:

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

Ez a különbség n és n – 1 szabadságfok között a Bessel-féle korrekciót igényli a szimpla variancia becslésére egy olyan populációban, amelynek sem átlagát, sem varianciáját nem ismerjük. Ha ismert a populáció átlaga, nem szükséges korrekciót alkalmazni.

Külön hangsúlyozandó, hogy a reziduumok négyzetének összege és a mintaátlag egymástól függetlenek, amely bizonyítható például a Basu-tétel alkalmazásával. Ez, valamint a normális és a khí-négyzet eloszlás által fentebb kialakított formulák alkotják a számítások alapját, többek közt a t-statisztikát:

T={\frac {{\overline {X}}_{n}-\mu _{0}}{S_{n}/{\sqrt {n}}}},

ahol ${\overline {X}}_{n}-\mu _{0}$ jelenti a hibákat, $S_{n}$ jelenti a minta szórását n méretű minta esetén, és ismeretlen szórással (σ), a nevezőben szereplő $S_{n}/{\sqrt {n}}$ kifejezés pedig a hibák szórását mutatja meg, az alábbiaknak megfelelően:

${\textstyle Var({{\overline {X}}_{n}})=\sigma ^{2}/{n}}$

A számláló és a nevező valószínűség-eloszlásai a populáció nem megfigyelhető standard szórásától függenek, azonban σ a tört mindkét részében megjelenik, így számításkor eltűnik. Ez rendkívül kedvező, mivel még akkor is tudjuk a kvóciens valószínűség-eloszlását, ha nem ismerjük a szórást: a valószínűség-eloszlást Student t-eloszlás és n – 1 szabadságfok jellemzi. Ugyanakkor használhatjuk arra is a hányadost, hogy μ számára konfidenciaintervallumot számítsunk. Ez a t-statisztika úgy interpretálható, mint „a standard hibák száma hány szórásnyira van a regressziós vonaltól”.^[2]

Egyéb statisztikai kifejezések – „hiba” vagy „eltérés”[szerkesztés]

A „hiba”, ahogyan a korábbiakban megtárgyaltuk, a megfigyelt érték egy bizonyos eltérése a hipotetikusan nem megfigyelhető értéktől. Ezen kívül a statisztikában még legalább két másik értelmezése használatos, amelyek a megfigyelhető bejósló hibákról adnak információt:

Az átlagos négyzetes eltérés (MSE, Mean square error) és a négyzetes középérték (RMSE, Root Mean Square Error) az a mennyiség, amennyivel a vizsgált értékek eltérnek az előre megbecsült értékektől (a mintán kívüli adatokból készített becslés alapján).

A négyzetes hibaösszeg (SSE, Sum of Squared Errors) a regresszióanalízis során kapott reziduumok négyzetének összege; ez a megfigyelt értékek és a becsült értékek eltérésének négyzetének összege, a mintán belüli adatokból készített becslés eredményeit felhasználva. Ugyanezt nevezik a legkisebb négyzetek becslésének is, amikor a regressziós koefficiensek a négyzetek összegének minimalizálására törekszenek (tehát a deriváltjuk nulla).

Ehhez hasonlóan, az abszolút eltérések összege (SAE, Sum of Absolute Errors) a reziduumok abszolút értékein alapszik, amely a regresszióanalízisben a legkisebb abszolút eltérések számításával törekszik a modellhez való közelítésre.

Jegyzetek[szerkesztés]

↑ Wetherill, G. Barrie.. Intermediate statistical methods. London: Chapman and Hall (1981. április 26.). ISBN 0-412-16440-X. OCLC 7779780
↑ Bruce, Peter C., 1953-. Practical statistics for data scientists : 50 essential concepts, Bruce, Andrew, 1958-, First edition. ISBN 978-1-4919-5293-1. OCLC 987251007

[1] Wetherill, G. Barrie.. Intermediate statistical methods. London: Chapman and Hall (1981. április 26.). ISBN 0-412-16440-X. OCLC 7779780

[2] Bruce, Peter C., 1953-. Practical statistics for data scientists : 50 essential concepts, Bruce, Andrew, 1958-, First edition. ISBN 978-1-4919-5293-1. OCLC 987251007

[1]

[2]