Idősor

A Wikipédiából, a szabad enciklopédiából

Idősornak az olyan statisztikai megfigyeléseket nevezzük, amelynek elemeit egymást követő időpontokban (időszakokban) regisztrálták, és ez az időbeliség az adatok fontos tulajdonsága.

Példa lehet:

  • egy bolt napi forgalmának egy hosszabb időszakon keresztül összegyűjtött adatsora.
  • egy termék országos terjesztésénél a hetenként értékesített mennyiségek sora.
  • buszjárat utasainak száma óránként.
  • üdülőhely szállodáiban a szobák napi kihasználtsága.
  • populáció egyedszámának időben változó sora (pl. népesség, sejt-tenyészet stb.).

Az idősoros megfigyeléseket tekinthetjük a teljes statisztikai populációnak is de gyakrabban feltételezzük, hogy az  y_1, y_2, \ldots megfigyelések az  Y_1, Y_2,\ldots valószínűségi változók (sztochasztikus folyamat) realizációi. Eszerint  y_1, y_2, \ldots egy statisztikai minta, melyből a populációban meglévő összefüggésekre kívánunk következtetni.

Szűkebb értelemben megköveteljük, hogy a mintavételezés szabályos időközönként történjen, de ha ez a feltétel nem teljesül, az idősor elemzésének néhány fázisa ekkor is elvégezhető (értelmezhető).

Szabályos idősorok modellezésére az egyszerűbb \{\, t = 1, 2, 3,\ldots, n \,\} \mapsto y(t)= y_t sorozat-függvényt használjuk, azaz a mintavételezés egzakt időpontjai (dátum, hh:mm:ss) helyett csak a minták sorszámával azonosítjuk az adatokat és sorrendjüket. Szabálytalan adatsorban lehetnek egyenetlenek az intervallumok vagy általában azonosak, de néhány időpontban hiányzik az adat.

Elemzés[szerkesztés | forrásszöveg szerkesztése]

Az idősorok elemzésére a legtöbb általános statisztikát (statisztikai függvényt) alkalmazhatjuk: az átlag (számtani-, kronologikus- stb.), a szórás, a terjedelem stb. kiszámítható, értelmezhető. Azonban az adatok feltételezett időbeli struktúrája komolyabb elemzést is lehetővé tesz. Például az elemi vizsgálatokon túl lehetőség-szükség lehet olyan számításokra, amelyek a vizsgált mennyiség jövőbeli alakulására adnak becslést (prognózis). Erre mutatunk egy példát:

A munkalap

Egy szezonális árucikk (pl. fagylalt, napolaj) forgalmazásának havonkénti adatait tartalmazza az Excel-munkatábla (C/Idősor/Y) oszlopa. Az első oszlopban látható, hogy a mintavételezést 5 éven (60 hónap) keresztül végezték. Az illusztrációban közömbös, hogy az y_1, y_2,\ldots elemek a havi bevételt (MFt-ban), vagy az eladott termék tömegét (tonnában, literben, dobozokban) adják meg.

Első lépésben[szerkesztés | forrásszöveg szerkesztése]

az adatok grafikus ábrázolásával "megsejthető" a folyamat irányzata (trend), ami a példában lineárisan emelkedőnek tűnik. (Más példában tapasztalhatunk exponenciális, logaritmikus stb. változásra utaló tendenciát.) A trend értékeit (itt) a T = m.t + b formulának megfelelően kiszámíthatjuk. Ezt tartalmazza a táblázat (D/Trend/T) fejlécű oszlopa.

Az adatsor és a trend

Az idősort és a trendvonalat ábrázoló grafikonból látszik, hogy a mért (Y) és a számított (T) értékek különbsége szabálytalan sorozatot alkot: fluktuáció (ingadozás). Ennek a sztochasztikus (véletlenszerű) adatsornak az értékeit kiszámíthatjuk: a táblázat (E/Fluktuáció/Y-T) oszlopa.

A trendre rakodó fluktuáció

Az F = T-Y adatsor grafikonjából (és természetesen az árucikk szezonális jellegéből) következtethetünk arra, hogy a fluktuációt két hatás okozza, s ezek közül az egyik valamilyen periodikus (ún. szezonális = S) komponens (itt az éghajlat), melyre rárakódik egy véletlenszerű (random =R) perturbáció. Ezért az eredeti adatsort (Y) három komponensekre bonthatjuk - trend (T), szezonális (S) és véletlen (R). A feltételezett matematikai modell tehát így írható:

Y(t) = T(t) + S(t) + R(t)

Második lépésben[szerkesztés | forrásszöveg szerkesztése]

a periódus meghatározása (becslése) alapján kiszámítjuk az egyes szezonok azonos időszakában számított fluktuációknak az átlagát és a szórását. Az Excel-tábla E-F-G-H-I oszlopaiban láthatók az egyes évek azonos hónapjaihoz tartozó számított értékek (halvány zöld alapszínnel kiemelt cellák), ezek soronkénti átlaga és szórása a munkalap J ill. K oszlopába kerültek. A statisztikai adatfeldolgozási gyakorlatban használt ú.n. három-szigma szabályt alkalmazva meghatározhatjuk annak a (konfidencia-) intervallumnak a felső (max) és alsó (min) határát, amelybe a fluktuáció esik.

A szezonális közép és hibahatára
A prognózis

A prognózist ezek után úgy adhatjuk meg, hogy

  • a T = m.t + b formulával kiszámítjuk a következő év hónapjaira a trendet (prognózis-közép)
  • az egyes t időpontokban a trendhez a konfidencia-határokat hozzáadjuk
  • Ymin(t) ~ T(t) +min(t)
  • Ymax(t) ~ T(t) +max(t)

Az ábrán e két számsor által meghatározott (interpolált) görbe adja a becslés konfidencia-sávját 99%-os megbízhatósági szinten.

Megjegyzések[szerkesztés | forrásszöveg szerkesztése]

  1. A szezonális komponenst esetenként lehet valamilyen periodikus függvénnyel közelíteni, de a gyakorlatban ez ritkán szükséges.
  2. A szezonális komponens számításakor gyakran nem abszolút számokkal, hanem a trendhez viszonyítottakkal (trend = 100%) is dolgoznak, ha feltételezhető, hogy a magasabb értékek tartományában a szezonális és a véletlen komponensek is nagyobbak.
  3. Ha a szezonális komponens periódusának meghatározása nehézkes, nem egyértelmű esetleg nem is "igazi periodicitást" mutat az adatsor, akkor a fluktuációt 3-5-7 tagú mozgó átlagokkal szokták modellezni. Ilyenkor a konfidencia sávot a teljes minta 3×szórásával állandónak tételezhetjük fel.

Irodalom[szerkesztés | forrásszöveg szerkesztése]

  • Jordan Károly dr.: Matematikai statisztika (Atheneum Irodalmi és Nyomdai R.T.; Budapest, 1927?)
  • Prékopa András: Valószínűségelmélet műszaki alkalmazásokkal (Műszaki Könyvkiadó; Budapest, 1980)
  • Kemeny - Snell - Thompson: A modern matematika alapjai (Műszaki Könyvkiadó; Budapest, 1971)
  • Bacskay - Krekó: Matematikai alapismeretek (Közgazdasági és Jogi Könyvkiadó; Budapest, 1963)
  • Moroney, M.J.: Számoktól a tényekig (Gondolat Kiadó; Budapest, 1970)
  • Hack Frigyes & all: Négyjegyű függvénytáblázatok, összefüggések és adatok (Nemzeti Tankönyvkiadó; Budapest, 2004)