Ugrás a tartalomhoz

Adattisztítás

A Wikipédiából, a szabad enciklopédiából
A lap aktuális változatát látod, az utolsó szerkesztést Xia (vitalap | szerkesztései) végezte 2020. július 24., 13:57-kor. Ezen a webcímen mindig ezt a változatot fogod látni. (Forrás hiányzik)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Az adattisztítás a statisztikai adatfeldolgozás bevezető lépéseinek egyike.

Az adattisztítás során

  • felmérjük a hibákat
    • ellenőrizzük az adatfájl szerkezeti épségét
    • felmérjük a hiányzó értékeket
    • felmérjük az adatközlési és adatbeviteli hibákat
      • megvizsgáljuk az egyes változók eloszlását
        • az eloszlások szélein elhelyezkedő extrém értékeket ellenőrizzük
        • felmérjük, hogy az eloszlások megfelelnek-e az előzetes elvárásainknak, vannak-e nem várt sűrűsödések, ritkulások egyes értéktartományokban (például durva kerekítés vagy eltérő mértékegység használata az adatszolgáltatók egy részénél)
      • megvizsgáljuk, hogy a változók közötti triviális összefüggések teljesülnek-e (például vizsgálat dátuma ≥ születés dátuma)
  • a hibásnak tűnő adatokat felülvizsgáljuk, javítjuk.