Gépi látás

A Wikipédiából, a szabad enciklopédiából
Jump to navigation Jump to search

Bár általános definíció nem ismeretes, a gépi látás egy olyan általános gyűjtőfogalom eljárásokra és rendszerekre, amelyekkel (mozgó)kép alapú adatgyűjtés és –kiértékelés után vagy annak hatására valamilyen vezérlési, szabályozási vagy gépi értelmezési mechanizmus indul be. Magát az adatkinyerés eszközeit általában (gépi) képfeldolgozásnak (Image Processing) nevezzük, a kiértékelést (gépi) képelemzésnek (Image Analysis), a vezérlési és szabályozási feladatok esetében jellemzően az angol nyelvben Machine Vision (MV) problémákról beszélünk, míg az értelmezési feladatok esetében Computer Vision (CV) problémákról. Magyar nyelvben az MV és CV problémateret fogalmilag nem különböztetjük érdemben, a szaknyelvben a gépi látásnak nevezzük mindkettőt[1] hasonlóan a mai angol nyelvű gyakorlathoz, ahol az MV és a CV nem válik el élesen egymástól, egyre inkább szinonimaként is használják[2]. Az MV terület eredetileg az emberi tényezőt meghaladó képességek géppel (= inkább hardverorientált módon) való kiváltására, míg a CV az emberi látáshoz köthető feladatok automatizálására, modellezésére (= inkább szoftverorientált módon) jött létre. A két irány történelmileg bár különálló volt a hardverek és a szoftverek történelmileg eltérő jelfeldolgozási sebességének alakulása miatt – a mai technológiai szinten már értelmetlen a megkülönböztetés, egyik sem létezik a másik nélkül.[3]

Jellemző, de nem kizárólag gépi látáshoz kapcsolódó feladatok:

  • Inkább Machine Vision problémakör
    • kiértékelés (minőség-ellenőrzés, hegesztési varat minősítés, résméretek, gyógyszerminőség-ellenőrzése)
    • méretezés (tárgy modellezése, kalibráció, 3D rekonstrukció)
    • pozícionálás (futószalag vezérlése, forgatás, robotika)
    • jelenség felismerése (képi diagnosztika, betegség-felismerés, hőhidak felismerése, anyaghibák felderítése)
    • képi kódolás (vonalkód, QR-kód, pozíciókódolás)
  • Inkább Computer Vision problémakör
    • térérzékelés és térlátás (pozícionálás, mélység meghatározás, előtér-háttér szétválasztás, ortofotó automatikus előállítása, kép alapú vonalbíró rendszer)
    • számlálás (kép alapú forgalomszámlálás, belépésszámlálás, mozgás alapú hőtérkép készítése)
    • objektumfelismerés (táblafelismerés, gyalogosfelismerés, ellenségfelismerés, távérzékelés)
    • minta- és jelenségelemzés (csillagászati képelemzés, agyműködés elemzése elektromikroszkóppal, elhagyott tárgyak felismerése, önvezető autók közlekedési helyzetelemzése)
    • azonosítás (kép alapú biometrikus azonosítás, szám- és rendszámfelismerés)
    • nyomkövetés (sportoló által megtett út, lövéserő, elkövetői útvonal felderítése, forgalommodellezés)
    • mechanikai elemzés (testbeszéd alapú hazugságvizsgálat, képi hangulatelemzés, sportolói mozgáselemzés, tengelyterhelés becslése)

Fizikai felépítés[szerkesztés]

Egy általános gépi látás rendszer jellemzően a következő főbb komponensekből épül fel[4].

  • Jelforrás, pl. megvilágítás, ha van aktív beavatkozó a rendszerben a lényeges pontok kiemelésére
  • Képalkotó berendezés (jellemzően kamera az alkalmazáshoz megfelelő optikával, előtétszűrővel, de lehet ez pyrométer, mikrobolométer[5], ultrahang, LIDAR, CT, elektronmikroszkóp stb.)
  • Jelfeldolgozó egység, amely többnyire gyors írási műveletekre optimalizált célhardver (pl. DSP-kártya, videokártya) és ehhez kapcsolódó szoftverelemek összessége
  • Szoftverkomponens, "üzleti logika", amely a konkrét cél megvalósításához szükséges gépi logika, értelmezés érdemi részét tartalmazza, többnyire PC központi feldolgozóegységén (CPU) fut, de újabban a videókártya jelfeldolgozó egységére (GPU) is gyakran írnak eljárásokat
  • Kommunikációs interfész az eredmények közlésére, továbbítására, vezérlésre, szabályozásra, például egy a folyamatot irányító PLC felé

Jelkibocsátás, lényegkiemelő jelforrások[szerkesztés]

A gépi látás szempontjából a leggyakoribb lényegkiemelő eszköz a megvilágítás, amennyiben nem a természetes fényforrásokat vesszük igénybe. A fényforrásokat a katalógusokban a kialakítás, és ezen keresztül a lényegkiemelés célja, fókusza szerint különböztetjük meg[6][7]:

  • Háttérvilágító (Back) - szórt fény kibocsátása kontúr és élek detektálásához
  • Gyűrű világító test kialakítás (Ring) - általános megvilágító nem fényvisszaverő felületen
  • Súrló fényforrások (Darkfield) - görbe felületek felületi egyenetlenségek, kontúr kiemelése
  • Tengelyirányú vagy axiális fényforrás (Axial és Co-axial) - fényvisszaverő felületek megvilágítása
  • Égbolt vagy dóm fényforrás (Dome) - árnyékmentes megvilágítás
  • Fókuszált fényforrások (jellemzően anyagvizsgálati és mérési célokra)
    • Vonal vetítő (Line) - pl. mozgás érzékeléséhez
    • Kereszt vetítő (Cross) - pl. mozgás érzékeléséhez
    • Sáv vetítő (Bar) - felületek méretezéséhez vagy sáv kiemelése
    • Kör vetítő (Circle/Ellipse) - mélység érzékeléséhez
    • Pont vetítő (Point) - távolság érzékeléséhez
    • Folt vetítő (Spot) - fókuszált kiemelés, háttér elnyomás

A gépi látásban azonban használatosak más jelforrások is, a képalkotó berendezés sajátosságainak megfelelően. A teljesség igénye nélkül, például az orvosi képalkotás vagy anyagvizsgálat során jelforrás lehet Röntgen-sugár, ultrahang, pozitron kibocsátás, anyagvizsgálatban ionok (lásd tömespektrometria), a térképészeti és távérzékelési alkalmazásokban, mint amilyen a LIDAR pedig lézerfény. A síkban vagy térrészben mérhető fizikai jellemző kibocsátásához illeszkedő, megfelelő érzékelő berendezés létrehozásával lehetőség nyílik képalkotásra.

Képalkotó berendezés[szerkesztés]

A mért fizikai jellemzőhöz illeszkedő olyan hardvereszközt, amely a mért adatokból képet vagy képek sorozatát képes előállítani, képalkotó berendezésnek nevezzük. A képalkotó berendezések a gépi látásban nagyon sokfélék lehetnek, mivel nagyon sok fizikai jellemzőből van lehetőség képet előállítani. A képalkotó berendezések csoportosítás többféleképpen is lehetséges, beszélhetünk

  • dimenzionális felosztásról:
    • térbeli kiterjedést tekintve: 1D (pl. távolságmérő), 2D (pl. fényképező), 3D (pl. ToF-kamerák)
    • illetve álló- és mozgókép-felvevő berendezésekről
  • felépítés alapú felosztásról:
    • mérőberendezés - képet közvetlen módon létre nem hozó, de kiegészítő szoftverre egyszerűen képpé alakítható adatsort előállító berendezés (pl. LIDAR)
    • egyszerű képalkotó berendezés - képet közvetlenül előállító berendezés
    • integrált vagy okos (smart, intelligent) berendezés - kép előfeldolgozását elvégző, azaz bizonyos szoftveres komponenseket is hardverbe integrált módon magában foglaló berendezés, amely további feldolgozásra szánt kimenettel bír
    • célberendezés - az adott feladat ellátására létrehozott vezérlő vagy szabályozó egység, amely végfokozatként is működik, azaz további képfeldolgozást nem igénylő vagy nem támogató eszköz.
  • elhelyezési felosztásról:
    • aktív, megfigyelési környezethez közvetlenül csatlakozó, érintkező felületet igénylő eszköz (orvosi képalkotásban: in-vivo eszköz, pl. EEG)
    • passzív, távfigyelés lehetőségére alkalmas eszköz (orvosi képalkotásban: in-vitro eszköz, pl. szonár)
  • élettani felosztásról
    • ártalmatlan jelek feldolgozására alkalmas eszköz (pl. videókamera)
    • egyéb, élettanilag nem alkalmas környezet megfigyelésére alkalmas eszköz (pl. tűzálló- és robbanásbiztos kamerák)
    • sugárzó jelek feldolgozására alkalmas eszköz (pl. PET)

Jelfeldolgozó egység (hardver-szoftver)[szerkesztés]

A folyamatban ez a hardver és szoftver együttese végzi a digitális képfeldolgozási és képelemzési folyamatot. A képfeldolgozás alatt ebben a folyamati láncban olyan komponenseket, részegységeket értünk, amelyek képből képi információt állítanak elő. Képfeldolgozás körébe tartozik egyebek között a videók kódolása, a színtér transzformációk végrehajtása, a képkivágás, a színszűrés, éldetektálás stb. Képelemzés alatt pedig olyan komponenseket értünk, amelyek képből nem képi jellegű adatok előállítását célozzák. Ide tartozik például a képi folt területének meghatározása, mozgáselemzés, mozgásiránybecslés, pozíció meghatározása, mélységbecslés, a jellemző pontok kinyerése, sajátértékek és vektorok kinyerése[8] stb.

Szoftverkomponens[szerkesztés]

A gépi látás folyamatának kulcs eleme, az összegyűjtött jeleket értelmező, kontextusba helyező és döntési logika, programkód, szoftver. A szoftverkomponensre vonatkozóan nincs általános megkötés, éppúgy lehet ez egy mély tanulást végző neurális háló, mint egy programozható elektronikus áramkörre vagy PLC-re írt döntési logika. Jellemző üzleti trend, hogy a képalkotó berendezést gyártó biztosít előre megírt, általános célú vagy az eszköz által megcélzott specifikus tevékenység ellátásához szükség programozó függvénykönyvtárat, segédprogramokat a felhasználók részére. Az elérhető, fontosabb szoftverkönyvtárak:

  • Gyártói, képalkotói berendezéshez kapcsolódó könyvtárak
    • Basler AG: pylon, Basler Microscopy Software
    • Cognex Corporation: In-Sight, Cognex Vision Library, VisionPro
    • Keyence: VisionTerminal
    • National Instruments: NI Vision Software
    • Omron Microscan: Visionscape Machine Vision Software
    • Opto Engineering: Fabimage és CVTOOLS
  • Gyártófüggetlen könyvtárak

Egyéb szoftvergyűjtemény elérhető [[1]].

Kommunikációs interfész[szerkesztés]

A döntés, értelmezés, felismerés eredményeképpen létrejövő eredmények közlésére vagy vezérlésre alkalmas hardver és/vagy szoftverkomponensek tartoznak ebbe a körbe.

A gépi látás piaca[szerkesztés]

A piac méretét 2016-ban 9.16 milliárd dollár értékűre becsülte a Grand View Research [9], akik évi 8,5%-os növekedéssel számolnak 2025-ig. Hasonló megállapításra jutott a Market Research Future 2017-ben (évi 8,18%-os növekedés 2022-ig)[10], a Stratistics Market Research Consulting (évi 8,9%-os növekedés 2022-ig)[11].

Piac legfontosabb szereplői [9][10][11]:

  • Adept Technology
  • Allied Vision
  • Basler AG
  • Baumer Optronic
  • Cognex
  • IDS Imaging
  • Intel
  • ISRA Vision
  • JAI
  • Keyence
  • Microscan
  • MVTEC Software
  • National Instrument
  • Omron
  • Optotune
  • Perceptron
  • Sony
  • Teledyne
  • Texas Instrument
  • USS Vision
  • Vitronic
  • ViDi Systems

Fordítás[szerkesztés]

  • Ez a szócikk részben vagy egészben a Machine vision című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Jegyzetek[szerkesztés]

Források[szerkesztés]

  1. Davies E.R.. Computer and Machine Vision: Theory, Algorithms, Practicalities, 4th, Elsevier (2012). ISBN 978-0-12-386908-1 
  2. szerk.: Hornberg A.: Handbook of Machine and Computer Vision: The Guide for Developers and Users, 2nd, Wiley (2017). ISBN 978-3-527-41339-3 
  3. szerk.: Critóbal G., Perrinet L., Keil M.: Biologically-inspired Computer Vision: Fundamentals and Applications. Wiley (2016). ISBN 978-3-527-41264-8 
  1. Dr. Rövid A., Dr. Vámossy Z., Dr. Sergyán Sz.. A gépi látás és képfeldolgozás párhuzamos modelljei és algoritmusai. Typotex (2014). ISBN 978-963-279-350-4 
  2. Kardkovács Zs.T., Dr. Kovács G., Sövény B., Paróczi Zs., Kozma G..szerk.: Kardkovács Zs.T.: Videotartalom-feldolgozás. U1 Research (2014). ISBN 978-963-12-1280-8