Optikai karakterfelismerés

A Wikipédiából, a szabad enciklopédiából

Az optikai karakterfelismerés (rövidítve OCR az angol optical character recognition szavakból) a számítástechnikában olyan eljárás, mely lehetővé teszi a fizikai hordozón (leggyakrabban papíron) szereplő analóg írás, szöveg digitális formába történő alakítását. Az átalakított szöveg ezután könnyen használható, feldolgozható számítógépes környezetben.

A karakterfelismerés a személyi számítógépeken szkennerek segítségével történik, speciális, erre a célra alkotott szoftverek végzik.

A felismerési folyamat részei:

  • az írás képének beolvasása (scanning);
  • a képen szereplő szövegblokkok, szövegsorok vizsgálata;
  • a blokkokban, sorokban szereplő betűk vagy betűpárok felismerése; és
  • a felismert szöveg ellenőrzése (például helyesírás- vagy nyelvtani ellenőrzés).

Ezen részek nem mindegyike kell, hogy szerepeljen egy OCR-programban, azonban mellőzésük rontja a felismerés hatékonyságát.