Beszédszintézis

A Wikipédiából, a szabad enciklopédiából

A beszédszintézis célja az, hogy mesterségesen hozzon létre beszélő emberi – vagy ahhoz a lehető legjobban hasonlító – hangot. Az első ilyen szerkezetet Kempelen Farkas konstruálta, melynek egy példánya ma a müncheni Deutsches Museumban tekinthető meg. Magyarországon az MTA Nyelvtudományi Intézetében is látható egy működő, rekonstruált változat Kempelen beszélő gépéből (2002-ből), valamint a rekonstruált gép hangja meghallgatható a magyarbeszed.tmit.bme.hu honlapon is az interaktív anyagok között.

Többféle eljárás létezik, ezek a leggyakrabban két fokozatban dolgoznak:

  1. az írott szöveget fonémákká alakítják;
  2. a fonémákat hangfeldolgozó eljárások segítségével – lehetőleg szakadásmentesen összeillesztve – valamilyen hangkeltő eszközön keresztül hanggá alakítják, például a hangképző szervek utánzásával vagy tárolt hangminták felhasználásával.

Megfontolások[szerkesztés | forrásszöveg szerkesztése]

  • Nem minden fonéma létezik minden nyelvben (pl ü nincs az angol nyelvben).
  • Egy írott szöveg lefordítása fonémákká nem triviális (például a hanglejtés miatt).
  • Egy írott szöveg fonémákká alakítása nyelv- és kontextusfüggő.

Programok[szerkesztés | forrásszöveg szerkesztése]

Felolvasók:

Hangos (angol) szótárak (és még más is. például concordance)

Magyar kutatás (az egyik):

A másik az MTA;

a harmadik:

  • a Speakboard (angol vagy magyar szöveget) felolvasó program

Kulcsszavak: voice portal, számítógépes nyelvészet, hangkódolás, prozódia, hangsúlyozás, nyelvfelismerés, Kempelen Farkas