Ugrás a tartalomhoz

Beszédérzékelés

A Wikipédiából, a szabad enciklopédiából

A Beszédérzékelés az a folyamat, amely során a nyelv hangjait, hangkapcsolatait értelmezzük és megértjük. A beszédpercepció kutatási területei arra irányulnak, hogy megértsük, miképp vagyunk képesek a beszédhangokat feldolgozni és megérteni, és ezt hogyan használjuk fel a beszélt nyelvben. Az alkalmazási és kutatási területek közé tartozik például a számítógépes rendszerek fejlesztése, amelyek felismerik a beszédet, ezen kívül segíthet a siketeknek és a nagyothallóknak, és azoknak, akik az idegen nyelveket tanulják. A beszédhangok feldolgozása leginkább az agy bal oldali területét érinti.

Alapismeretek, alapfogalmak[szerkesztés]

A beszédfolyamatoknak két lényeges összetevője van. Az egyik a beszédprodukció, mely azt a képességet jelenti, ahogy képezzük a hangokat, és kialakul maga a beszéd; a másik a beszédértés, mely ezen produkció megértését jelenti.

A beszéd kisebb elemekből épül fel:

  1. Beszédhang: a beszéddel kapcsolatos akusztikai információ (Csépe, 2007, 353. o.),
  2. Fonéma: az általános tulajdonságok alapján azonosnak észlelt beszédhangok mentális reprezentációja (Csépe, 2007, 353. o.).

A beszédhangok képzése[szerkesztés]

A beszédképzés legfontosabb elemei a tüdő (és az abból kiáramló levegő), a gége, a hangszalagok, és az ezek által körülvett hangrés, valamint a száj- és orrüreg. Az alaphangot a zönge létrehozása adja meg, ezt a hangot tovább formálják a hangszalagok, a hangrés, valamint a száj- és orrüregben található részek.

A beszédhangok csoportosítása[szerkesztés]

Minden hangnak a képzés során különböző speciális spektrális szerkezete lesz, más szóval bizonyos frekvenciái lesznek a képzett hangoknak. Az artikulációs csatorna működése révén létrejövő módosult felharmonikusokat a beszédhangok esetében formánsoknak nevezzük (Csépe, Győri, Ragó, 2007, 385. o.). A különböző nyelvekben nagyon sok beszédhangot használnak, ezek száma akár 140 körül is lehet (Gosy, 2004). Képzésük szerint megkülönböztetünk magánhangzókat és mássalhangzókat.

Akusztikai jellemzők[szerkesztés]

Egy mondat a spektrogramm szerkezeten:
„I owe you” (tartozom neked).
Nincs egyértelműen megkülönböztethető határok között a beszédhang.

A hangok akusztikai jellemzőit a spektrogramm nevű szerkezettel lehet legjobban szemléltetni. A spektrogramm megmutatja az akusztikus energia mennyiségét a különböző frekvenciákon az idő függvényében. A spektrogrammon a frekvenciák változásait követhetjük nyomon, ezeket formánsátmeneteknek nevezzük; ezek a beszédképző szervek változásait jelentik.

A beszédhangok észlelése[szerkesztés]

Az észlelési folyamatnál először a nyelvi kódokat dolgozzuk fel, majd ezeket a kódokat fel kell „törnünk” és a lényeges információt ki kell kiszűrnünk, értelmeznünk kell. El kell különítenünk a beszédhangokat, a fonémákat az egyéb környezeti hangoktól. A beszédnek általában külön ritmusa, periódusa és frekvenciatartománya van, így könnyebb felismerni, ha beszélnek hozzánk.

A beszéd észlelése során dekódolás zajlik, és létezik egy speciális beszédmód, amely kizárólag a beszédhangok feldolgozását valósítja meg (Csépe és munkatársai, 2007, 385. o.). Ennek igazolására többféle kísérletet is végeztek, például Remez és munkatársai 1981-ben. A szinuszhullámú beszédet használták ingerként, ami azt jelenti, hogy egy adott beszédhang első három formánsát, és ezek amplitúdó- és frekvenciaváltozásait vizsgálták, majd ezeket szintetizálják szinuszhullámok segítségével, a változtatások megtartásával. Ezeket kellett a kísérleti személyeknek detektálniuk, hogy zajt hallanak, vagy egy beszédhangot. A mintafelismeréshez hasonlóan, ha a kísérleti személyek egy előzetes tudás birtokában voltak, tehát előre megmondták nekik, hogy zajt, vagy beszédhangot fognak hallani, leginkább azt hallották, amit előzetesen mondtak nekik.

A környezetnek is fontos szerepe van a beszédérzékelésben, mint ahogy a látás során is. Több kísérlet is bizonyította, hogy a látást jelző mozzanatok hatással vannak arra, amit éppen hallunk (McGurk és McDonald, 1976, Summerfeld, 1975). A látás útján is hozzájutunk olyan információkhoz, amelyek kiegészítik a hallásról kapott információinkat. Ilyen például a szájmozgás is. A kb. 18-20 hetes csecsemők is képesek felismerni, hogy a hallás és a látás kapcsolatban van egymással (Kuhl és Meltzhogg, 1982). Ezen kívül fontos még a megértéshez a hanglejtés és a hangsúlyozás szerepe is.

Az akusztikai-fonetikai varianciaprobléma[szerkesztés]

A fonéma egy olyan absztrakt nyelvi jelenség, amelynek önmagában nincs jelentése, de megváltoztathatja a szavak jelentését. Ebből azt a következtetést szűrhetjük le, hogy a beszédhangok és a fonémák megegyeznek, de vannak olyan jelenségek, amelyek ezt a nézetet cáfolják (például Liberman és munkatársainak kísérletei, 1954). Ezt a megfeleltetési problémát akusztikai-fonetikai invarienciaproblémának nevezzük (Klatt, 1979).

Az első jelenség a beszédhangok gyorsasága. Egyes vizsgálatok szerint 30 fonéma/másodperc beszédtempó mellett képesek vagyunk megérteni a beszédet, de ha nem beszéd jellegű hangokat mutattak a kísérleti személyeknek ugyanilyen sebességgel, akkor ezeket képtelenek felismerni és külön zajokra bontani, megnevezni, hogy valójában mit hallanak. A hallórendszer tehát a beszéd gyorsaságát képes érzékelni, egyéb zajok közt nem tud különbséget tenni.

A második jelenség az, hogy egy adott fonéma akusztikai jellemzői függenek attól, hogy milyen magánhangzó, vagy mássalhangzó előtt, vagy mögött állnak. Például a /d/ fonéma megváltoztatja a frekvenciatartományát aszerint, hogy utána /u/, vagy /i/ áll. Magát a /d/ hangot mindkét esetben ugyanolyannak halljuk, de a spektrogrammal kimutatható az akusztikai különbség. Ezt a jelenséget kontextusfüggő átszerveződésnek, vagy koartikulációnak nevezzük. Ez a jelenség azért alakul ki, mert a beszédképző szerveinket, nem tudjuk teljesen átvinni egyik helyzetből a másikba. A hang ejtése és képzése is másképpen alakul, ha csak önmagában ejtjük ki a hangot, vagy egy kimondott kontextusban, ezért nagy különbségek lehetnek a beszédhangok között. Mivel a beszédképző szervek is egyediek, ezért a beszélő is nagyban meghatározza a beszéd akusztikai jellemzőit.

A harmadik probléma, hogy az egyes hangok között nincs határ, átmenet, ha egymás után ejtjük ki őket. Például a /ni/ szótagból megpróbáljuk kivonni az /n/ hangot, akkor maga a mássalhangzó ott van ugyan, de önmagában az /n/ hangot csak akkor tudjuk kimondani, ha egy magánhangzót is elé teszünk. Ezt nevezzük szegmentációs problémának.

A kategoriális percepció[szerkesztés]

Az ember általában sokkal több hangot meg tud különböztetni, mint ahányat azonosítani. Egy adott fonémával azonosítható sokféle, eltérő akusztikai tulajdonságoknak a kategórián belüli akusztikai eltéréseit nem tudjuk diszkriminálni (Csépe és munkatársai, 2007, 371. o.). A kategoriális felismerést csak beszédhangoknál találjuk meg, és ez alapján kötjük össze a fonémakategóriákat és a beszédhangokat.

Elméletek[szerkesztés]

A Motoros elmélet[szerkesztés]

Ez az elmélet Alvin Libermanhoz és munkatársaihoz kötődik, amelyeket a Haskins Laboratóriumban végeztek el. Az elmélet szerint a /di/ és a /du/ szótag elejét azért halljuk ugyanolyannak, mert ezek képzésekor ugyanolyan motoros parancsot adunk a beszédképző szerveinknek. Itt az akaratlagos képzés lényeges, hiszen a fonémák, amelyek bár eltérő akusztikai jellemzőkkel bírnak, mégis egyformáknak tűnnek. A beszédészlelés során erre a szándékra próbálunk következtetni. A motoros elmélet ellen rengeteg kritika fogalmazódott meg (Gosy, 2005), például, hogy a gyermekek – és általában egy idegen nyelv tanulásánál is a későbbiekben - előbb megértik a beszédet, és utána kezdenek el beszélni.

Megkülönböztető jegyek elmélete - vonásdetekció[szerkesztés]

Ez az elmélet Peter Eimashoz és John Corbithoz köthető. Elektronikus beszédszintetizátorral előállították a /b/, /p/, /t/ és /d/ hangokat. Ezek közül voltak olyan hangok, amelyek nem tisztán hallatszottak, például egyszer inkább /t/-nek, mint /d/-nek. A kísérleti személyek percekig a jól hallható /d/-t hallgatták, majd a kevésbé megkülönböztethető hangot, ami /t/, vagy /d/ lehetett. Ezt a hangot sokkal inkább /t/-nek hallották mint /d/-nek, ezért a kísérletvezetők arra következtettek, hogy a /d/ hang sokszori ismétlése kifárasztotta az adott hang megkülönböztető vonásaira érzékeny detektorokat. Az adaptáció után a kevesebbet hallott hang nagyobb aktivitást váltott ki az agyban. Tehát ez azt jelenti, hogy léteznek beszédhangokra érzékeny vonásdetektorok (Sekuler & Blake, 2000). Ez a jelenség hasonló a látásnál tapasztalt adaptációhoz. Azonban a vonásdetekcióval sem magyarázható a beszédérzékelés minden aspektusa.

Fordítás[szerkesztés]

  • Ez a szócikk részben vagy egészben a Speech perception című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Források[szerkesztés]

Kapcsolódó szócikkek[szerkesztés]