TRACE

A Wikipédiából, a szabad enciklopédiából

A TRACE a beszédészlelés konnekcionista modelljei közé tartozik, melyet James McClelland és Jeffrey Elman dolgoztak ki 1986-ban.[1] Feladata, hogy egy működő számítógépes program részeként észlelési szimulációkat valósítson meg, melyek alapján előfeltételezések hozhatók létre az emberi agy - valós idejű - beszéd-, hang-, és szó-feldolgozására vonatkozóan.

Inspirációk[szerkesztés | forrásszöveg szerkesztése]

A TRACE modell a konnekcionizmus feltörekvő periódusában keletkezett, és külön fejezetként a „Parallel Distributed Processing: Explorations in the Microstructures of Cognition” című műben is helyet kapott.[2] A modellt létrehozó, illetve támogató kutatók szerint a beszédészlelésre vonatkozó problémák jó része megfogalmazható egy interaktív konnekcionista modell értelmezésében. Ezen legfőbb problémák, hogy (1) a beszéd időben kiterjedő, (2) a beszédhangok (fonémák) átfednek egymással, (3) a beszédhangok artikulációját befolyásolják az adott hang előtt jövő, és az adott hang után következő hangok (koartikuláció), és, hogy (4) természetes egyéni változatosság figyelhető meg adott nyelven belüli beszédek között (pl. külföldi akcentus), ugyanúgy, ahogy emellett a környezetből jövő zaj is jelen van. Ezek mindegyike összetett és bizonytalan jellé teszi a beszédet, ezzel is megnehezítve az emberi agy számára a döntést arról, mely szót is hallotta valójában.

A TRACE működése[szerkesztés | forrásszöveg szerkesztése]

A TRACE modell tulajdonképpen egy konnekcionista hálózatként (neurális hálóként) értelmezi a beszédfeldolgozás folyamatát, egy bejövő szinttel és három feldolgozási szinttel, melyek az (1.) ál-spektrum szint (alkotóelemek), a (2.) fonéma szint, és a (3.) szó szint. Három típusú kapcsolat lehetséges ezen szintek között, illetve azokon belül: (1) feedforward kapcsolat – előrecsatolásos - kapcsolat, mely serkentő jellegű, és az input felől érkezik az alkotóelemek-, az alkotóelemek felől a fonémák-, és a fonémák felől a szavak-felé; (2) oldalági (szinteken belüli) gátló kapcsolatok, mind az alkotóelemek, mind a fonémák, és a szavak szintjén; és (3) felülről lefele (top-down) feedback – visszacsatolásos - serkentő kapcsolatok a szavak szintje felől a fonémák szintje felé. Ez az oda-vissza jellegű kapcsolatrendszer adja a modell interaktivitását.[3]

A TRACE bejövő ingere a felhasználó által biztosított fonéma szekvencia, melyet a program egy többdimenziós alkotóelem vektorrá konvertál, és így egyfajta közelítését adja az valóságbeli akusztikus spektrum időbeli kiterjedtségének. Az input vektor adott pillanatban csak kevés információt biztosít, majd bemutatásra kerülnek újabb és újabb alkotóelemek, melyek egyenként küldenek aktivációt a hálózati kapcsolathoz, ezzel módosítva a feldolgozási szinteken lévő kapcsolatok értékét/paramétereit(súlyozás). Az alkotóelemek aktiválják a fonéma elemeket, a fonéma elemek pedig a szó elemeket. A paraméterek meghatározzák a serkentő és gátló kapcsolatokat, ahogyan egyéb más feldolgozási részleteket is. Nincs olyan specifikus mechanizmus, amely meghatározza, hogy egy fonéma vagy szó felismerésre került. Amikor a szimulációk észlelési kísérletből származó reakcióidő adatokkal (pl. lexikális döntési feladatok) kerülnek összevetésre, általában aktivációs küszöböt használnak, mely megengedi a modellnek, hogy felismerésszerűen viselkedjen, és a felismerés idejét így a feldolgozási ciklusok számából ki lehessen számítani. A modellben a versengés célja tehát egy adott aktivációs küszöb elérése, mely aktivációs mintázat adja a felismeréssel párhuzamba állítható eredményt.[3]

Jelentősége[szerkesztés | forrásszöveg szerkesztése]

A beszédészlelés szimulációja a művileg előállított beszéd TRACE programnak való bemutatását, a program futtatását, valamint az eredmények létrehozását foglalja magába. Az eredmény akkor számít sikeresnek, ha a keletkező „jelentés” hasonlít az emberi beszédfeldolgozás eredményéhez.

Analogikus példával élve, egy alapanyag piac modellje szemléltetheti, hogyan is működik maga a piac. Ha ez a modell egy számítógépes program részeként egy éves előrejelzést generál a piac forgalmáról, máris van egy tesztelhető előfeltételezés. Ha ez az előfeltételezés a későbbiekben pontosnak bizonyul, a modell használható elgondolásnak minősül a piac működésére vonatkozóan. A TRACE ugyanilyen elven alapul, annyi különbséggel, hogy az érdekeltsége az emberi beszédészlelés.

A szófelismerés idői folyamata[szerkesztés | forrásszöveg szerkesztése]

A pszicholingvisztikában elfogadott elgondolás, hogy (1) egy hallott szó kezdetekor a megegyező kezdő hangokkal rendelkező szókészlet aktiválódik a memóriában [4], (2) az aktiválódott szavak versengenek egymással, miközben a szó egyre több részére derül fény,[5] (3) végül pedig, mind a hallási bejövő ingereknek, mind a lexikális versengésnek köszönhetően, egy szó kerül felismerésre (lásd még: Kohort-modell).

Például, a hallgató hallja a ’macska’, szó kezdetét, és a ’macska’, ’madár’, ’mackó’, ’maki’, stb. szavak aktívak lesznek a memóriában. Ezután, már csak a ’macska’, és ’mackó’ szavak maradnak versenyben, a többi eltűnik, mivel a soron következő fonémák már nem egyeznek az inputtal. Nem sokkal később, a ’macska’ szó felismerésre kerül. A TRACE a beszéd idői dimenzióját reprezentálva szimulálja ezt a folyamatot, lehetővé téve, hogy a lexikonban szereplő szavak eltérő aktiváció-erősséggel rendelkezzenek, és ezáltal versenghessenek a feldolgozás folyamán.

A lexikális tudás hatása a fonémapercepcióra[szerkesztés | forrásszöveg szerkesztése]

Amikor egy bizonytalan beszédhang kerül kimondásra, ami pontosan a /t/ és /d/ hang között van, a hallgatónak nehézségei akadhatnak annak eldöntésével, melyik hangot is hallotta. Azonban, amikor ugyanennek a bizonytalan hangról a ’bo/?/’ szót hallva (melyben a /?/ az adott hangot szimbolizálja) kell dönteni, a hallgató hajlamosabb az adott hangot /t/-ként hallani. Ez azért lehetséges, mivel a ’bot’ egy valódi szó, míg a ’bod’ nem az. Egy bizonytalan fonéma lexikális kontextusban való bemutatásakor a fonéma észlelete konzisztens lesz az adott lexikális kontextussal, mely észlelési hatás a Ganong effektus nevet viseli.[6] A TRACE modell megbízhatóan szimulálja és relatíve egyszerűen képes magyarázni ezt az effektust. Lényegében, a bejövő inger által aktivált lexikális egység (pl. bot) visszajelez az aktivációról a fonéma szintnek, ezzel serkentve az alkotóelemek aktivációját (pl /t/), ezáltal megoldva a bizonytalanságot.

A szegmentáció lexikai alapjai[szerkesztés | forrásszöveg szerkesztése]

A beszélők általában nem tartanak szünetet a szavak között, amikor egy mondatot mondanak, az őket hallgatóknak azonban mégsem okoz nehézséget a mondatokat szavak szekvenciájaként érteni. Ez a probléma a szegmentáció problémájaként ismert, és egyike a nyelv pszichológiája legrégebbi problémáinak. A TRACE modell erre a következő megoldással szolgál. Amikor a szavak aktívvá, majd felismertté válnak, a szavak határvonalaira is fény derül. Az erősebb aktiváció nagyobb bizonyosságot szolgáltat a határokról, amely a hallgatót a következő szó kezdetének helyéről informálja.[1] Azaz, ismételten a visszacsatoláson alapuló kapcsolatrendszert használja a modell a feldolgozás irányítására.

Kritikák[szerkesztés | forrásszöveg szerkesztése]

Elme-modularitás vita[szerkesztés | forrásszöveg szerkesztése]

A TRACE modell modularitás vitában betöltött szerepére James McQueen, Anne Cutler és Danis Norris hívta fel a figyelmet beszédfúziós modelljük (2001) révén.[7] A modell számos részében osztozik a TRACE modellel, azonban egy kulcskülönbség van. Amíg a TRACE modell megengedi a szó elemeknek a visszacsatolás mechanizmusát a fonémaszint felé, a fúziós modell korlátozza ezek feldolgozását az előrecsatolásos kapcsolatokban. A vita szemszögéből, a TRACE modell megsérti a magában foglaltság, enkapszuláltság elvét, mely a modularitás egyik fő irányelve, azzal, hogy megengedi, hogy a feldolgozás magasabb szintje felől információ jusson el a feldolgozás alacsonyabb szintjei felé.

Alkalmazási lehetőségek[szerkesztés | forrásszöveg szerkesztése]

Beszéd és nyelvterápia[szerkesztés | forrásszöveg szerkesztése]

A nyelvfeldolgozás modelljei segíthetnek megérteni a sérülések természetét beszéd- és nyelvi zavarokkal élő embereknél. Például Broca afázia esetén, egyes feltételezések szerint, a lexikális egységek közötti túlzott versengés, ezáltal a szavak elégséges aktivációjának hiánya, elmaradása tehető felelőssé a nyelvi zavarért.[8] Az e hipotézis mellett szóló érvek úgy tartják, hogy a mentális diszfunkciók leírhatóak a nyelvi rendszer csökkent feldolgozó képességével. Egyre több kutatás foglalkozik e problémával, melyek eredményeképpen használható modellek mellett a TRACE egy a sok közül.

Fordítás[szerkesztés | forrásszöveg szerkesztése]

Ez a szócikk részben vagy egészben a Trace (psycholinguistics) című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel.

Források[szerkesztés | forrásszöveg szerkesztése]

  1. ^ a b McClelland, J.L., & Elman, J.L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1-86.
  2. McClelland, J.L., D.E. Rumelhart and the PDP Research Group (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 2: Psychological and Biological Models, Cambridge, MA: MIT Press
  3. ^ a b Honbolygó, F. (2008) Beszédészlelés, mentális lexikon, beszédmegértés, beszédprodukció. In: Csépe, V., Győri, M., Ragó, A. (szerk.) Általános Pszichológia 3. Nyelv, tudat, gondolkodás. Osiris, Budapest
  4. Marslen-Wilson, W., & Tyler, L. K. (1980). The temporal structure of spoken language understanding. Cognition, 8, 1-71.
  5. Luce, P. A., & Pisoni, D. B. (1998). Recognizing spoken words: The neighborhood activation model. Ear and Hearing, 19, 1-36.
  6. Ganong, W. F. (1980). Phonetic categorization in auditory perception. Journal of Experimental Psychology: Human Perception and Performance, 6, 110–125.
  7. Norris, D., McQueen, J. M., & Cutler, A. (2000). Merging information in speech recognition: Feedback is never necessary. Behavioural and Brain Sciences, 23, 299-370.
  8. Self-organizing dynamics of lexical access in normals and aphasics. McNellis, Mark G.; Blumstein, Sheila E.; Journal of Cognitive Neuroscience, Vol 13(2), Feb 2001. pp. 151-170.