Nyelvészet

A Wikipédiából, a szabad enciklopédiából
(Nyelvtudomány szócikkből átirányítva)

Általánosságban a nyelvészet az emberi nyelvekkel foglalkozó tudományág, és nyelvész az, aki ezt a tudományt műveli. A nyelvészet szerteágazó területét három fő szempont alapján szemlélhetjük:

  • Szinkronikus vagy diakronikus: az első típus a nyelvek jelenlegi formájával, míg a második a nyelvek múltjával, nyelvcsaládok alakulásával foglalkozik;
  • Elméleti vagy alkalmazott: az elméleti nyelvészet azon elvekkel foglalkozik, mely a nyelvek leírását, kialakulását írják le, vagy a nyelvek univerzális tulajdonságait vizsgálja, az alkalmazott nyelvészet pedig az adott nyelvek alkalmazását, működését tanulmányozza;
  • Kontextuális vagy független: (ezen kifejezések nem kialakult formák; az Encyclopædia Britannica például a „makrolingvisztika” és „mikrolingvisztika” kifejezéseket használja, analóg módon a közgazdaságtan „mikroökonómia” kifejezéséhez) az első megközelítés a nyelvet a világba illesztve vizsgálja: kapcsolatát a társadalommal, elsajátítását, használatát és alakulását; míg a független megközelítés a nyelvet saját magában, önállóan vizsgálja.

Az elméleti (vagy általános) nyelvészet (nyelvtan) területei[szerkesztés | forrásszöveg szerkesztése]

Az elméleti nyelvészetet gyakran számos jól ekülöníthető területre bontják, melyeket egymástól többnyire függetlenül is lehet vizsgálni. Az alábbi felosztás általánosan elfogadott:

  • fonetika: azaz beszédhangtan, a beszédhangokkal foglalkozó tudomány (fóné = hang);
  • fonológia: azaz nyelvi hangtan, a nyelv legkisebb egységeivel, a fonémákkal foglalkozó tudomány;
  • morfológia: azaz szóalaktan, a szavak belső szerkezetének, felépítésének tudománya: miként lesznek az egyszerűbb és bonyolultabb szóelemekből (morfémákból) szavak (morfé = alak);
  • szintaxis: magyarul mondattan, annak tudománya, hogy a szavakból hogyan építünk nyelvtani szerkezeteket, mondatokat (szün-tattó = összerak, alkot);
  • szemantika: a nyelvi jelentés tudománya (szémeion = jel);
  • pragmatika: a nyelvhasználat vizsgálata, azaz hogyan alkalmazzuk az egyes nyelvi megnyilatkozásokat a kommunikációs környezetben (kontextusokban) (praxisz = gyakorlat).

Ezek a szakterületek olykor átfedik egymást: például létezik morfofonológia, morfoszintaxis stb. A szemantika az összes jelentéses nyelvi elemmel foglalkozik, a morfémától a szintagmáig, sőt talán nagyobb szövegegységekkel is. Ettől eltekintve azonban mindegyik terület rendelkezik egy központi koncepcióval ami köré kutatása és tudományos vizsgálata csoportosul.

Történeti nyelvészet[szerkesztés | forrásszöveg szerkesztése]

A nyelvet diakrón szempontból vizsgálja, tehát azzal foglalkozik, hogy az idők során milyen változásokon ment keresztül az adott nyelv hangtana, alaktana, mondattana stb. Ehhez összehasonlító adatokat (rokon, szomszéd és egyéb nyelvek), valamint nyelvemlékes adatokat használ forrásként.

Alkalmazott nyelvészet[szerkesztés | forrásszöveg szerkesztése]

Az alkalmazott nyelvészet egyik szakága a nyelvfeldolgozás (Human Language Processing vagy HLT). Lényegében az emberi vagy természetes nyelvnek gépi (számítógépes eszközökkel való) feldolgozását jelenti. A feldolgozás vagy kutatás/alkalmazás témája vagy közelebbi célja a megrendelőtől függ. Főbb megrendelőnek számítanak az egyes nemzeti egyetemek és kutatóintézetek, a kormányok, nemzetközi hatalmi csoportosulások, az Európai Unió, az iparvállalatok stb.

A terület nem válik élesen el önálló ágakra, sok az átfedés a hasonló névvel jelölt tevékenységek vagy témák közös, kategória jellegű elnevezése között. További széles körű elnevezések e területről: nyelvtechnológia, természetes-nyelv feldolgozás (Natural Language Processing vagy NLP), illetve számítógépes nyelvészet (computational linguistics) stb.

A nyelvészet erőforrásait (például korpuszok, nyelvtanok, tudásleíró eszközök stb.), módszereit és eszközeit nem tudományos célra, hanem az adott terület saját célrendszere érvényesülésének támogatására használják. Érdekes ebből a szempontból az Európai Unió esete, amelynél az EU egyes programjainak alárendelve találhatók meg az alkalmazott nyelvészeti kutatások.

Alkalmazott nyelvészeti kutatások az EU kutatási központjában

Az Európai Unió Közös Kutatási Központot (Joint Research Centre vagy JRC) tart fenn a közösség kutatási céljainak érvényesítése érdekében. Ennek a központnak van egy olyan intézete, amelynek feladata, hogy például az állampolgárok védelme és biztonsága témában a megfelelő nevű intézetben (Institute for the Protection and Security of the Citizen vagy IPSC) a témába vágó kutatásokat irányítsa.

Szűkebb területet jelöl meg a nyelvtechnológiának a webtechnológiában való alkalmazása, amely a világhálón található szövegek feldolgozásával foglalkozik további, még mindig széles és általános bontásban a következő témákra koncentrálva:

Az EU már régen foglalkozik ezzel a témával, bár előtte az ez irányú kutatás és „tudomány” még más neveken szerepelt. Így érthető, hogy már saját (korábbi finanszírozásban megvalósított vagy megvásárolt) termékei vagy eszközei is vannak, amelyek külön szócikket érdemelnek.

A témáról bővebben itt lehet olvasni: http://www.lingforum.com

A nyelvtechnológia központ

Nyelvtechnológia központnak nevezik (HLTCentral) az interneten a beszéd- és nyelvtechnológia szakterületének lehetőségeit felvonultató tárházat, ahol a szakmát művelők ebből a témakörből, valamint a kapcsolódó területekről információkhoz juthatnak. Az oldalt két uniós finanszírozású projekt tartja fenn, az ELSENET és az EUROMAP.

A honlap az alábbi témák köré csoportosul: K+F, technológiai és üzleti fejlemények a beszéd, a nyelv, a többnyelvűség, a gépi (automatikus) fordítás és a lokalizáció területeiről az egész világról, de európai szemszögből.

A központ honlapja itt http://www.hltcentral.org/ található.

A 6. keretprogramban (F6) az e tudományágban 2006-ig folyó kutatásokra már évekkel ezelőtt kellett pályázni konkrét tudományos témákkal és tervekkel, azonban azoknak illeszkedniük kellett az EU információs társadalmi technológia (IST vagy Information Society Technology) célrendszeréhez, és azon belül a következők programpontoknak kellett megfelelniük:

IST-2002-2.3.1.7 – Szemantikai alapú tudásrendszerek (Semantic-based knowledge systems)

IST-2002-2.3.1.6 – Multimodális interfészek (Multimodal interfaces)

Nyelvtechnológiai eredmények az Egyesült Államokban

Az Egyesült Államokban az U.S. Commerce Department’s Technology Administration elnevezésű kormányszerv NIST néven futó ügynöksége foglalkozik a HLT terén elért eredmények értékelésével. Az Information Access Division (IAD) részleg rendelkezik egy Information Technology Laboratory nevű intézettel, amely a multimédiához és más komplex információkhoz hozzáférést biztosító, fejlett technológiákról méréseket és szabványokat ad közre.

Az IASD honlapon (itt: http://www.itl.nist.gov/iad/ ) A beszédfelismerés mérése és kiértékelés, a beszélő azonosítása, a beszélt nyelv megértése, az információ-keresés, visszakeresés és szűrés, a dokumentum megértés, összefoglalás, és az interaktív beszédmegértés témákkal foglalkoznak. Azonban az egyes termékek vagy szolgáltatások értékeléséhez, bírálatához segítségül hívják a szélesebb felhasználói közönséget, illetve a szakembereket, ezzel is elősegítve a területen működők kapcsolatát és összefogását. Évente meghirdetik, hogy milyen témákban van szükség értékelő munkára, kritikai véleményekre. 2005-ben és 2004-ben a következő alkalmazott nyelvészeti témakörök kerültek elő ezen a honlapon: http://www.nist.gov/speech/tests/summaries/index04.htm

Nyelvek közötti információszerzés, kivonatolás és összegzés (Translingual Information Detection Extraction and Summarization vagy TIDES) főcsoportban:

  • Gépi fordítás
  • Információszerzés
  • Téma kiderítés és témakövetés
  • Új esemény felfedezése
  • Link gyűjtés
  • Történettagolás
  • Több nyelvi áttételes információ visszakeresése
  • Nagy pontosságú dokumentum visszakeresése
  • Automatikus tartalom kivonatolása
  • Entitás beazonosítása
  • Kapcsolat/Viszony felismerése
  • Összegzés
  • Dokumentummegértési konferencia
  • Információ-gazdag átírás
  • Hatékony és megfizethető beszédfelvétel újrahasznosítás
  • Beszéd írássá való átalakítása
  • Meta-adatok kinyerése
  • Beszélők naplózása
  • Akadozott beszéd felismerése
  • Beszédhatár felismerése
  • Találkozókon folytatott felismerés
  • Beszéd írott szöveggé való átalakítása
  • Meta-adat kinyerése
  • Beszélő naplózása

Ezekről (például szöveg visszakeresése vagy a beszélő felismerése) konferenciákat és további ismertetőket is szerveznek, de az egész alkalmazott nyelvészeti kutatásügy lényegében az Egyesült Államok Védelmi Minisztériumának az ARDA (Advanced Research and Development Activity = ARDA) nevű fejlett K+F kutatási projektjébe tartozik, mivel az finanszírozza.

Alkalmazott nyelvészeti kutatások Magyarországon

A magyar kutatók több egyetemen is foglalkoznak alkalmazott nyelvészeti témákkal, de nem szükségszerűen a nyelvészeti oktatási (bölcsészkari) programokon belül.

Például a BME (Távközlési és Médiainformatikai Tanszék) a témákat a doktorandusz képzésben vezetik elő, ahol a kiindulási pont, a társadalmi igény az interneten keletkező információmennyiség hatékony kezelése, rendszerezése, lekérdezése és keresése. Feltételezve, hogy a nagy portálok [yahoo, google, origo stb.] hierarchikus kategóriarendszerekben tárolt és kikeresett dokumentumgyűjteményeit a felhasználói visszakeresés során a felhasználás szempontjai szerint hasonló strukturált szerkezetben kell tárolni, olyan módszerekre van szükség, amelyek ezt az előkeresett anyagot minél kevesebb ráfordítással lehetőleg automatikusan és természetesen minél kisebb hibával lehessen besorolni a (felhasználó szempontjából) megfelelő kategóriákba. Az egyik lehetséges módszer kategorizálási módszer hiánya esetén a dokumentumoknak valamilyen hasonlósági reláció alapján való csoportosítása, idegen szóval klaszterezése. (A dokumentumok természetesen nem csak szöveges adatok, hanem tetszőleges entitások, például képek, paraméterek stb. is lehetnek)

A praktikus alkalmazás területei magukba foglalják a többnyelvű dokumentum-osztályozási feladatokat (multi-lingual categorization); képek megfelelő feldolgozását és osztályozását, az orvosi diagnosztizáló, döntéstámogató rendszer kidolgozását ismert kórismék és kórtörténetek alapján; többnyelvű tematikus glosszáriumok automatikus készítése stb.) témákat.

Tipikus témák:

  • Dokumentumgyűjtemények automatikus osztályozása, erre szolgáló algoritmusok
  • Mintafelismerési algoritmusok alkalmazása képek osztályozására.
  • Számítógépes nyelvtechnológia módszerek alkalmazása szöveges dokumentumok hatékonyabb feldolgozására
  • Orvosi diagnosztizáló-döntéstámogató rendszer ismert kórismék és kórtörténetek alapján

Ugyanazon a BME tanszéken Olaszy Gábor és Németh Géza foglalkozik a beszédfelismeréssel, szintetikus magyar beszédgenerálással, illetve írott szövegből hangzó beszéd generálásával. (Ugyanezzel a témával az MTA egyik intézete is foglalkozik.)

A különböző beszélő ill. beszéddel vezérelt alkalmazások (e-levél és SMS felolvasás, automatizált tudakozó stb.) képezi it az alkalmazott nyelvészet tárgyát. Különösen és konkrétan foglalkoznak a beszédtechnológiai technológiák, keretrendszerek és felhasználói felületek felmérésével és elemzésével különös tekintettel a nyelvfüggési és mobil technológiai szempontokra, foglalkoznak keretrendszerek és felhasználói felületek továbbfejlesztésével és implementálásával, illetve interdiszciplináris megközelítésű, újszerű minta és tesztrendszerek tervezésével és megvalósításával, valamint felhasználó orientált értékelésével.

További kutatási téma a beszédkeltési eljárásokban egyre növekvő szerepet kaptak a nagy mennyiségű természetes beszédből álló adatbázis címkézésére, feldolgozására és az így kialakított elemek összefűzésére építő módszerek. Ennek viszonylag nagy -de kötött- szókészletű alkalmazási területeken (például időjárásjelentés, menetrend) van az elsődleges alkalmazási területe. Azonban egyre több esetben merül fel ezen technikák alkalmazása kötetlen szókészletű szövegfelolvasó rendszerekben is.

E témákhoz a szó- vagy mondat alapú beszédkeltési módszerek vizsgálata, kritikai elemzése és megvalósítása szükséges a fenti tanszéken fejlesztett Profivox TTS rendszerkörnyezetben. A fenti kutatási témában ismerni kell a korpusz alapú adatbázis módszereket és a Profivox rendszert. A kutatás konkrétan adott személy spektrális és prozódia jellemzőinek vizsgálatára irányul, változó beszédprofilok kialakítása céljából. (v.ö. fent a beszélő felismerés témával)

Olaszy Gábor publikációi: http://fonetika.nytud.hu/og/publist_hu.htm

Az alkalmazott nyelvész „profilja”

A fenti IST témában 1999-ben újabb magyar cég, a Morphologic nyerte el, a Recognita és a Cygron Kft. után a harmadik, a kitüntető IST díjat.

Az alkalmazott nyelvészet művelőinek alapképzettsége vagy nyelvészeten kívüli szakterülete rendszerint matematika, számítástechnika, könyvtár- vagy információtudomány, illetve gyakori a villamosmérnöki vagy egyéb műszaki háttérrel ide érkező szakember.

A témába vágó irodalomból:

Intelligens szövegkezelés számítógéppel: http://www.szakkonyv.hu/konyv.php?i=6236

Az EU terminológia magyarításának vitafóruma, a HUTERM Az EU 2005-ben mintegy 500 magyar nyelvészt alkalmazott közvetve vagy közvetlenül. A fordítók, jogász-nyelvészek, tolmácsok és korrektorok valamint célközönségük: az EU-szakétők, kormányzati döntéshozók, EP-képviselők, újságírók és újságolvasók 2003 óta internetes fórumon vitatják meg egymással terminológiai problémáikat, közösen keresik az új EU-terminusok legtalálóbb magyar megfelelőit. A fórum címe: http://groups.yahoo.com/group/HUterm/ Az EU fordítói és tolmácsai a http://www.huterm.com honlapon helyezik el a munkájukhoz fontos nyilvános nyelvészeti erőforrásokat.

Kontextuális nyelvészet[szerkesztés | forrásszöveg szerkesztése]

Kontextuális nyelvészetnek azt a tudományt nevezzük, ahol a nyelvészet kölcsönhatásban áll egyéb akadémiai tudománnyal. Ehhez képest az elméleti nyelvészetben a nyelvet magáért a nyelvért tanulmányozzák. Az ún. interdiszciplináris nyelvészeti területeken azt vizsgálják, hogy a nyelv hogyan lép kölcsönhatásba a világgal. Az olyan társadalomtudományok, mint szociolingvisztika, antropológiai nyelvészet és nyelvészeti antropológia a társadalom és a beszédtevékenység közötti kapcsolatot tanulmányozzák.

A kritikus diszkurzus elemzés tudományánál a retorika és a filozófia kapcsolatban áll a nyelvészettel.

A pszicholingvisztika és a neurolingvisztika ötvözi az orvostudományt és nyelvészetet.

A nyelvészet egyéb tudományközi területei közé tartozik a nyelvelsajátítás, fejlődéstani nyelvészet, komputációs nyelvészet és a kognitív tudomány.

Egyedi beszélők és nyelvi közösségek[szerkesztés | forrásszöveg szerkesztése]

Valójában, és ez könnyen belátható, mindenki más nyelvet beszél, hiszen a nyelvelsajátítás egyénileg történik, a világról alkotott képzetek és az ezekhez kapcsolódó nyelvi jelentések az illető beszélő nyelvi és egyéb tapasztalataitól, illetve készségeitől függenek. A nyelv mégis kizárólag közösségben létezik, mégpedig az egymással nyelvi kommunikációt folytatni képes beszélők közösségeiben.

Leíró és előíró nyelvtanok[szerkesztés | forrásszöveg szerkesztése]

Leíró (deskriptív) nyelvész, aki a nyelvi jelenségeket megpróbálja mások számára is érthetően leírni. Előíró (preskriptív) az, aki a megpróbálja megmondani, hogyan kell helyesen beszélni.

Beszéd vagy írás[szerkesztés | forrásszöveg szerkesztése]

A beszélt nyelv az elsődleges az írott nyelvvel szemben, azonban egyik sem fölérendeltje a másiknak. A beszélt nyelv általános jellemzői: 1. Hangzó formában valósul meg. 2. Általában előkészítés nélkül történik. 3. Egyszeri, időhöz kötött. 4. Nagymértékben függ a beszédhelyzettől. 5. Szupraszegmentális összetevőkre támaszkodik. 6. Gyakrabban informális mint formális. 7. Változékonyabb, mint az írott nyelv, normája nem merev.

A nyelvészeti kutatás területei[szerkesztés | forrásszöveg szerkesztése]

Interdiszciplináris nyelvészeti kutatások[szerkesztés | forrásszöveg szerkesztése]

Jelentős nyelvészek és irányzatok[szerkesztés | forrásszöveg szerkesztése]

A beszéd reprezentációja[szerkesztés | forrásszöveg szerkesztése]

A nyelvészet szűkebb értelmezése[szerkesztés | forrásszöveg szerkesztése]

Lásd még[szerkesztés | forrásszöveg szerkesztése]

Miskolci Egyetem Alkalmazott Nyelvészeti Tanszék

Pannon Egyetem, Veszprém, Germanisztikai Intézet

Irodalomjegyzék[szerkesztés | forrásszöveg szerkesztése]

Külső hivatkozások[szerkesztés | forrásszöveg szerkesztése]