Korpusznyelvészet

A Wikipédiából, a szabad enciklopédiából

Korpusznyelvészetnek nevezünk minden olyan nyelvészeti tevékenységet, mely korpuszokkal, azok vizsgálatával és tanulmányozásával foglalkozik. Szakszóként a kifejezést 1984-től, Jan Aarts és Willem Meijs (szerk.) megegyező című tanulmánykötetének[1] megjelenése óta használják.

A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Emellett pedig feltünteti a szavak mellett szófaji kódjukat is.” (MTA, Nyelvtudományi Intézet, Korpusznyelvészeti Osztály) [2]

A korpusznyelvészet gyakorlatilag minden más nyelvészeti területtel összefonódik, hiszen az empirikus vizsgálatokhoz elengedhetetlen a valós nyelvi adatok vizsgálata. Az ezekből álló korpuszokat rengetegféle szempontból lehet tanulmányozni. Így nyelvészek foglalkoznak a korpuszok létrehozásával, kialakításával és felépítésével is, de a lexikográfusoktól a szociolingvistákig minden terület szakértőinek értékes gyűjtemények és munkaterületek lehetnek ezek.

Tom McArthur meghatározásában a korpusz és a korpusznyelvészet: „…A nyelvészetben és lexikográfiában az általában elektronikus adatbázisként tárolt, egy adott nyelvre többé-kevésbé reprezentatívnak tekinthető írott szövegek, szóbeli közlések vagy egyéb minták gyűjteménye. Jelenleg a számítógépes korpusz több millió szót tárolhat, amelyek tulajdonságait címkézéssel (…), valamint konkordancia programok segítségével elemezhetik. A korpusznyelvészet az adatok ilyen korpuszban való tanulmányozását végzi.” (1992: 265–266, ford. Szirmai Mónika [3])

Ahogy az utóbbi meghatározásból is látszik, a korpuszok ma már gyakorlatilag kizárólag elektronikus formában léteznek, hiszen a számítógépek megjelenése és memóriájuk folyamatos bővülése lehetővé teszi, hogy rövid idő alatt addig elképzelhetetlen mennyiségű nyelvi adatot kezeljenek és elemezzenek. Az első elektronikus korpusz, amely később más korpuszok mintájául is szolgált, az 1961-es, Henry Kucera és W. Nelson Francis nevéhez fűződő Brown Corpus volt.[4] Szintén a számítógép és az internet elterjedésének köszönhető, hogy egyre több spontán korpusz is létrejön, amely később érdekes nyelvészeti vizsgálatoknak lehet az alapja. Ilyen korpuszok lehetnek pl. a tanári értékeléseket összegyűjtő RateMyProfessors.com [5], vagy a különböző dalszövegeket tartalmazó Songtext.com [6]. (A RateMyProfessors korpusz alapú vizsgálatát Karen M. Gregory, a Songtext dalszövegeinek elemzését Valentin Werner végezte.)

A korpusz létrehozása[szerkesztés | forrásszöveg szerkesztése]

A korpuszok létrehozásakor elsődleges szempont, hogy az adott korpusz reprezentatív legyen, ezáltal alkalmas a munkára és a nyelvészeti elemzésre. Ennek érdekében el kell dönteni, hogy pontosan milyen és mennyi nyelvi adat szerepeljen a korpuszban – például nem lehet, vagy csak nagyon nehezen, az összes dalszöveget vizsgálni, a keresést le kell szűkíteni, pontosan meg kell határozni, hogy miért és milyen szövegek fogják a vizsgálat tárgyát képezni. A nyelvvel általánosabban foglalkozó korpuszok célja a kiegyensúlyozottság, ahhoz híven megjeleníteni és olyan mennyiségben, megoszlásban felvenni a nyelvi adatokat, ahogyan a mindennapi életben a nyelvet használjuk – vagy történeti korpusz esetén, ahogy a nyelvet adott időpontban, időintervallumban használták adott (ilyen történeti korpusz például a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán készített Magyar Történeti Szövegtár). A reprezentatív korpusz létrehozása érdekében nagyon fontos tehát a pontos cél meghatározása és a megfelelő mintavétel is. Ami a korpuszba tartozó nyelvi adatok kiválasztásának konkrét művelete. Az így létrehozott korpuszok méretét általában a bennük szereplő szavak számával adják meg. Egy általános nyelvi korpusz esetén nagyon fontos ez az adat, hiszen szorosan összefügg a reprezentativitással, hogy a használt nyelvnek mekkora szegmensét sikerül a korpuszba beleépíteni. így jönnek létre az olyan, például szótárírásra használható hatalmas korpuszok, mint a COBUILD (Collins Birmingham University International Language Databank), amely jelenleg 2 és fél milliárd szót tartalmaz. Ugyanakkor értékes és más típusú vizsgálatokra kitűnően alkalmasak a kisebb korpuszok is, így például az írói, költői szótárak készítésekor mindig az adott író, költő életműve alkotja a korpuszt. (Összehasonlításképpen: Gárdonyi Géza: Egri csillagok című műve összesen kb. 135 000 szóból áll [7].)

A korpuszban szereplő szavak számának megadásakor az összes szót számolja a számítógép, például „A virág a széken van.” mondat ebben az esetben 5 szóból állónak tekintendő. Ezeket a szóközzel határolt szavakat a magyar szakirodalom példánynak (token) nevezi. Ugyanakkor, ha az ebben a mondatban kétszer szereplő szót nem szeretnénk külön számolni, azt szeretnénk megtudni, hogy összesen hány különböző szó szerepel a korpuszban, úgy erre is van lehetőség. Ebben az esetben a számítógép a szóalakokat, vagy típusokat (type) fogja megszámolni. Kérdés, hogy mi történik akkor, ha ugyanarról a szóról van szó, de ez a szövegben különböző formákban jelenik meg? Pl.: az iszik szó megjelenhet iszom, ittatok, isznak stb. formában. A korpuszban szereplő ilyen alakokat egy csoportba kell összevonni, ezt nevezik lemmatizálásnak. Ez a művelet elvégezhető kézzel, illetve számítógépes program segítségével is.

A korpuszok fajtái[szerkesztés | forrásszöveg szerkesztése]

A mintavétel módja szerint megkülönböztetünk: statikus (egyszer létrehozott és azóta változatlan), dinamikus (folyamatosan bővülő) és monitor (a kettő keveréke) korpuszt.

A korpusz felhasználásának módja szerint megkülönböztetjük a fent már említett általános korpuszokat és a speciális korpuszokat. Léteznek továbbá összehasonlító korpuszok (például az angol nyelv különböző változatainak összehasonlítására), párhuzamos korpuszok (fordítók és tolmácsok tudják igazán nagy hasznát venni a kétnyelvű, párhuzamos korpuszoknak), nyelvtanulói korpuszok (elsősorban nyelvtanároknak hasznos és értékes gyűjtemények idegennyelv-tanulók által létrehozott szövegekből), pedagógiai korpuszok (szövegek, amelyeket az oktatásban felhasználnak) és történeti vagy diakrón korpuszok is.

A számítógépes korpusznyelvészet eszközei[szerkesztés | forrásszöveg szerkesztése]

A számítógépes korpusznyelvészet az ún. konkordanciaprogramok segítségével dolgozik. Ezeknek a programoknak a segítségével kezelik és elemzik a korpuszokat. A korpuszok kezelésének első lépése az annotáció, amelynek során címkékkel látják el az egyes szavakat, azonosítják a szófajokat és elvégzik a már említett lemmatizálás műveletét is. Ezután a korpuszok kereshetővé válnak a konkordanciaprogramok számára. Ezekkel a programokkal egy korpusz bármely elemére végezhetünk keresést. A program a megadott elem összes előfordulását kikeresi a korpuszból és a szövegkörnyezettel (általában nem teljes mondatokkal) együtt megjeleníti azokat egy külön ablakban. A keresett szó mindig vastagon szedve szerepel a sorokban egymás alatt, az oldal közepén.

A konkordanciaprogramokat először a nagy szótárkészítő cégek használták és gyártották csak (pl.: Longman, Collins), majd megjelentek az internetes felületen is futó, ingyenesen kereshető és az ingyenesen letölthető programok is. Ilyenek például a Web Concordancer, a Magyar Nemzeti Szövegtár és a Magyar Irodalmi és Köznyelv Nagyszótárának Korpusz vagy Magyar Történeti Korpusz. Párhuzamos korpuszra példa a Budapesti Műszaki Egyetem Média Oktató és Kutató Központjában elkészített 120 millió szót (4 millió mondatpárt) tartalmazó Hunglish Korpusz.

Forrás[szerkesztés | forrásszöveg szerkesztése]

  1. Aarts, Jan — Meijs, Willem (1984): Corpus Linguistics, Costerus N.S., Rodopi
  2. [1]
  3. Szirmai Mónika (2006): Bevezetés a korpusznyelvészetbe. Tinta Könyvkiadó, Budapest, 18.
  4. Tóth Etelka (2011): "Korpusznyelvészet és tankönyvek" In: ERUDITIO - EDUCATIO 2011/2. 80-93.
  5. Gregory, Karen M. (2012): „How Undergraduates Percieve Their Professors: A Corpus Analysis of Rate My Professor” In: Journal of Educational Technology Systems, v40 n2 169–193.
  6. Werner, Valentin (2012): „Love is all around: a corpus-based study of pop lyrics” In: Corpora 2012 Vol. 7 (1) 19–50.
  7. Szirmai Mónika (2006): Bevezetés a korpusznyelvészetbe. Tinta Könyvkiadó, Budapest, 27.