Vector Space Model

A Wikipédiából, a szabad enciklopédiából
Adatok vektoros ábrázolása

A Vector Space Model (VSM) matematikai alapokon nyugvó információkeresési rendszer, matematikai fogalmakra építették fel. Információkereső rendszerekhez és folyamatokhoz fejlesztették ki. Első felhasználása Salton SMART rendszerében volt.

A VSM tulajdonságai[szerkesztés | forrásszöveg szerkesztése]

A következő tulajdonságok jellemzik:

  • a tárgyszavak és dokumentumok osztályozását a hasonlóságok alapján számítaná ki, és az automatikus osztályozás elve szerint a tárgyszavakat is közös tárgyszavak alá rendezné;
  • a vektorok összetevőit számok (1 vagy 0) jelképezheti;
  • ezzel a matematikai modell megalkotható struktúrák megfeleltethetőek fizikai, biológiai, szociális, fiziológiai és konceptuális entitásoknak.

Több más matematikai modell használata is nyomon követhető benne:

  • a fizikai világ bekövetkezendő eseményei;
  • megfigyelések, felfedezések követése;
  • konceptuális megértés elősegítése;
  • matematikai folyamatok előlendítése.

Ez a sokszínűség köszönhető annak is, hogy a vektoros modell nagyon rugalmas, több különböző területen is használható, akár több absztrakciós szinten is:

  • algebrai szinten: ez a legelvontabb szint;
  • méréselméleti szinten;
  • fizikai szinten: a valós, általunk érzékelhető világon megmérhető jelenségek is modellezhetőek vektoros térben (ilyen például a gravitáció), a kapcsolatok pedig mint az egyes elemek gyorsasága;
  • adatközpontú szinten: a vektoros térben való adat-reprezentáció során az adatok változása is lemodellezhető. Salton információkereső vektorelméleteiben ez az adatközpontú szint van jelen. A vektorok jelentik a nyers vagy módosított megfigyeléseket, és a vektorok kapcsolatain keresztül lehet megfigyelni az információkeresés műveleteit.

Az információ kezeléséhez nincs szükség empirikus módszerekre, egyenletek és diagramok mutatják meg, hogy a rendszer illeszti össze a dokumentumokat és tárgyszavakat.

A dokumentumokat szavak, kifejezések, keresőkifejezések írják le, és ezek hasonlóság szerinti kapcsolata jelentheti egy új, (klaszterelemzéssel végzett) automatikus osztályozás alapját. Ez inkább közelít a tezaurusz elvéhez, mint például az ETO-féle osztályozási iskolához. (Az automatikusan létrehozott tezaurusz esetén annak szerkezetét egyszerűbbnek tartják, mint a manuálisan létrehozottét, így az automatikus osztályozás bírálói felhívják a figyelmet arra, hogy a gépi tezaurusz csak a deszkriptorok és nem-deszkriptorok közötti „Lásd” kapcsolatot és annak inverzét használják – talán az egymással párhuzamos osztályokba betehető dokumentumok kérdését meg lehetne oldani).

A dokumentumokat mint mátrixokat vázolja fel, amelynek elemei az őt leíró kifejezések, keresőkifejezések, amelyek kapcsolatai vektorokkal írhatóak le. Az elemeket hasonlóságaik alapján lehet összekötni. Mind egyes dokumentumok, mind az őket leíró kifejezések között lehet vektoros kapcsolatot leírni. Az elemek megjeleníthetőek egy kétdimenziós térképen is (vagy akár több dimenzióban lásd Hilbert-tér) , ahol a kapcsolódás, hasonlóság mértékét az egyes elemek távolságával adhatjuk meg. Egy automatikus, dinamikus osztályozási rendszerben is a témájukban egymáshoz közel eső művek is egymástól nem messze helyezkednének el. Ahhoz, hogy ez automatikus osztályozásként használható legyen, szükséges egy átfogó vektorkezelő művelet megléte is, ami magától létrehozza a különböző osztályokat. Az így létrejött rugalmas osztályozási rendszert ezen felül tovább lehet alakítani a felhasználók érdeklődési körének megfelelően is: így a kevésbé tapasztalt felhasználók is könnyedén megtalálhatják az őket érdeklő információt, és egyszerre több különböző – akár igen specifikus – igény szerint is rugalmasan alakítható. A rendszer által megjegyzett keresések tovább pontosíthatják az osztályokat, és a különböző alosztályok is így egyre homogénebbek, pontosabbak lesznek.

A relevancián kívül a dokumentumok térbeli elhelyezése megmutatja a bennük szereplő tudás súlyát, és azok egymáshoz való viszonyulását. Ha a meglévő, a dokumentumok leíró kifejezésekhez új kifejezést adunk, akkor a rendszer magától megjeleníti az esetleg így megváltozott kapcsolatokat, pl. a vektorok által mutatott távolság változtatása által. A dokumentumok között az egyensúlyt tartaná meg az is, hogy minden egységhez ugyanannyi kulcsszónak kell tartoznia, így egy, csupán a terjedelmében nagyobb mű tűnne jelentősebbnek, mint egy rövidebb, de lehet, hogy tartalmasabb alkotás.

A dokumentumokat tároló adatbázisban minden dokumentumot n-dimenziós vektornak kell tekinteni, amelyben az „n” a szótárban megtalálható tárgyszavakat jelenti. A különböző mátrixokba való kivetítések során a dokumentumok tárgyszavainak súlyának erősségét is meg lehet mérni. Ez azt jelenti, hogy egy tárgyszó súlya annál nagyobb, minél erősebb a kapcsolat a tárgyszó és a dokumentum között. A tárgyszavak súlyozása történhet előfordulási gyakoriság útján is. Például egy tárgyszó akkor jelenthet valamit egy dokumentumban, ha sokszor fordul elő (valószínűleg így annak tartalmában jelentős), de kevésszer az adatbázisban (nem töltelékszó).

A vektortérben való információkeresés a dokumentumok mátrixokban kerülnek leírásra. Az oszlopok lesznek a dokumentumok, a sorok az őket leíró kifejezések. Így állapítható meg a súlyozás, amely lehet gyakorisági, vagy bináris. A dokumentum és a keresőkérdés is helyvektorként szerepel, hiszen egy adott pontra mutat, így mind a dokumentum, mind a kérdés pontként szerepel ebben a térben. A dokumentum relevanciáját a hasonló dokumentumvektorok közelségével lehet megadni, rangsorolni. A pontok egymástól való közelségét a helyvektoraik által bezárt szög koszinusza adja meg. Az még kérdéses, hogy magát a kérdést a vektor hogyan modellezi. Hogy a vektoros térben a keresés mennyire hatékony, azt a teljesség és pontosság mérésével lehet kimutatni.

A VSM kritikája és továbbgondolásának irányai[szerkesztés | forrásszöveg szerkesztése]

A VSM-et is természetesen több kritika is érte. Többen már az 1980-as évektől már úgy gondolják, hogy nem vezethető le következetesen az őt leíró matematikai fogalmakból, és azóta sem sikerült ezt a problémát teljes mértékben megoldani. Wong és Raghavan írásai szerint a vektortér szigorú és formálisan korrekt, de magukat a vektorokat inkább csak illusztratívnak tartják, és csupán algebrai szinten kielégítőnek. Hiányosságként azt rótták még fel, hogy szerintük számítási teljesítményben a vektorteres módszer nem mutat fel többet, mint a SMART kísérleti rendszere. Viszont az, hogy 1979-től már maga Smart hívta a VSM-et információkereső rendszernek, az ő javára döntötte el a vitát.

Hibaként említhető meg, hogy a modell nem feleltethető meg pontosan a beszélt nyelvnek, így ez korlátozza annak hatékonyságát, hiszen egyes szavas közös előfordulását nem veszi figyelembe, és a vektorhossz mint jelentést kifejező tényező nem működőképes.

Források[szerkesztés | forrásszöveg szerkesztése]

Kapcsolódó szócikkek[szerkesztés | forrásszöveg szerkesztése]