Láthatatlan web

A Wikipédiából, a szabad enciklopédiából

A láthatatlan web a világháló azon része, amelyet elkerülnek a keresők.

Az utóbbi években elérkeztünk abba a korba, amelyben az internet világa teljesen áthatja a hétköznapjainkat. Az interneten minden megtalálható, tehát ami ott nincs, az nem is létezhet – talán ez közelíti meg legjobban némelyek hozzáállását a világhálóhoz. A nagy keresőmotorok közreműködhetnek ennek a látszatnak az alátámasztásában. Az internet jelentős része azonban még a keresőmotoroknak sem elérhető különböző okok miatt. A láthatatlan web „a World Wide Web azon oldalai, amelyek nem részei a felszíni webnek, azaz nincsenek indexelve az általános keresők által”.[1]

Terminológiája[szerkesztés | forrásszöveg szerkesztése]

A láthatatlan webet más kifejezésekkel is szokták illetni, mint például a mély web vagy rejtett web. Ezek közt a kifejezések közt viszont egyesek szerint apróbb tartalmi eltérések vannak. Michael Bergman véleménye szerint a „láthatatlan web” elnevezés keresőmotor-centrikus, emiatt félrevezető, ugyanis információkat nem csak a keresőmotorok segítségével lehet keresni.[2] A mély web ellentétpárja a felszíni web, amelyhez a keresők könnyedén hozzáférnek.

Terjedelme[szerkesztés | forrásszöveg szerkesztése]

A láthatatlan web méretével kapcsolatos becslések Bergman 2001-ben megjelent tanulmányának adatain alapulnak.[3] Ezek szerint:

  • a láthatatlan web mintegy 550-szer nagyobb lehet, mint a felszíni, látható web;[3]
  • tárterületben ez körülbelül 7500 TB információt jelent.[4]

Bergman tanulmányában a következő főbb megállapítások szerepelnek még:[2]

  • a láthatatlan web havi forgalma átlagosan 50%-kal nagyobb, mint a felszíni web esetében;
  • a láthatatlan web oldalak közt magasabb szintű az összekapcsolás;
  • a láthatatlan web növekszik a legjobban új információkkal;
  • tartalmilag mélyebbek (specializáltak és részletesebbek);
    • ebből adódóan ezerszer-kétezerszer nagyobb a minőségi tartalma;
  • a láthatatlan web több mint fele témaspecifikus adatbázisokban van;
  • 95%-a nyilvánosan hozzáférhető (nincsenek díjak, illetve előfizetések).

Egységei[szerkesztés | forrásszöveg szerkesztése]

Chris Sherman és Gary Price láthatóság szerint négy típust különített el:[5]

  1. „Átlátszatlan”, nem átlátható web (Opaque web);
  2. Privát web (Private web);
  3. Szabadalmazott web (Proprietary web);
  4. Valóban láthatatlan web (Truly invisible web).

Danny Sullivan egy ötödik típust is meghatározott, az ún. „sekély” webet (shallow web).[6]

A láthatatlanság okai[szerkesztés | forrásszöveg szerkesztése]

Ahhoz, hogy megoldást találjunk a láthatatlanság problémájára, ismernünk kell az okait. Annak, hogy egy oldalt miért nem indexelnek a keresők, több oka is lehet:

  • az oldal tartalma egy adatbázisból kerül a weblapra
  • az oldal csak regisztráció után érhető el
  • nem szöveges állományok
  • teljes vagy részleges kizárásra kerülnek (szolgáltatótól függően) a különböző scripteket tartalmazó oldalak, amelyeknek URL-je tartalmazza a kérdőjelet
  • egy oldalra vagy egész site-ra nem mutat egyetlen link sem, így tartalma nem kerül be a kereső adatbázisába, sem pedig keresésnél az eredményhalmazba[8]
  • hiányoznak az indexeléshez szükséges, megfelelő kulcsszavak
  • az oldalon található információk időközben elavulttá válnak[9]
  • az adott oldal nincs bejelentve, vagy ha mégis, akkor a keresésükhöz speciális keresőkre van szükség[10]
  • az adott oldalt eltávolították a keresőrendszer indexéből (például illegalitás miatt)[11]

Top 25 kategória[12][szerkesztés | forrásszöveg szerkesztése]

  1. Nyilvános cégiratok
  2. Telefonszámok
  3. Egyedi térképek és útbaigazítások
  4. Klinikai perek
  5. Szabadalmak
  6. Utánnyomás nélküli könyvek
  7. Könyvtári katalógusok
  8. Mérvadó szótárak
  9. Környezettudományi információk
  10. Tőzsdei információk
  11. Történeti dokumentumok és képek
  12. Cégjegyzékek
  13. Kereshető témabibliográfiák
  14. Gazdasági információk
  15. Díjak
  16. Álláshirdetések
  17. Ösztöndíjjal kapcsolatos információk
  18. Fordítóeszközök
  19. Irányítószámok
  20. Alapvető demográfiai információk
  21. Interaktív iskolai keresők
  22. Kampányok pénzügyi információi
  23. Időjárási adatok
  24. Termékkatalógusok
  25. Művészeti galériák

A láthatatlan webhez való hozzáférés[13][szerkesztés | forrásszöveg szerkesztése]

Annak érdekében, hogy a láthatatlan web is láthatóvá váljon, több megoldás is született, illetve alkalmazható:

Témakatalógusok[szerkesztés | forrásszöveg szerkesztése]

  1. Complete Planet
  2. Invisible-web.net

Ágens/platform/portál[szerkesztés | forrásszöveg szerkesztése]

  1. Copernic Agent
  2. Deep Query Manager
  3. Profusion

Keresőgépek[szerkesztés | forrásszöveg szerkesztése]

  1. Hidden Web Exposer (HIWE)
  2. Turbo 10
  3. LexiBot[8]
  4. Lycos Invisible Web Catalog[8]
  5. Incywincy[8]

Adatbázisokban való keresés[8][szerkesztés | forrásszöveg szerkesztése]

  1. Infomine Multiple Database Search
  2. Digital Librarian

Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

Források[szerkesztés | forrásszöveg szerkesztése]

Külső hivatkozások[szerkesztés | forrásszöveg szerkesztése]

További információk[szerkesztés | forrásszöveg szerkesztése]