Orosz információs technológiai piac: trendek és előrejelzések. Keresési lekérdezések – fejlesztési lehetőségek

18.09.2020 Tippek

Abban az időben, amikor az internet fejlődése még csak elkezdődött, viszonylag csekély volt a rendelkezésre álló információ mennyisége, és kevés volt a hálózat használója. A hálózat fejlesztésének kezdeti szakaszában az egyetemek és kutatólaboratóriumok dolgozói használták az intézmények közötti információcserére. Abban az időben az internetes információkeresés nem volt releváns, ellentétben a mai nappal.

Az információs forrásokhoz való hozzáférés megszervezésének és rendszerezésének első módja a webhelykönyvtárak létrehozása volt. Elkezdték csoportosítani a linkeket egy adott téma szerint.

A terület úttörője a Yahoo volt, amely 1994 áprilisában jelent meg. Az idő előrehaladtával a webhelyek száma nőtt, és a Yahoo hozzáadott egy címtárkeresési lehetőséget. Ez nem a szó szoros értelmében vett keresőmotor volt, mert a keresés hatóköre a címtár erőforrásaira korlátozódott.

Ezt követően a címtárak elterjedtek és mindenhol elkezdték használni, de az internet nem állt meg, hanem tovább fejlődött. Ezzel együtt a keresési módszerek is fejlődtek. Jelenleg a címtárak már majdnem elvesztették népszerűségüket, ez annak a ténynek köszönhető, hogy egy modern címtár még akkor is, ha hatalmas mennyiségű erőforrást tartalmaz, a címtárban található információknak csak egy kis részéhez lesz képes hozzáférést biztosítani. a hálózat.

Ma a legnagyobb címtár a weben az Open Directory Project vagy DMOZ, amely körülbelül 5 millió forrás információt tartalmaz, de ez viszonylag kevés, ha összehasonlítjuk például a Google keresőjével, amely körülbelül 8 milliárd dokumentumot tartalmaz.

Teljes értékű keresőmotor csak 1994-ben jelent meg, ez lett a WebCrawler kereső.

Egy évvel később, 1995-ben megjelentek az AltaVista és a Lycos keresőmotorok. Egyikük, különösen az AltaVista, hosszú éveken át vezető pozíciót töltött be a keresésben.

Két évvel később, 1997-ben, a Stanford Egyetem hallgatói, Sergey Brin és Larry Page kifejlesztették a Google keresőmotorját, amely ma a keresés terén vezető szerepet tölt be.

Ez az év lett az az év is, amikor hivatalosan is bejelentették a Yandex orosz keresőmotor létrehozását, amely továbbra is vezető szerepet tölt be a hálózat orosz nyelvű szegmensében.

Jelenleg csak 3 keresőmotor vált nemzetközivé, ezek az MSN Search, a Yahoo és a Google. Ezeknek a rendszereknek saját bázisuk és keresési algoritmusaik vannak. A legtöbb más keresőmotor használja az eredményeiket. Tehát a Mail.ru a Yandex adatbázist használja, a search.aol.com - Google -, valamint a Lycos, AltaVista és AllTheWeb - Yahoo.

Az orosz internetes keresések terén jelenleg a Yandex vezet, ezt követi a Rambler, ezt követi a Google, a Mail.ru, az Aport és a KM.ru.

A keresőmotorok különböző munkaalgoritmusokkal rendelkeznek, és ahhoz, hogy jó pozícióba kerüljön a keresési eredmények között, és célzott látogatókat vonzzon, ismernie kell a SEO optimalizálás jellemzőit a különböző keresőmotorokhoz. Például

Az indexben való kereséshez a felhasználónak meg kell fogalmaznia egy lekérdezést, és el kell küldenie a keresőmotornak. A kérés lehet nagyon egyszerű, legalább egy szóból kell állnia. Összetettebb lekérdezés létrehozásához logikai operátorokat kell használnia, amelyek lehetővé teszik a keresési feltételek finomítását és bővítését.

A leggyakrabban használt Boole-operátorok a következők:

  • ÉS - az "ÉS" operátorral összekapcsolt összes kifejezésnek jelen kell lennie a keresett oldalakon vagy dokumentumokon. Egyes keresőmotorok a „+” operátort használják az ÉS szó helyett.
  • VAGY - az "OR" operátor által összekapcsolt kifejezések közül legalább egynek jelen kell lennie a keresett oldalakon vagy dokumentumokon.
  • NEM - a "NOT" operátort követő kifejezésnek vagy kifejezéseknek nem szabad (nem szabad) megjelenniük a keresett oldalakon vagy dokumentumokon. Egyes keresőmotorok a "-" operátort használják a NEM szó helyett.
  • FOLLOWED BY - az egyik kifejezésnek azonnal követnie kell a másikat.
  • NEAR - az egyik kifejezésnek távol kell lennie a másiktól, legfeljebb a megadott számú szónál.
  • Idézetek – Az idézett szavakat a rendszer egy dokumentumban vagy fájlban található kifejezésként kezeli.

A keresőmotorok fejlesztésének kilátásai

A logikai operátorok által megadott keresés szó szerinti – a gép pontosan úgy keresi a szavakat vagy kifejezéseket, ahogyan beírta őket. Ez problémákat okozhat, ha a beírt szavak nem egyértelműek. Például az angol "Bed" szó jelenthet ágyat, virágágyást, hal ívási helyét és még sok mást. Ha a felhasználót csak az egyik jelentés érdekli, akkor nincs szüksége olyan oldalakra, amelyeknek más jelentése van. Lehetőség van szó szerinti keresési lekérdezés létrehozására a nem kívánt értékek levágására, de jó lenne, ha maga a keresőmotor is megfelelő segítséget nyújtana.

A keresőmotor egyik változata a fogalmi keresés. Ennek a keresésnek egy része a felhasználásra is vonatkozik Statisztikai analízis a felhasználó által beírt szavakat vagy kifejezéseket tartalmazó oldalak, hogy más oldalakat találjanak, amelyek érdekesek lehetnek az adott felhasználó számára. Nyilvánvaló, hogy a fogalmi keresésnek több információt kell tárolnia minden oldalról, és minden keresési lekérdezés több számítást igényel. Jelenleg sok fejlesztőcsapat dolgozik az ilyen típusú keresőmotorok teljesítményének és teljesítményének javításán. Más kutatók egy másik területre összpontosítottak, amelyet természetes nyelvű lekérdezéseknek (natural-language Queries) neveznek.

A természetes nyelvű lekérdezések mögött az az elképzelés áll, hogy a felhasználó ugyanúgy fogalmazza meg a lekérdezést, mint ahogy a mellette ülő személytől kérdezné – anélkül, hogy nyomon kellene követnie a logikai operátorokat vagy az összetett lekérdezési struktúrákat. A legnépszerűbb természetes nyelvű keresőoldal ma az AskJeeves.com, amely elemzi a lekérdezést az azonosítás érdekében kulcsszavakat, amelyeket ezután a keresőmotor által létrehozott webhelyek indexében való keresésre használnak. Ez az oldal csak egyszerű kereséseket kezel, de a fejlesztők erős versenykörnyezetben dolgoznak egy természetes nyelvű keresőmotort, amely nagyon összetett lekérdezések kezelésére képes.

KOVROV ÁLLAMI TECHNOLÓGIAI AKADÉMIA

Információs és elemző információk az informatikáról

témában: „Modern keresők, a Yandex egyik piacvezetőjének fejlődési trendjei”.

Elkészítette: 1. éves hallgató

3 akadémiai csoport

Makarov Iván

Bevezetés. 3

Fő rész. négy

Következtetés. tizenegy

Bevezetés.

A Yandex egy orosz informatikai cég, amely azonos nevű keresőmotorral és internetes portállal rendelkezik. A Yandex kereső a világon a nyolcadik legnagyobb keresőoldal a feldolgozott keresési lekérdezések számát tekintve (1,290 milliárd, 2009 augusztusi statisztika), és a kínai Baidu után a második legnagyobb nem angol keresőszerver.

A cég honlapja 1997. szeptember 23-án nyílt meg. 2000 a Yandex megalakulásának éve. A Yandexet a CompTek alapította (a Yandex keresőmotort kifejlesztő és azt támogató cég). A cég 2002-ben érte el az önellátást, 2006-os árbevétel - 72,6 millió dollár, nettó nyereség - 29,9 millió, 2005-ben - 35,6 millió dollár, nettó nyereség - 13,6 millió.

A cég fő és prioritást élvező iránya a keresőmotor fejlesztése, de az évek során a Yandex többportállá vált. 2009-ben a Yandex több mint 30 szolgáltatással rendelkezik. A legnépszerűbbek: Yandex.News, Yandex.Fotki, Yandex.Toys és mások.

A cég fő irodája Moszkvában található. A cégnek irodái vannak Szentpéterváron, Jekatyerinburgban, Odesszában, Szimferopolban és Kijevben. 2008. június közepén a vállalat bejelentette a Yandex Labs megnyitását – egy iroda az Egyesült Államokban, Kaliforniában.

Fő rész.

A cég története.

A Yandex.Ru keresőmotort hivatalosan 1997. szeptember 23-án jelentették be a Softool kiállításon. A Yandex.Ru fő megkülönböztető jellemzői abban az időben a dokumentumok egyediségének ellenőrzése (kivéve a különböző kódolású másolatokat), valamint a Yandex keresőmotor kulcsfontosságú tulajdonságai, nevezetesen: figyelembe véve az orosz nyelv morfológiáját (beleértve a pontos szóalak keresése), a távolságok figyelembe vételével (beleértve a bekezdésen belüli, a pontos kifejezést is), valamint egy gondosan kidolgozott algoritmus a relevancia értékelésére (a válasz megfelelősége a kérésre), figyelembe véve nem csak a számok számát. a szövegben található lekérdező szavakat, hanem a szó "kontrasztját" (relatív gyakoriságát ebben a dokumentumban), a szavak közötti szóközt és a szó pozícióját a dokumentumban.

Kicsit később, a "Mesék" részben (megfigyelések az orosz internet tartalmáról) megjelent a Runet első meséje - "Web - humanizmus vagy csernukha?". És a "Számok" részben - a Runet, 5 ezer szerver és 4 GB szöveg mennyiségének első becslése.

Két hónappal később, 1997 novemberében egy természetes nyelvű lekérdezést hajtottak végre. Mostantól a Yandex.Ru egyszerűen „oroszul” érhető el, hosszú kérdéseket tehet fel, például: „hol vásárolhat számítógépet”, „génmódosított termékek” vagy „nemzetközi” telefon kapcsolatés pontos válaszokat kapni. Egy lekérdezés átlagos hossza a Yandex.Ru-ban most 2,7 szó. 1997-ben ez 1,2 szó volt, amikor a keresőmotorok felhasználói megszokták a távirati stílust.

1998-ban a Yandex.Ru bevezette a „hasonló dokumentum keresésének”, a talált szerverek listájának, egy adott dátumtartományban történő keresésnek és a keresési eredmények idő szerinti rendezésének lehetőségét. utolsó változtatás. Az idei év során az orosz internet "volumenje" megduplázódott, ami a keresőmotorok optimalizálásának szükségességéhez vezetett. A Yandex.Ru keresési sebessége akkor és most is (200 GB-os tárhely mellett) a másodperc töredéke.

1999 során a Runet egy nagyságrenddel nőtt, mind a szövegek mennyiségében, mind a felhasználók számában. Ez a gyors fejlődés éve volt a Yandex.Ru számára is. Az új keresőrobot lehetővé tette a Runet oldalak megkerülésének optimalizálását és felgyorsítását. Ma a Yandex.Ru keresési bázisa kétszer akkora, mint a legközelebbi versenytársaié.

Az új robot lehetővé tette a felhasználók számára új funkciók biztosítását - keresést különböző szövegterületeken (címsorok, linkek, megjegyzések, címek, képek feliratai), a keresés korlátozását webhelyek csoportjára, linkek és képek keresését, dokumentumok kiemelését. oroszul. Keresés történt a katalógus kategóriáiban, és a Runetben először vezették be a „hivatkozási index” fogalmát – az erre utaló források számát.

Az év során folytatódott a Runet mennyiségi és minőségi elemzése. Megnyílt a NINI-index ("Az Internet lakosságának érdekeinek inkonzisztenciája" index), amely az internethasználók érdekeinek változásának dinamikáját mutatja be. Megnyílt egy keresési fórum és egy új szolgáltatás - előfizetés egy kérésre, vagyis elhagyhatja kérelmét a Yandex.Ru oldalon, és rendszeresen kaphat e-mailben információkat az ennek megfelelő új és / vagy módosított dokumentumok megjelenéséről kérés. A tanév elejére megnyílt a "Családi Yandex", amely szűrte a keresési eredményeket az obszcén nyelvezet és a pornográfia alapján.

A "Yandex" szó eredete.

Ma a "Yandex" egy szó az internetfelhasználók mindennapi életéből. Gyakran megtalálható az interneten: „Mi, a Yandexet már törölték?”, „A magány az, amikor a Yandex az első, aki gratulál a születésnapjához”, „Minden kérdés a Yandexhez”. Sokan már azt hiszik, hogy ez mindig is így volt. Bizonyos értelemben ez igaz - a Yandex valóban megjelent ugyanabban az időben, mint tömeges internet amikor a hálózati hozzáférés már nem volt fenntartva néhány kiválasztott technikus számára. De maga a "Yandex" szó mesterséges, saját szerzői és saját története van.

1993-ban Arkady Volozh, a leendő Yandex cég leendő vezérigazgatója és Ilja Segalovics, a cég jövőbeli technológiai igazgatója kifejlesztette, mint később kiderült, a fő technológiát - a strukturálatlan információk keresését, figyelembe véve az orosz nyelvet.

A fejlesztést valahogy el kellett nevezni. Ilja emlékszik, hogyan írt le egy oszlopba a technológia jelentését leíró szavak különböző származékait. Gyorsan világossá vált, hogy az orosz keresés ("keresés") túlságosan disszonánsan hangzik, és ez alapján nem lehet sikeres kombinációt alkotni. Az index szó alkalmasabb volt. Így a yandex megjelent a névjegyzékben - még egy indexelő ("egy másik indexelő" vagy nyelvi index). Ilja és Arkagyij is tetszett a lehetőségnek - könnyű kiejteni, könnyű írni. Ezenkívül Arkagyij az "I" betűt javasolta a névben - kifejezetten orosz - orosz, és hagyja meg az egyértelműség kedvéért. Tehát feltalálták a "Yandex" szót. A programfájlt pedig yandex.exe-nek hívták.

1996-ban, amikor a keresést először technológiaként, és nem tartalomtermék részeként kínálták a nagyközönségnek (előtte létezett a Találmányok Nemzetközi Osztályozója és a Bible Computer Reference), a programok sora a Yandex, és ezt a nevet Language iNDEX-ként magyarázták. Az első programok a sorban a Yandex.Site (keressen az egyik saját webhelyén – ennek a terméknek most Yandex.Servernek hívják) és a Yandex.Dict (az AltaVista morfológiai előtagja, az egyetlen keresőmotor, amely akkoriban tudta, hogyan kell valahogy) dolgozzon cirill betűvel) .

De természetesen a "Yandex" szó széles körben elterjedt 1997 szeptembere óta, a www.yandex.ru kereső elindítása után. Azóta a rendszer felhasználói kínálják nekünk értelmezéseiket. Például Tyoma Lebegyev, aki az első verzió elkészítésére készül kezdőlap A Yandex webhelye ezt mondta: „Ah, értem, ha az index szó első „én”-jét oroszra fordítják, akkor „én”, azaz „Yandex” lesz. A szerzők őszintén bevallották, hogy nem gondoltak rá, de - a jó értelmezést elfogadják. Aztán valaki a weben egy másik lehetőséget javasolt, látva az internet két oldalát, az INdexet és a YANDEX-et. Ez a szó már származékként jelent meg, például a Yandex alkalmazottait gyakran "Yandexoidoknak" és ritkábban "Yandexieknek" nevezik.

Keresés "Yandex".

A Yandex keresés lehetővé teszi, hogy a Runet, az Uanet és a Kaznet (2009. október 14. óta) orosz, ukrán, fehérorosz, román, angol, német és francia nyelvű dokumentumokat keressen, figyelembe véve az orosz és az orosz nyelv morfológiáját. angolés a szavak közelsége a mondatban. 2006 eleje óta a Yandex keresés telepítve van a Mail.ru portálon.

A HTML weboldalak mellett a Yandex PDF (Adobe Acrobat), Rich Text Format (RTF), Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (blogok és fórumok) bináris formátumú dokumentumokat indexeli.

A Yandex megkülönböztető jellemzője a keresési lekérdezés finomhangolása. Ez rugalmas lekérdezési nyelv segítségével valósítható meg. Így például a kizárási műveletnél megadhatja a hatókört: az A ~ ~ B lekérdezés olyan dokumentumokat (oldalakat) talál, amelyekben A jelen van, de C nincs, az A ~ B lekérdezés pedig azokat a dokumentumokat, ahol a B szó egy mondatban nincs jelen az A szóval együtt. Hasonlóképpen a & operátor a kulcsszavak kombinációit keresi egy mondatban, míg az && a teljes dokumentumot keresi.

Operátor! lehetővé teszi egy adott szó morfológiájának letiltását is!! lehetővé teszi a normál forma megadását, amely lehetővé teszi a homonímiával kapcsolatos néhány probléma megkerülését. Például az !!Ivanov lekérdezés megtalálja Ivanovot és Ivanovot, de nem Ivanovot.

Alapértelmezés szerint a Yandex minden eredményoldalon 10 hivatkozást jelenít meg, a keresési eredmények beállításainál pedig 20, 30 vagy 50 talált dokumentumra növelheti az oldal méretét. Néha az oldalak sorrendje ezeken az oldalakon eltérhet, mivel ezeknek az eredményeknek az adatbázisai nem frissülnek egyidejűleg.

Ha sok hivatkozás található a lekérdezéshez, az eredményoldal a keresési tartomány korlátozását javasolja – régiónként (vagyis IP-tartományonként) vagy dátum szerint. Ha egyetlen szóra vagy szavakra sem talál semmit, javasoljuk, hogy cserélje ki / őket hasonlókra (mivel a javasolt lehetőségek a hasonló szavak keresésének gyakoriságától függenek, néha vicces helyzetek adódhatnak). Javasoljuk továbbá a rossz billentyűzetkiosztással beírt szavak javítását.

Időről időre megváltoznak a probléma relevanciájáért felelős Yandex algoritmusok, ami a keresési lekérdezések eredményeinek megváltozásához vezet. Az utolsó hivatalosan bejelentett változtatások 2004 márciusában, 2005 áprilisában és 2007 januárjában voltak; nem hivatalos információk szerint jóval több van belőlük (például az utolsó 2007. augusztus-szeptember).

Ezek a változtatások különösen a keresési spam ellen irányulnak, ami irreleváns eredményekhez vezet egyes lekérdezéseknél (ritkábban teljes lekérdezéscsaládoknál). A nem automatikusan kiszűrt keresési spam ellen a kibocsátás félautomata és manuális moderálása (az ún. "white hat optimalizálók" segítségével), valamint a "rosszindulatú" oldalak indexelésének közvetlen megtagadása történik. .

Tulajdonosok, menedzsment és teljesítménymutatók.

A társaság több mint 30%-a saját adatai szerint a ru-Net Holdings és a Baring Vostok Capital Partners befektetési alapokhoz, 15%-a - a Tiger Technologies alaphoz, mintegy 30%-a - a cég alapítóihoz és 20%-a. % - vezetőknek és egyéb kisebbségi részvényeseknek.

2009. szeptember közepén vált ismertté, hogy a Yandex anyavállalata, a holland Yandex N.V. elsőbbségi részvényt bocsátott ki, amelyet jelképes 1 euróért átruháztak a Sberbankra. A részvény egyetlen joga, hogy megvétózza a társaság részvényeinek több mint 25%-ának eladását.

Menedzsment: Rkady Volozh - vezérigazgató, Ilya Segalovich - műszaki igazgató, Elena Kolmanovskaya - főszerkesztő, Alekszej Tretyakov - kereskedelmi igazgató, Svetlana Kondrashova - hirdetési igazgató.

Minden Yandex szolgáltatás.

Információszerzés:

Keresés és ya.ru

Címtár – a webhelyek hivatkozási indexe szerint rendezett könyvtára. A katalógusszerkesztők manuálisan pótolják, lehetőség van fizetős regisztrációra.

Hírek – A nap legfontosabb hírei, az interneten megjelenő mainstream médiából származnak. Lehetőség van hírek szerint keresni, valamint adott keresési lekérdezéshez hírre feliratkozni.

Yandex.XML - ezzel a szolgáltatással automatikus keresési lekérdezéseket végezhet a Yandex számára xml formátumban.

Keresés a blogokon és fórumokon – olyan források keresése, amelyek RSS-reprezentációval, valamint aktuális lekérdezések, népszerű kategóriák és hírek értékelésével rendelkeznek.

Piac - áruk és szolgáltatások értékesítésére vonatkozó ajánlatok keresése, modellek kiválasztása.

A "Meditatív" keresés az egyetlen keresőszolgáltatás a világon, amely rendelkezik "Keresés" gombbal, de nincs keresősáv.

Szótárak - enciklopédiák, segédkönyvek, fordítószótárak.

Képek - képkeresés.

Videó - videó keresés.

Térképek - Európa és Oroszország térképei, az Orosz Föderáció nagyobb városainak térképei (a házig), keresés a térképen, valamint néhány város utcáin való „vándorlás”. [forrás?]

Címek - keresés Elérhetőség cégek és szervezetek nevei.

Plakát - információk az elérhető eseményekről: mozi, színház, koncertek, sport, klubok stb.

Időjárás - időjárás előrejelzés.

TV-műsor - a központi, regionális és műholdas csatornák TÉVÉ.

Menetrendek - vonatok és repülők menetrendjei.

Személyre szabott:

Yandex.Video - videotárhely és videókeresés.

Mail - email.

A Ya.ru egy blogszolgáltatás.

Yandex.Fotki - fotótárhely.

Spam védelem – levélszemét szűrés.

Emberek – ingyenes tárhely személyes weboldalakhoz, valamint fájltárolási szolgáltatás.

Yandex pénz - fizetési rendszer, amely lehetővé teszi áruk és szolgáltatások fizetését az interneten.

A Bookmarks egy könyvjelzőtároló rendszer, amely integrálva van a Yandex-szel. rúd."

Előfizetések - előfizetés a hírekre.

Feed - online RSS olvasó

A Yandex.Direct egy kattintásonkénti fizetésű kontextuális hirdetések elhelyezésére szolgáló rendszer.

A Kupa rendszeres internetes keresőverseny.

Városok - az orosz városok internetes indexei.

Tarifa - keresés az internetszolgáltatók tarifái szerint.

Képeslapok

Tavasz - filozófiai esszék automatikus generálása.

Internet – az internetkapcsolat sebességét méri.

Tükör – A nagyobb Linux OS disztribúciók, valamint a FreeBSD és más projektek tükre.

Yandex. Helyi hálózat - lehetőséget biztosít az összes Yandex szolgáltatás használatára, nem a szövetségi, hanem a helyi árfolyamon.

Metrica - lehetővé teszi a forgalom mérését, a felhasználói viselkedés elemzését és a hirdetési kampányok hatékonyságának értékelését.

Szoftver termékek:

Spam szűrő Spamodefense vállalati használatra (fizetős).

Program a Yandex Desktop Search fájlok számítógépen történő kereséséhez.

Ya.Online azonnali üzenetküldő program Jabber alapú. Azt is lehetővé teszi, hogy értesítést kapjon a Yandex új leveleiről. Mail, az Odnoklassniki.ru és a VKontakte webhelyek új eseményeiről.

A Punto Switcher program egy automatikus elrendezésváltó.

Kütyük műtőhöz Mac rendszerek OS X és Windows Vista, valamint a Opera böngésző: Keresés, Forgalom, Óra, Hírek.

Yandex ICQ - az ICQ kliens speciális verziója szimbólumokkal és egyes Yandex szolgáltatásainak integrációjával.

Érdekes tények.

1) A lekérdezések átlagos hossza a Yandex.Ru webhelyen jelenleg 2,7 szó. 1997-ben ez 1,2 szó volt, amikor a keresőmotorok felhasználói megszokták a távirati stílust.

2) A Yandex a www.yandex.ru előtt jelent meg. A Yandex szót 1993-ban találták ki, és 1996-ban hangzott el nyilvánosan, és akkor nem céget vagy keresőt jelentett, hanem egy saját szerveren lévő keresőtechnológiát és az Altavista.com keresőmotor morfológiai előtagját.

3) A www.yandex.ru webhelyet azért indították el, hogy bemutassák a Yandex technológia képességeit, senki sem gondolt arra, hogy pénzt keressen a reklámozással.

4) A „Minden van” szlogent 2000-ben találták ki. Ugyanebben az évben a Yandex elindította a weboldal első hirdetését az orosz televízióban.

5) Maga a Yandex szerint közönségének körülbelül 80 százaléka Oroszországból, körülbelül 3 százaléka Európából és valamivel több mint 1 százaléka az Egyesült Államokból származik.

6) A Yandex technikai támogató személyzetének egy része "Platon Shchukin" gyűjtőnéven működik.

Következtetés.

Tehát most megvan teljes körű tájékoztatást a Yandexről. Tudjuk, hogy ki irányítja, hogyan működik belülről, mi a cég fejlődésének története és még sok más. Most már könnyen megérthetjük, miért a Yandex vezető az orosz és a globális piacon. Szerintem a Yandex sikerének fő oka az, hogy a kereső jól megbirkózik az orosz nyelv bonyolultságával. Éppen ezért az angol nyelvre kifejlesztett keresők nem tudják indexelni és rangsorolni az orosz nyelvű dokumentumokat sem. A második előnynek azt látom, hogy a Yandex kreatív, barátságos, vidám szlogenekkel vonzza a felhasználókat szolgáltatásai igénybevételére.A Yandex által a keresősor közelében elhelyezett tematikus képek sokkal könnyebben elérhetők egy orosz felhasználó számára.

, irányzat a javaslatok számának növekedése folytatódni fog. A ma jelenlévők piac elektronikus fizetés rendszerek... több egy mérföldkő esemény: A Paycash megállapodást írt alá a legnagyobbkal keresőmotor rendszer ...
  • Volga szövetségi körzet: kortársállapota és kilátásai fejlődés(a Tatár Köztársaság példájára)

    Tanfolyam >> Közgazdaságtan

    ... trendek további fejlődés. ... vezető. ... fejlődés egy tól től a legfontosabb ... összetett keresésés műrepülő... piac. Fejlődés ... kortárs technológiák, nagy teljesítményű berendezések, kortárs... szupertoxikus anyagok; - fejlődés rendszerek földfigyelés...

  • Modern a testkultúra és a sport szociológiai problémái

    Absztrakt >> Szociológia

    A politikai előmozdítására vezetők, felek, ... a teljes alany-objektum rendszer szociálpedagógiai ... kreatív keresőmotor tevékenység... piacés az állam. Piac ... Trendek fejlődés kortárs Az Olimpiai Mozgalom Oroszország egy tól től ...

  • Trendek fejlődés olajipar a világgazdaságban

    Absztrakt >> Közgazdaságtan

    Világ piac olaj: trendek fejlődésés... már végrehajtották keresés-feltáró munka, ... Előzetes értékelés. vezető a világfogyasztásban... van egy tól től alapvető elemek kortárs világgazdasági... világgazdasági rendszer, akkor...

  • A hagyományos szervezési megközelítésben, amikor a szakosodott funkciók egymás után kerülnek be az üzletbe, mint egy váltóversenyben, a magas hatékonyság elérhetetlen. A külső változásokra való reagálás folyamatos együttműködést igényel a különböző szakosodott osztályok és szolgálatok között. Folyamatosan kommunikálnak és információt cserélnek, gyorsan, összehangoltan és egyszerre, sokféle irányba tudnak cselekedni. Információs technológia rendkívül hasznos egy ilyen összehangolt folyamatban.


    Rizs. 3.2.

    Az IT használata lehetővé teszi a vezetési stílus és az üzleti folyamatok radikális megváltoztatását, és jelentősen javítja a vállalat fő teljesítménymutatóit (3.2. ábra). Az üzleti élet régi szabályai gyorsan elavulnak. Azok a vállalatok, amelyek nem "látják" ezeknek a változásoknak a jelentőségét, messze lemaradnak (3.2. táblázat).

    3.2. táblázat. Információs technológia, amely megváltoztatja a vállalatok működését
    Korábbi szabály új szabály Technológia
    Az információ egy helyen, egyszerre jelenhet meg Az információ bárhol, bármikor megjelenhet és igényt tarthat – amikor szükség van rá Elosztott adatbázisok és adattárházak, kereső motorok, keresési technológiák adott adatokhoz
    A helyzetértékelés nehéz munkáját csak szakértők tudják elvégezni A szakértői munkát általános szakember végezheti Szakértői rendszerek
    Válasszon a centralizáció és a decentralizáció között Egyszerre profitálhat a menedzsment és a termelés megszervezésének két formája kombinációjából Csoportosan elosztott munkavégzés, távközlésés hálózatok
    Minden döntést csak a felsővezetők és a felelős vezetők hozzák meg A döntéshozatal minden, a saját munkaterületéért felelős munkavállaló munkájának részévé válik Döntéstámogató eszközök, tudásbázisok és repozitóriumok elérése, tudásrendszerek
    Az információk keresése, fogadása, elemzése, tárolása és továbbítása speciálisan felszerelt helyiségeket igényel A szakemberek információkat küldhetnek és fogadhatnak onnan, ahol tartózkodnak Internet / Intranet technológiák, száloptika és műholdas rendszerek kommunikáció, mobil rendszerek
    A legjobb kapcsolatfelvétel a vevővel a személyes kapcsolat A legjobb kapcsolatfelvétel a potenciális vevővel a vevő jellemzőinek hatékony tanulmányozása Interaktív interakció, adatbázisok, lekérdezési és preferenciarendszerek
    Egy bizonyos entitás megtalálásához tudnia kell, hol van Az entitások megmondják, hol vannak Keresőrendszerek. Mobil ügynök rendszerek
    Az összeállított terveket nem vizsgálják felül, illetve nem vis maior hatására A terveket szükség szerint és a fogyasztói igényeknek megfelelően haladéktalanul felülvizsgálják és módosítják Szakértői rendszerek, rugalmas tervezési és kockázatkezelési rendszerek, nagy teljesítményű számítógépek

    IT osztályok cégeknél és nagyvállalatoknál kezdte átvenni a vezetést. Ezt három tényező segítette elő, amelyek az 1990-es években teljes mértékben megnyilvánultak:

    • az üzleti igények egyre nagyobb nyomást gyakoroltak az analitikai és informatikai osztályokra annak érdekében, hogy növeljék hozzájárulásukat a vállalat tevékenységének általános eredményéhez;
    • a számítási munka számítógépes paradigmája, amely a nagy számítógépekre és a hatalmas létszámú, nagy teljesítményű számítástechnikai központokra irányul, elavulttá válik, és egy új paradigma váltja fel - elosztott számítástechnika(hálózatok és klaszterek), ami viszont új IT létrehozásához vezet;
    • A technológiáról a fogyasztóra való átirányítás a vezető pszichológiai átstrukturálásához és egy új tudományág kialakításához vezetett - a vállalati IT fejlesztésének stratégiai tervezése az üzleti stratégia és az információs stratégia ötvözésére.

    Ennek eredményeként maguk a vállalkozás összetevői is megváltoztak (3.3. táblázat):

    3.3. táblázat.
    Üzleti dinamika felgyorsult
    Stratégiai tervezésés taktikai célok megnövelt hatótávolság és előrejelzés pontossága
    Működési tér Kibővített hatókör
    Kockázatok kezelése A helyzet modellezése és optimalizálása
    Irányítsd a rugalmasságot Gyors erőforrás manőverezés
    Versenyképesség A meglévő kiválóság kiterjesztése az egész vállalkozásra

    Ez az informatikához és az üzleti életben betöltött szerepéhez való hozzáállás arra kényszerít bennünket, hogy újragondoljuk a „Mi az információs technológia fő célja?” kérdésre adott hagyományos választ. A korábbi válasz, amely megfelelt az 1980-as és 1990-es évek követelményeinek – „Munkatermelékenység növelése, pénzmegtakarítás, új interakciós formák keresése” – most az elérési módokra utal. hadműveleti és taktikai előnyöket.

    Az IT stratégiai szerepe ban ben modern világ- hozzájárulni a menedzsmenthez, megfelelően reagálni a piaci dinamikára, a versenyelőny (Versenyelőny) megteremtése, fenntartása és elmélyítése a maximális haszon kinyerése érdekében!

    Az informatika jelenlegi állapota a következő rendelkezésekkel jellemezhető:

    • nagyszámú szoftver- és hardverrendszer és platform jelenléte hatékony irányítás a termelés, az iparilag működő adatbázisok és a nagy volumenű tudástárak karbantartása, amelyek a cég tevékenységének minden területéről tartalmaznak információkat;
    • olyan technológiák elérhetősége, amelyek bármely felhasználó számára interaktív hozzáférést biztosítanak az információkhoz és erőforrásokhoz – ennek technikai alapja nyitott (ingyenes), ill. vállalati rendszerek információkeresés(Information Retrieval Systems – IRS), állami és kereskedelmi kommunikációs rendszerek, globális (globális hálózati rendszerek), nemzeti (NNS) és regionális (RNS) információs és számítástechnikai hálózatok; nemzetközi megállapodások, szabványok és csereprotokollokat adat;
    • informatika funkcionalitásának bővítése, adatbázisok, adattárházak elosztott működésének biztosítása változatos szerkezetű és tartalmú adatokkal, több objektumú dokumentumokkal, hipermédiával; helyi és integrált probléma-orientált IS létrehozása különféle célokra nagy teljesítményű szerverek és helyi hálózatok alapján;
    • speciális felhasználói felületek felvétele az IS-be az interakcióhoz szakértői rendszerek(Expert System – ES), döntéstámogató rendszerek (Decision Support System – DSS), végrehajtást támogató rendszerek (Executive Support System – ESS), rendszerek gépi fordítás(Translating Computer System – TCS) és egyéb technológiák és eszközök.

    Az informatikai fejlesztésnek öt fő irányzata van.

    1. Globalizáció. A vállalatok az informatikát használhatják üzleti tevékenység folytatására a globális piacon, bárhol, azonnali hozzáféréssel az átfogó információkhoz. történik nemzetközivé válás szoftver eszközökés információs termékpiac. Az információs költségek tágabb földrajzi régióra kiterjedő folyamatos elosztásából adódó előnyök a stratégia szükséges elemévé válik.
    2. Konvergencia. Eltűnnek az ipari termékek és szolgáltatások, az információs termék és beszerzési módok közötti különbségek, szakmai és háztartási felhasználásuk. A digitális, audio- és videojelek átvitelét és vételét ugyanazon eszközökben és rendszerekben kombinálják.
    3. Az információs termékek és szolgáltatások növekvő összetettsége. A szoftverek és hardverek, adatbázisok és adattárolók, karbantartási szolgáltatások és szakértői támogatás formájában megjelenő információs termék folyamatosan fejlődik és összetettebbé válik. Ezzel párhuzamosan az IT interfész része a megoldandó feladatok minden bonyolultságával folyamatosan egyszerűsödik, így a felhasználó és a rendszer interaktív interakciója egyre kényelmesebbé válik.
    4. Interoperabilitás(Interoperabilitás). A számítógépes információs rendszerek közötti, a rendszer és a felhasználók közötti optimális adatcsere, az adatfeldolgozás és -továbbítás, valamint a szükséges információk kialakításának problémái vezető technológiai probléma státuszt kaptak. Modern szoftver és hardver és csereprotokollokat adatok teszik lehetővé azok egyre teljesebb kötetben történő megoldását.
    5. A köztes kapcsolatok megszüntetése(disintermediáció). Az interoperabilitás fejlesztése egyértelműen az információs termék fogyasztóhoz való eljuttatásának egyszerűsítéséhez vezet. Szükségtelenné válik a közvetítői lánc, ha az informatika segítségével közvetlenül lehet megrendelést leadni és a szükséges átvételét.

    Az üzleti életben ez azt jelenti:

    • elosztott adatfeldolgozás megvalósítása, amikor a munkahelyen elegendő erőforrás áll rendelkezésre az információk megszerzéséhez és elemzéséhez;
    • fejlett kommunikációs rendszerek létrehozása, amikor a munkahelyeket a lehető leggyorsabban kombinálják üzenettovábbítás;
    • a „szervezet – külső környezet” integrációs rendszerébe való beavatkozás megszüntetése, a világhoz való közvetlen hozzáférés információáramlások;
    • Elektronikus rendelési és kereskedelmi rendszerek létrehozása és fejlesztése;
    • közösségi hálózatok támogatása.

    A fenti változások az érdekképviseletekkel szemben támasztott követelményekben az informatikai és információs kultúra a vállalatokat a vállalkozások fejlődésének dinamikája és a külső környezet határozza meg, és funkcionális változásokhoz vezet az irányítási rendszerben. Kulcsfontosságú szempontok Ennek a fejleménynek és az IT vállalatirányításban betöltött szerepére gyakorolt ​​hatásuk a következő [Müller-Stevens G., Ashwanden S. Problems of theory and practice of management, No. 1, 1998].

    Az adatfeldolgozástól a tudásmenedzsmentig

    Régóta nem szükséges az informatikát csak adatfeldolgozási eszköznek tekinteni. A technológia segítségével szükség van az adatokból a felhasználó igényeinek megfelelő információk kinyerésére, az ezzel kapcsolatban felmerülő "információs túlterheltség" problémája pedig korszerű, nagy sebességű információ-kiválasztási, további feldolgozási és frissítési eszközöket igényel. Figyelembe kell venni ugyanakkor az üzletileg előnyös és kényelmes interfészek kérdését, valamint a szervezeti egységek és az együttműködési partnerek közötti megosztott tudás interakcióját.

    A helyi rendszerhálózatok regionális, sőt nemzetközi struktúrákkal való gyors integrációja az informatika klasszikus munkaterületeinek felhagyásához, a források széles körű vonzásához vezet. távközlés. Ez szervezetileg a vállalkozás információs határainak "elmosódásához" vezet. Egyre nehezebb meghatározni, hol kezdődik és hol ér véget. Az ilyen "virtuális vállalkozások" számára megfelelő kommunikációs struktúra kialakítása és működtetése információkezelési feladat, akárcsak a klasszikus termelési folyamatok támogatása vagy az IT-alapú áruk és szolgáltatások fejlesztése. Ez nem csak az információfeldolgozásról szól, hanem arról is a tudás ésszerű elosztásában és felhasználásában. A tudás legyen nyereséges, és ha lehet, ma!

    Emellett a vállalat alkalmazottainak és vezetőinek professzionális szinten figyelembe kell venniük az IT számára minden új és fontos szempontot. Példa erre az Internet / Intranet technológiák technológiai és gazdasági jelentőségének kérdése. Az információs technológiai szolgáltatás feladata egy olyan platform létrehozása, amelyen lehetővé válik a vállalati menedzsment, beleértve a személyzet képzett (beleértve a pszichológiai) képzését is.

    Decentralizáció és az információs igények növekedése

    A horizontális, decentralizált struktúrákra való átállás vállalkozásaitól megkövetelte a maximális ügyfélközelkedésre való orientációt. A decentralizált környezetben történő döntéshozatal az ezzel kapcsolatos információk iránti igény meredek növekedéséhez vezetett áruk és szolgáltatások előállításának folyamata. Szükség volt a harmadik fél részletesebb megismerésére az érintett üzleti területek és rendszerek helyzetével a minőség megvalósítása termék. Az új környezetben a teljes körű információszolgáltatásnak hibátlanul kell működnie.

    Az IT-használat célja a vállalat szervezeti összetettségének kiegyenlítése. Korábban ezt úgy érték el, hogy bonyolult számításokat végeztek számítógépekkel és nagyon nagy mennyiségű dokumentációt dolgoztak fel. Most már az a kérdés, hogy az új kommunikációs technológia segítségével hogyan lehet továbbfejleszteni az összekapcsolódások egyre bonyolultabb horizontális és vertikális modelljeit (amelyek szerkezete folyamatosan változik).

    Korábban a vállalkozásoknál nagy teljesítményű számítástechnikai központokat telepítettek, amelyek rengeteg digitális jelentést készítettek, amelyek alapján a későbbiekben a gazdasági tevékenységet irányították. A vállalat informatikai részlegei számára most az a kihívás, hogy olyan technológiát fejlesszenek ki, amely képes a vezetőket és döntéshozó partnereiket naprakészen tartani egy decentralizált környezetben. Az új információtechnológiai rendszereknek nem valamilyen elvont gazdasági rendszert kell biztosítaniuk, hanem konkrét partnereket, akik különféle formákban részt vesznek a gazdasági folyamatban.

    Decentralizált rendszerek integrációja

    A vállalkozások információinak feldolgozása sokféle rendszeren belül történik, amelyek gyakran nem kapcsolódnak egymáshoz. Ezek széles körben elérhetővé tétele minden alkalmazott (és külső partnerek) számára, és ezáltal a kreatív döntéshozatal elősegítése. kritikus sikertényező sok vállalkozás számára. Ugyanakkor a decentralizáció kapcsán felmerült informatikai rendszerek vertikális és horizontális integrációja szinte lehetetlennek tűnik. Mindenesetre az informatika klasszikus területein e tekintetben nincs tapasztalat. Az integrációnak azonban meg kell történnie.

    Hasonló cél kitűzése szükséges a felső vezetés számára valódi változásmenedzsmenthez. Elérésükben a szervezeti kar lehet a virtuális, projekt- és munkacsoportok, amelyeket közös érdekek egyesítenek az aktuális projektek megvalósításában és a hosszú távú feladatok megoldásában. Az ilyen csoportok számára akár a vállalat elosztott részlegeinek és az azokat kísérő informatikának a funkcióit is hatékonyan kezelhetik. A cél ebben az esetben a vállalat egymással összefüggő technológiai, társadalmi, funkcionális és gazdasági folyamatainak integrációs megközelítése lehet.

    Befektetések és kockázatok

    Az IT-be való befektetésnek számos következménye van ma. Egyrészt bizonyos távlatokat nyitnak meg, másrészt a gyors technológiai változásokkal járó függőségek és egy-egy technológiához vagy beszállítóhoz való „kötődés” miatt megfoszthatják a vállalkozást a jövőbeni ígéretes lehetőségektől. Ezért az IT-beruházásról addig nem szabad döntést hozni, amíg az egyes számítástechnikai és telekommunikációs eszközök használatának kockázatait fel nem mérték, és szakmai tanácsot nem kaptak arról, hogy a technológia következő generációja milyen irányba fejlődik. Az informatikai beruházások tervezésekor feltétlenül „szem előtt kell tartani” ezek megszerzésének és bevezetésének végső célját – azt, hogy az IT mennyiben járul hozzá a vállalat üzleti stratégiájának megvalósításához.

    Pszichológiai tényező és nyelvi szintek

    Az új technológia természetesen növeli a termelékenységet, segíti a vállalatot a jobb gazdasági eredmények elérésében. Ezzel együtt a vezetőknek tisztában kell lenniük azzal, hogyan használják az emberek új technológia. Azok a cégek, amelyek ebben jobban járnak, nagyobb megtérülést remélhetnek IT-befektetéseikből.

    Az információtechnológiai gyártóknak és az integrációs csapatoknak meg kell tanulniuk javaslatokat tenni, nem csupán technikai értelemben. A tárgyalások során a partner olyan kérdéseket vet fel, amelyek alapvető fontosságúak a cége felső vezetése számára. Itt fontos, hogy mindkét fél új tárgyalási szintre jusson a felek ugyanazt a nyelvet beszélnék. Ebben az esetben inkább nem a technológia, hanem az informatikai szolgáltatások minőségéről van szó. A technikának természetesen jól kell működnie magas szint. Gyártójának ugyanakkor olyan menedzsernek kell éreznie magát, aki az IT segítségével versenyelőnyök elérésére törekszik. A "nettó eladó" az informatikai értékesítési rendszerben a múlté. Hasonló helyzetnek kellene kialakulnia magán a vállalkozásnál is, különösen, ha diverzifikált termelésről vagy különféle szolgáltatások nyújtásáról van szó. Az IT-menedzser azon képessége, hogy közös nyelvet találjon az osztályvezetőkkel, megszűnjön a magányosok művészetének lenni, és napi gyakorlattá váljon.

    A társadalomban az információcsere főként szöveges formában valósul meg. Ezért nem véletlen, hogy nagyon nagy arányban információs források a modern információs rendszerek szöveges információ. A szöveges információk tárolására, feldolgozására és keresésére szolgáló hatékony technológiák fejlesztése már az információs rendszerek fejlesztésének korai szakaszában nagy figyelmet kapott. Az aktív kutatás és gyakorlati fejlesztés ezen a területen a múlt század 50-es éveiben kezdődött, attól az időtől kezdve, amikor a számítástechnika lehetőséget biztosított a szöveges információk bevitelére-kimenetére.

    A szöveges információkkal foglalkozó információs rendszerek közül a legelterjedtebbek a szöveges keresőrendszerek. Feladatuk, hogy megtalálják a számítógépen tárolt gyűjteményben szöveges dokumentumok természetes nyelven olyan dokumentumokat, amelyek érdeklik a felhasználót.

    A szövegkereső rendszerek fejlődését nagymértékben ösztönözte a tudományos kutatás és oktatás információs támogatásának igénye, valamint az automatizált könyvtári rendszerek fejlesztése. Az utóbbi években azonban a cégek irányításában és számos más tevékenységi körben is egyre inkább alkalmazzák őket A számítógépes információkeresés közel fél évszázados múltra tekint vissza. Az első automatizált információs rendszereket már a múlt század 50-es éveiben kezdték fejleszteni, és fő funkciójuk éppen az információkeresés volt. Ezért ezeket információkereső rendszereknek (IPS) nevezik.

    A támogatott információs források jellegétől függően ezeket a rendszereket általában két kategóriába sorolták: tényszerű és dokumentum jellegű. A Factographic IPS a való világ entitásaiként ábrázolt tényeken és azok tulajdonságain dolgozott, és lehetővé tette a felhasználó által megadott tulajdonságokkal rendelkező entitások, valamint a meghatározott entitások tulajdonságainak megtalálását. Amikor az 1960-as évek elején elkezdtek megjelenni az adatbázis-technológiák, világossá vált, hogy az információs rendszerek ezen kategóriája az adatbázisrendszer speciális esete. Ennek eredményeként ezt az irányt az információ-visszakeresés területén fokozatosan „beszívták” az adatbázis-technológiák.

    A Documentary IPS-t természetes nyelvű szövegeket tartalmazó dokumentumok tárolására és keresésére tervezték. Az ilyen IRS-ek korai szöveges keresőrendszerek.

    Az ebben az időszakban kifejlesztett szövegkereső rendszereket leíró IPS-nek nevezték. Az ilyen rendszerekben az egyes szöveges dokumentumok és felhasználói keresési lekérdezések tartalmát szavak vagy kifejezések, úgynevezett leírók írják le. A keresés során az IS nem magával a szöveges dokumentumokkal, hanem azok „helyetteseivel” működik, amelyeket a legtöbb rendszerben manuálisan alakítanak ki a dokumentumok szerzői, a dokumentumok témakörének szakértői és más személyek. A rendszerben lévő dokumentumokat reprezentáló leírók egy felhasználói kérést képviselő leírókészlettel történő egyeztetése lehetővé teszi a felhasználó által igényelt dokumentumok megtalálását. A leíró IPS-ek viszonylag egyszerű keresési mechanizmusokkal rendelkeznek, de a keresés minősége viszonylag alacsony.

    A leírórendszerek egyik leggyakoribb alkalmazása a bibliográfiai keresés volt. Az ilyen rendszerek a dokumentumok bibliográfiai leírásainak gyűjteményeit tárolják, és a rendszer lehetővé teszi egy adott szerző publikációinak, egy meghatározott kiadó által kiadott és/vagy egy adott évben megjelent kiadványok, stb. Sok bibliográfiai leíró IPS ma is használatban van.

    A számítástechnika fejlődése során a számítógépek eszközöket szereztek külső memória kellően nagy mennyiség közvetlen elérése, a processzorok teljesítménye jelentősen megnőtt. Ez lehetővé tette a teljes szöveges keresési technológiáknak nevezett fejlettebb technológiák létrehozását és gyakorlati alkalmazását a dokumentumfilmes IPS-ben.

    A dokumentumok teljes szövegének ilyen rendszerekben történő tárolásának és feldolgozásának köszönhetően lehetővé vált a nyelvi elemzés és a dokumentumkeresés folyamatainak nagymértékben automatizálása. Megközelítéseket fejlesztettek ki számos, ebben a folyamatban használt szótár és tezaurusz összeállításának automatizálására. A dokumentumelemzés statisztikai módszerei fontos helyet foglalnak el a teljes szöveges keresési technológiákban. Kezdetben a teljes szövegű rendszerek főként kontextus szerinti keresést biztosítottak, pl. olyan dokumentumok keresése, amelyek szövege tartalmazza a felhasználói kérésben megadott kontextus előfordulását. Később elkezdték használni a logikai kritérium alapján történő keresést. Különféle finomabb keresési modelleket is kidolgoztak.

    A szövegkereső rendszerek története során a kutatások aktívak voltak ezen a területen. A szöveges keresőrendszerek fejlődésére nagy hatást gyakoroltak az innovatív kutatási projektek és a teljes szövegű keresőrendszerek kísérleti prototípusainak fejlesztése a múlt század 60-as éveiben. Ezt az időszakot jelentős előrelépések jellemzik a szövegkereső rendszerek és az azokban alkalmazott módszerek megszervezésének különböző vonatkozásaiban. Jelenleg a szóban forgó területen az ígéretes fejlesztések a TRES (Tech Retrieval Сonfence) szövegkereső nemzetközi konferencia köré összpontosulnak, amelyet 1992-ben hozott létre az Egyesült Államokban az Amerikai Nemzeti Szabványügyi és Technológiai Intézet (NIST).

    A szöveges keresési technológiák aktív fejlődése és a felhasználók információs igényei ösztönözték az IPS átalakulását a szöveges keresőrendszerekből egy általánosabb osztályba tartozó rendszerekké, amelyek nemcsak szöveges dokumentumokkal, hanem más jellegű információkat tartalmazó dokumentumokkal is foglalkoznak. Az ilyen rendszerekben (ezeket multimédiának nevezik) a keresési objektumaik - dokumentumok - tartalma a különféle környezetekben bemutatott információforrások - szövegelemek, statikus képek, hangadatok (zenei művek, hanggal kimondott szöveg stb.) kombinációja. , rajzfilmek , videoklipek stb.

    Valószínűleg a szöveges keresőrendszerek és az ezen egyéb típusú információforrásokat üzemeltető keresőmotorok megkülönböztetése érdekében az elmúlt években az információkereső rendszer (Information Retrieval System) kifejezéssel együtt a szöveges keresőrendszer (Tech Search System vagy Tech Retrieval) kifejezés is. rendszer) használták.

    Mivel a felhasználók meglehetősen magas követelményeket támasztanak a szöveges keresőrendszerekkel szemben, modern technológiák A szöveges keresés a kutatás és fejlesztés rendkívül összetett szintetikus területévé vált. Ez a terület a problémák széles skáláját fedi le – az információ-visszakeresés elméletétől a felhasználók igényeinek kielégítésére szolgáló módszerekig az információgyűjtés, rendszerezés, tárolás, visszakeresés és terjesztés terén. Ide tartozik továbbá a felhasználók közötti interfészek és erőforrás-kezelő eszközök biztosításának problémája a számítógépes környezetben karbantartott strukturálatlan vagy félig strukturált információkhoz. A szövegkereső rendszerekben analitikus és empirikus megközelítést is alkalmaznak.

    A szövegkereső technológiákban jelentős helyet foglal el a természetes nyelvi feldolgozás, i.e. a természetes nyelvi szövegek megértésével, elemzésével, különféle műveletek elvégzésével, illetve generálásával kapcsolatos problémák számítógépes megoldása. Ez a feladatcsoport a mesterséges intelligencia területéhez tartozik.

    A modern szövegkereső technológiák nemcsak a nyelvészet apparátusát használják szövegelemzésre, hanem statisztikai módszereket, matematikai logikát és valószínűségszámítást, klaszteranalízist, mesterséges intelligencia módszereket és adatkezelési technológiákat is.

    Az 1990-es évek közepén a világ számos országában kibontakozó információs szupersztrádán végzett munka, különös tekintettel a digitális könyvtárak létrehozására, nagymértékben felélesztette az érdeklődést a szöveges keresési problémák iránt. Teljesen új irányok jelentek meg, mint például az információ felfedezése a globálisban számítógép hálózat, szöveges keresés az interneten, többnyelvű keresés.

    Fél évszázados fejlődéstörténete során a szöveges keresési technológiák óriási lépést tettek a legegyszerűbb leíró információ-visszakereső rendszerektől a kifinomult, teljes szövegű keresőrendszerekig, a keresőmotoroktól a gazdagabb funkcionalitással rendelkező rendszerekig. A modern számítástechnikai rendszerek erőforrásai lehetővé teszik hatalmas mennyiségű információs erőforrás tárolását a szöveges keresőrendszerekben, amelyekben nemcsak technikai, hanem algoritmikusan is bonyolult eljárások lefolytatását a tárolt dokumentumgyűjtemények feldolgozására - azok osztályozására, klaszterezésére, elmélyülésére. szövegek elemzése, dokumentumok fordítása egyik nyelvről a másikra stb. .d.

    A szövegkereső rendszerek jelentős hatást gyakoroltak az információs rendszerek egy sajátos osztályának, az úgynevezett dokumentumkezelő rendszereknek a kialakulására, amelyeket ma már számos nagy kereskedelmi vállalat és más szervezet is széles körben használ. Az ilyen rendszerekben nemcsak a szöveges dokumentumokkal való munkavégzésre tervezett természetes nyelvi feldolgozási módszerek kapnak fontos szerepet, hanem a dokumentumok csoportos fejlesztésének megszervezése, tárolása, terjesztése, és természetesen a szöveges keresési technológiák is.

    A szöveges keresési technológiák fejlődése az elmúlt években meglehetősen intenzíven folytatódott, köszönhetően a számos országban folyó aktív kutatás-fejlesztésnek. A kereskedelmi szövegkereső szoftverek iparága kialakult. Ilyen rendszereket fejlesztenek és széles körben alkalmaznak hazánkban.

    Mint már említettük, a szöveges keresési technológiák a természetes nyelveken bemutatott információkkal foglalkoznak. Az ilyen információk tartalmi változatossága meglehetősen széles - lehetnek újságokban és folyóiratokban megjelent cikkek, különféle műszaki kézikönyvek, jelentések, könyvek, értekezések, levelek, jogalkotási aktusok stb.

    A szövegkereső rendszerek információs alapegységét dokumentumnak nevezzük. A dokumentum nem jogi személy, hanem valamilyen természetes nyelven bemutatott, tartalommal teli, egyedileg azonosítható információegység. A korai IP-kben a dokumentumot atomi (oszthatatlan) egységnek tekintették. A rendszer számára „fekete dobozként” működött. A fejlettebb szövegkereső rendszerekben a dokumentum tartalma a rendszer rendelkezésére áll feldolgozás és elemzés céljából.

    Teljes szöveges keresőrendszerek működnek elektronikus dokumentumokat, azaz a számítógép memóriájában tárolt és automatizált feldolgozásra rendelkezésre álló dokumentumok. A szöveges dokumentumok számítógépes nyelvi elemzése és feldolgozása csak akkor lehetséges, ha azok programozottan elérhetőek egyedi elemek szöveges dokumentum. Ezért nem elegendő egy szöveges dokumentumot papírra szkennelni, és a kapott faxot a számítógép memóriájába menteni. grafikus fájl bármilyen formátumban. Szükséges egy dokumentum digitalizált formában, pl. olyan formátumban, hogy a dokumentum szövegének minden karaktere programozottan elérhető legyen. A rendszer így a digitalizált dokumentum tartalmi elemein tud működni. Egy szöveges dokumentum digitalizált ábrázolása létrehozható például a következőkkel:

    Beolvasás papírról és a felismerő program használata optikai szimbólumok(Optikai karakterfelismerés – OCR);

    Szöveggenerálás programozottan hangfelismerővel vagy bármilyen más módon.

    A rendszerben tárolt dokumentumok halmazát másképp hívjuk be különböző rendszerek(keresőtömb, archívum stb.). Az utóbbi időben gyakran használták erre a célra a „dokumentumgyűjtés” kifejezést. Minden szöveges keresőmotor általában több különböző dokumentumgyűjteményt támogathat.

    A dokumentumokat a felhasználók információs igényeinek kielégítése érdekében szöveges keresőrendszerben tárolják. A felhasználó információs igényeinek érzékelhető formában történő megjelenítése szoftver A szöveges keresőmotort felhasználói lekérdezésnek (vagy egyszerűen lekérdezésnek) nevezik. Szükséges alkatrész a felhasználói kérelem tartalma azoknak a tulajdonságoknak a leírása, amelyekkel a felhasználót érdeklő dokumentumok rendelkeznek. Természetes, hogy ezt a leírást keresési kritériumnak nevezzük.

    Hangsúlyozni kell, hogy a keresési granularitás egysége, i.e. a legtöbb szöveges keresőrendszerben a felhasználónak az általa adott kérés feldolgozása eredményeként adható legkisebb információegység pontosan a dokumentum, nem pedig annak egy része. Általános szabály, hogy a felhasználói kérés feldolgozása eredményeként a rendszer egy sor dokumentumot állít elő, amely megfelel a kérésben meghatározott feltételeknek.

    A felhasználói lekérdezésekben a keresési feltételek különféle formákat ölthetnek. Ez lehet például a szükséges dokumentumokban található kifejezések (szavak vagy kifejezések) halmaza, vagy logikai operátorszimbólumokkal összekapcsolt kifejezések. Ez utóbbi esetben a logikai operátor a hozzá tartozó szavak egyidejű (ÉS operátor) előfordulásának feltétele a dokumentumban, alternatív előfordulása (OR operátor), vagy előfordulások hiánya (NOT operátor) az őt követő kifejezésnek. . Bonyolultabb esetekben egy természetes nyelvű mondat vagy akár a felhasználó információigényét kielégítő dokumentumpélda szolgálhat keresési kritériumként. Egy ilyen dokumentum elemzésekor a rendszer kiválasztja azokat a kifejezéseket, amelyek a felhasználói lekérdezés valamilyen "belső" formáját alkotják.

    A rendszerben tárolt, a felhasználó kérésének megfelelő dokumentumokat relevánsnak nevezzük.

    Egy dokumentum relevanciáját nem kell kétértékű logika ("igen - nem") szerint értékelni. Egyes fejlett rendszerekben finomabb becsléseket használnak, amelyeket egy speciálisan kiválasztott numerikus függvény (relevanciafüggvény) értékeiként számítanak ki, amely az intervallumban vesz fel értékeket. Ilyen esetekben célszerű a dokumentum relevanciájának mértékéről beszélni, e funkció értékének felfogva. Egyes szöveges keresőrendszerek a lekérdezés feldolgozása eredményeként kapott dokumentumkészletet bocsátanak a felhasználó rendelkezésére, a dokumentumokat relevánsság szerint csökkenő sorrendbe rendezve. A talált dokumentumok ilyen sorrendjét rangsorolásnak nevezzük. A felhasználó hatékonyabban elemezheti az eredményül kapott lekérdezési dokumentumok rangsorolt ​​halmazát. A találtak közül nagy valószínűséggel a legérdekesebb dokumentumok a megjelenített dokumentumlista elején találhatók.

    Különböző okok miatt, amelyek elsősorban a természetes nyelvi megértés automatizálásának nehézségeivel, valamint a felhasználó információigényének a kérésben való megjelenítésének pontatlanságával, a felhasználói kérelem feldolgozása következtében olyan dokumentumokkal kapcsolatosak, amelyek nem megfelelnek a felhasználó információs igényeinek. Ezt a jelenséget információs zajnak nevezik.

    A szöveges keresőrendszerekben a keresés minőségének fontos jellemzője a keresés teljessége és pontossága. A keresés teljessége határozza meg a felhasználói kérelmek feldolgozása eredményeként kiállított releváns dokumentumok számának arányát a rendszerben ténylegesen elérhető releváns dokumentumok számához viszonyítva. A releváns dokumentumok százalékos aránya az eredményül kapott lekérdezési dokumentumok halmazában felhasználható a keresés pontosságának számszerűsítésére.

    2. A szöveges keresés alapelvei

    Nézzük most a modern szövegkereső rendszerek felépítésének alapelveit. Az itt használt technológiák sokféleségét a rendszerben tárolt dokumentumok jelentésének természetes nyelveken történő megjelenítésére használt megközelítések különbségei és a felhasználók információs igényei, valamint a dokumentumok felhasználói lekérdezések szempontjából való relevanciájának sokféle kritériuma okozza.

    A komplexitás forrásai a modern szövegkereső rendszerekben. A korai információkereső rendszerek technológiáitól eltérően a kifejlesztett modern szövegkereső technológiák információtartalmuk alapján biztosítják a felhasználó érdeklődésére számot tartó dokumentumok keresését, nem csak az ezekhez a dokumentumokhoz kapcsolódó attribútumok leírói vagy értékei alapján (év publikáció, szerző, kiadó stb.). stb.). Ezek a tulajdonságok, bár különösen lehetnek egyedi azonosítók dokumentumokat, de nem függenek tartalmuktól.

    A szövegkeresési technológiák fő problémái a dokumentumszövegek tartalmának egyértelmű automatikus értelmezésének és a felhasználói információs igények természetes nyelven történő megfogalmazásának bonyolultságához kapcsolódnak. A természetes nyelvű állítások gyakran kétértelműek és redundanciásak. Figyelembe kell venni a kifejezések szinonímiáját és homonimiáját, a nyelvi elemek nyelvtani formáinak változatosságát. A mondatban szereplő szavak közötti szemantikai kapcsolatok gyakran implicit formában jelennek meg. A természetes nyelvek szókincse dinamikus, gyakran számos témakörben jelennek meg új fogalmak, kifejezések.

    Ezek a jellemzők azt eredményezik, hogy a természetes nyelvű szöveges dokumentumokban nincs szabályos szerkezet. Ezért az ilyen jellegű információforrásokat reprezentáló adatokat strukturálatlannak nevezzük.

    A rendszerben tárolt dokumentumok és a természetes nyelven kifejezett felhasználói lekérdezések tartalmának szemantikai összehasonlítása meglehetősen nehéz feladat. Pontosan ez magyarázza annak eldöntésének bonyolultságát, hogy a kérdéses dokumentum megfelel-e a felhasználó információs igényeinek modern rendszerek szöveges keresés.

    Az ilyen jellegű adatok kezeléséhez az adatbázis-rendszerektől eltérő adatkezelési technika alkalmazása szükséges, bár az adatbázis-rendszerekben használt adatkezelési elemek egy része a szöveges keresőrendszerekben is alkalmazható.

    Dokumentumok ábrázolásai. A szöveges keresőrendszerekben tárolt dokumentumok gyűjteménye meglehetősen nagy lehet. A dokumentumokban található szövegek is meglehetősen nagy terjedelműek lehetnek. Ezért nem reális elvárás, hogy egy szöveges keresőrendszer képes legyen elemezni a tárolt dokumentumok teljes szövegét a felhasználói kérések feldolgozása során, még akkor is, ha ez a rendszer egy nagyon erős számítógépen alapul. Egy ilyen rendszer teljesítménye nem lenne túl magas.

    A kiút az, hogy a felhasználói kérés feldolgozása során nem magukkal a dokumentumokkal dolgozunk, hanem tartalmuk néhány strukturált megjelenítésével, amelyeket dokumentumnézeteknek neveznek (egyes kiadványokban dokumentum-képviselőknek is nevezik). Ha maga a dokumentum helyett dokumentumnézetet használ, elkerülhető a teljes tartalom böngészésének és elemzésének időigényes folyamata a keresési szakaszban, miközben továbbra is kihasználja a strukturált nézet előnyeit a keresés hatékonyságának javítására.

    Modern szöveges keresőrendszereket használnak különböző megközelítések tárolt dokumentumok reprezentációinak elkészítéséhez. A keresés minősége, azaz pontossága, teljessége, teljesítménye és egyéb jellemzői jelentősen függenek az alkalmazott dokumentumábrázolások jellegétől. Mivel a rendszerbe bevitt szöveges dokumentumok rendszerint változatlanok maradnak a rendszerben való létezésük teljes időtartama alatt, ezért a rendszerben elérhető minden egyes dokumentum ábrázolásának felépítése egyszer, a rendszerbe való belépés szakaszában elvégezhető. a rendszer.

    Dokumentum indexelés. A dokumentum megjelenítése általában a dokumentum tulajdonságainak (attribútumainak) alapján épül fel. NÁL NÉL egyszerű rendszerek szöveges keresés, ezek az attribútumok, mint már jeleztük, egyáltalán nem összetevői a dokumentum tartalmának. Ilyen attribútumként bármilyen külső (a dokumentum szövegéhez viszonyított) jellemző használható, és egyáltalán nem szükséges, hogy egyedi módon azonosítsák azt. Használhatja például a dokumentum nyilvántartási számát az archívumban, a nyilvántartásba vétel dátumát, a dokumentumot átvevő szervezet nevét, a tárolási hely megjelölését stb. A fejlécek dokumentumosztályozók vagy Dublin core metaadat elemek is használhatók a dokumentumok ilyen külső attribútumaként.

    A Dublin Core (DC) metaadatelemek halmaza, melynek jelentése szóban van leírva, és rögzítve van az azt meghatározó szabvány specifikációjában. Ezen elemek értékét tekintve különböző típusú szöveges dokumentumok és más médiában bemutatott dokumentumok tartalma leírható. Az ilyen leírást egyértelműen megérti az egész közösség, amely a DC-t használja dokumentumok és felhasználói kérések megjelenítésére.

    A dublini mag az elmúlt években egyre szélesebb körben elterjedt. Ennek a megközelítésnek a vonzereje az egyszerűségével függ össze, amelyről természetesen kiderül, hogy lehetőségei korlátozottak.

    A Dublin Core eredeti verzióját, amely 13 elemet tartalmazott, egy 1995-ös dublini (USA) szimpóziumon javasolták az On-line Computer Library Center (OCLC) és a National Center for Supercomputing Applications (NCSA) által az információk leírására. a könyvtári rendszerek forrásai, különösen a webes információforrások stb. A Dublin Core fejlesztését egy kifejezetten erre a célra létrehozott szervezet, a Dublin Core Metadata Initiative (DCMI) támogatja.

    A Dublin Core specifikációk jelenlegi verzióját, a DC 1.1-et 1999-ben fogadták el DCMI-szabványként. 15 metaadatelemet tartalmaz. Ezek tartalmazzák:

    Cím (erőforrás neve);

    Alkotó (az erőforrás tartalmának elkészítéséért felelős személy, szervezet vagy szolgálat);

    Tárgy (a forrás tartalmában tárgyalt téma);

    Leírás (az erőforrás tartalmának leírása szabad formában);

    Kiadó (az erőforráshoz hozzáférést biztosító személy, szervezet vagy szolgáltatás);

    Közreműködő (a forrás tartalmának elkészítésében a Teremtőben meghatározottakon kívül egyéb résztvevők)",

    Dátum (az erőforrás létrehozásának vagy elérhetővé tételének dátuma);

    Formátum (az erőforrás-ábrázolás jellege);

    Nyelv (forrás-bemutató nyelv);

    Lefedettség (tér, idő stb. területe, amelyhez az erőforrás tartalma tartozik);

    Jogok (az erőforráshoz fűződő szellemi tulajdonjogok stb.). A Dublin Core metaadatelemek összetételéről megkötött megállapodás rögzíti a hozzá tartozó elemek összetételét. Verbális szinten azonban nehéz egyértelműen mindegyiknek pontos jelentést tulajdonítani. Például a Dátum elemnek eltérő jelentése lehet különböző esetekben - az oldal webes közzétételének dátuma, dátuma legújabb frissítés ez az oldal stb.

    Emiatt 2000-ben a Dublin Core DMCI számára javasolták a minősítők koncepcióját, és közzétették kezdeti összetételüket.

    A minősítők a Dublin Core metaadatelemek szemantikáját és jelentésüket jelölik különböző konkrét használati esetekben. Például a Dátum elemnél megadhatja, hogy az erőforrás létrehozásának idejét, elérhetőségét, tartalma érvényességi idejét és így tovább értse. A Relation elem értékéhez megadhatja, hogy az URL formátumban legyen.

    Ha valamely Dublin Core metaadatelemhez megadott minősítőt a webalkalmazás nem ismeri, akkor azt figyelmen kívül kell hagyni.

    A DMCI által 2000-ben elfogadott minősítőkészlet két kategóriába tartozó minősítőt tartalmaz: az alapvető metaadatelemek szemantikáját meghatározó minősítőket, valamint azokat, amelyek meghatározzák, hogyan kódolják az elemeinek értékeit, hogy megfelelően értelmezhetőek legyenek.

    Jelenleg a metaadat-elemek halmazának adott összetételének és minősítőinek tisztázása folyik. A DC 1.1 specifikációi alapján 2001-ben elfogadták az ANSI/NISO Z39.85-2001 nemzeti amerikai szabványt.

    A kontextuális teljes szövegű keresőrendszerekben a dokumentumábrázolási attribútumok a tartalmából kinyert kifejezések - szavak, kifejezések stb., vagy egyes speciálisan kiválasztott függvények értékei, amelyeket ezek alapján számítanak ki.

    Mindenesetre a dokumentumhoz társított attribútumokat, amelyek a dokumentumot azonosítják és/vagy a tartalmát jellemzik, indexelési tulajdonságainak nevezzük. A dokumentumok indexelési tulajdonságai alapján a szövegkereső rendszerben egy olyan segédadatstruktúra épül fel, amely értékeik, vagy valamilyen, azokat argumentumként használó függvény értékei segítségével hatékonyan (anélkül) dokumentumok tartalmának teljes szkennelése és teljes felsorolás nélkül), hogy megtalálja a rendszergyűjteményekben vagy dokumentumokban azt a dokumentumot, amelynek ezek az attribútumok megfelelnek, és ha szükséges gyors hozzáférés ezekhez a dokumentumokhoz. Az ilyen segédadatszerkezetet indexnek, a megadott attribútumok dokumentumhoz való hozzárendelésének folyamatát pedig dokumentumindexelésnek nevezzük.

    A korai szövegkereső rendszerek a dokumentumok legegyszerűbb ábrázolását használták, amely egyszerűsége miatt igen népszerű volt, bár nem tudott jó minőségű keresést biztosítani. Ilyen ábrázolásként a rendszer tárgykörének szókincséből álló szavak vagy kifejezések készlete szolgált, amely a jelen dokumentum tartalmát jellemzi. Ezeket a szavakat és kifejezéseket leíróknak nevezzük. A dokumentum leíró rendszerekben való ábrázolását dokumentumkereső képnek nevezzük.

    A vizsgált megközelítést alkalmazó IS-eket leírórendszereknek nevezzük. Az ilyen rendszerek ma is használatosak. A bennük lévő dokumentumok indexelése egy sor leíró hozzárendelésére redukálódik.

    A szöveges keresőmotorokban a dokumentumok indexelése történhet címeik, megjegyzéseik, ill teljes szöveg. Ezt manuálisan is megtehetik a dokumentumszerzők, a rendszertartományi szakértők, akik előkészítik a dokumentumokat a rendszerbe való bejutáshoz, vagy automatikusan, a dokumentumelemzésen alapuló rendszermechanizmusok segítségével.

    A modern fejlett szövegkereső rendszerekben a dokumentumok bemutatásának és indexelésének módszerei meglehetősen munkaigényes számítási eljárásokat alkalmaznak, így csak automatikusan implementálhatók.

    Felhasználói kérések megjelenítése. A szöveges keresőrendszerek másik fontos feladata a felhasználói lekérdezések tartalmának strukturált reprezentációinak kialakítása. Ugyanúgy, ahogy a rendszer a keresési folyamat során a dokumentumok strukturált ábrázolásával működik a dokumentumok helyett, a felhasználó által megadott lekérdezés helyett a strukturált ábrázolását használja, amely a kérés feldolgozása során jön létre. A lekérdezési nézet ugyanazokra az elvekre épül, mint a dokumentumnézetek ebben a rendszerben, mivel különben nem lennének párosíthatók.

    Például a szöveges keresési leíró rendszerekben a lekérdezés tartalmát jellemző leírók halmazát is használják lekérdezésábrázolásként. Az ilyen rendszerekben a lekérdezés reprezentációját lekérdezéskeresési képnek nevezzük.

    A dokumentumok relevanciájának kritériumai. A felhasználói kérés feldolgozása során a rendszernek értékelnie kell a következő vizsgált dokumentum relevanciáját. Ennek a kérdésnek a megoldásához a reprezentációját össze kell hasonlítani valamilyen relevanciakritériummal (közelségi kritérium) a lekérdezés reprezentációjával.

    A közelségi feltétel típusa attól függ, hogy a rendszer milyen megközelítést alkalmaz a dokumentum- és lekérdezésábrázolások generálására. A leíró rendszerek általában halmazelméleti kritériumokat használnak. Például egy dokumentum akkor tekinthető relevánsnak, ha a lekérdezés keresési képleírókészlete a dokumentumkeresési képleíró készlet egy részhalmaza. A kritérium egyéb változatai - a jelzett leírókészletek egyenlőek, vagy metszéspontjuk nem üres. A fejlett szöveges keresőrendszerek kifinomultabb közelségi kritériumokat használnak.

    A szöveges keresés általános elvei. A modern szövegkereső rendszerek meglehetősen sokféle megközelítést alkalmaznak a tárolt dokumentumok bemutatására és indexelésére, a felhasználói lekérdezések bemutatására, a dokumentumok relevanciájának felmérésére. Azonban mind az egyszerű, mind a fejlett rendszerek használnak néhányat Általános elvek kereső szervezet. Ezek az általános elvek a következők.

    Amikor egy dokumentumot bevisznek a rendszerbe, a dokumentum indexelésre kerül, és létrejön a reprezentációja, amely ezt a dokumentumot helyettesíti a rendszer működése során a felhasználói kérések feldolgozásakor. Mivel a dokumentum bemutatása kellően formalizált, nem szükséges a teljes szövegét minden egyes kérelem feldolgozása során elemezni. A dokumentum megjelenítése változatlan marad a dokumentum rendszerben való fennállásának teljes időtartama alatt, mivel a dokumentum tartalma nem változik.

    Továbbá a rendszeren kívülről kapott, vagy a rendszer által a dokumentumok tartalmának elemzésével azonosított konkrét dokumentumok indexelési tulajdonságai alapján a rendszer indexet képez és tart fenn minden benne tárolt dokumentumgyűjteményhez. Azt is biztosítja, hogy az index frissüljön, amikor a gyűjteményt hozzáadják a gyűjteményhez, vagy viszonylag ritkán, amikor dokumentumokat eltávolítanak a gyűjteményből.

    Amikor egy felhasználói kérés belép a rendszerbe, egy megfelelő nézet is készül hozzá. A felépítés módja hasonló a dokumentumok reprezentációinak elkészítéséhez.

    Végül maga a keresés abból áll, hogy valamilyen hatékony módon (nem közvetlen felsorolással, hanem általában a gyűjtemény racionálisan szervezett dokumentumindexének segítségével) a lekérdezési reprezentációt összehasonlítják a gyűjteményben tárolt dokumentumok reprezentációival. rendszert a rendszer által elfogadott közelségi kritérium szerint. Bizonyos esetekben ezekhez az áramkörökhöz speciális mérőszámot vezetnek be. A lekérdezés feldolgozási eredményei a talált releváns dokumentumok halmazaként jelennek meg (az eredményül kapott dokumentumkészlet).

    Bár a gyakorlatban a dokumentumok és a felhasználói lekérdezések különféle reprezentációit alkalmazzák, a szöveges keresésnek ezeket az általános elveit sokféle rendszerben alkalmazzák.

    3. Nyelvi támogató eszközök

    A teljes szövegű dokumentumok szövegkereső rendszerekben történő feldolgozásakor természetes nyelvi feldolgozó eszközökkel kell számolni. Ezek az eszközök az ilyen rendszerek meglehetősen összetett és fontos funkcionális összetevői.

    A szöveges keresőrendszerek természetes nyelvi feldolgozó eszközei lehetővé teszik az elemzett szöveges dokumentumokból és felhasználói lekérdezésekből kifejezések (szavak, kifejezések vagy kifejezések) kinyerését - tartalmuk hordozói, e kifejezések közötti kapcsolatok azonosítását, fogalmi kapcsolataik figyelembe vételét a szövegkörnyezetben. adott tárgykörre, erre a dokumentum-megjelenítési alapra építve a felhasználók keresési lekérdezéseit a keresés megvalósításához kényelmes formává alakítani, a lekérdezéseket bővíteni a keresés teljességének növelése érdekében.

    Ezeknek a funkcióknak a végrehajtásához a vizsgált osztály legtöbb rendszerében nyelvi támogató eszközök komplexeit használják. Egy ilyen komplexum tartalmazhat különféle szótárakat, tezauruszokat, a rendszer tárgykörének ontológiai specifikációit.

    rendszerszótárak. A természetes nyelvi feldolgozással foglalkozó szövegkereső rendszerekben az általános nyelvi szókincs és a tartományi szókincs szótárai támogathatók. Az ilyen szótárakat a szöveg morfológiai elemzésére, a különböző nyelvtani formájú szavak azonosításának biztosítására használják a keresési folyamatban, valamint bizonyos típusú dokumentumok és lekérdezések felépítésére.

    Szinonimaszótár. A szöveges dokumentumok formalizált megjelenítésének elemzésében és kialakításában fontos szerepet játszanak a tezauruszoknak nevezett speciális szótárak. A tezaurusz egy nyelv alapfogalmainak szótára, amelyeket egyes szavak vagy kifejezések jelölnek, és ezek között vannak bizonyos szemantikai kapcsolatok.

    A tezaurusz lehet általános nyelvű (például az orosz nyelv tezaurusza), vagy bármely tárgykörre összpontosíthat. A tezaurusz szókincse sok szót és/vagy kifejezést tartalmaz. A köztük lévő támogatott szemantikai kapcsolatok típusai függőek vagy függetlenek lehetnek egy adott témakörtől. Az ilyen hivatkozások jellemzően a nyelvi fogalmak szinonimáit, homonimáit, antonímáit határozzák meg, támogatják a köztük lévő kapcsolatokat „egész - rész”, „nemzetség - faj”, „arra használják”, „működik” stb.

    Jelenleg kétféleképpen készíthető szinonimaszótár – kézi és automatikus. A kézzel készített tezaurusz lehet általános, független egy adott dokumentumgyűjteménytől. Sajnos azonban a tezaurusz kézi fejlesztése nagyon költséges, fáradságos és időigényes. Ezért a gyakorlatban gyakran használják a tezauruszok automatikus létrehozását. A probléma megoldására szolgáló módszereket a múlt század 60-as éveinek elején kezdték fejleszteni. A tezauruszok automatikus létrehozása általában meghatározott szöveges dokumentumok gyűjteményei alapján történik, ezért az ilyen tezauruszok úgy vannak kialakítva, hogy működjenek ezekkel a gyűjteményekkel.

    A tezauruszt használó rendszerekben lehetővé teszi például a kulcsszavak szerinti kereséskor a lekérdezés kiterjesztését a felhasználó által eredetileg megadott kulcsszavak szinonimáira, és ezáltal teljesebb keresést biztosít. A szinonimák a dokumentumban és a lekérdezésben azonosíthatók. A szinonimaszótárakat gyakran használják dokumentumok manuális vagy automatikus indexelésekor is.

    Ontológiák. A természetes nyelven bemutatott szöveges dokumentumok és keresési lekérdezések tartalmának felhasználó és/vagy rendszere általi megfelelő értelmezéséhez a rendszernek olyan kontextussal kell rendelkeznie, amely meghatározza a tárgykör alapfogalmait és a köztük lévő különböző szemantikai kapcsolatokat. Ez a leírás független a rendszergyűjteményekben található konkrét dokumentumoktól, és a rendszer tartománykoncepciójának specifikációja. Kifejezetten kifejezve egy ilyen specifikációt tartományontológiának nevezünk. Az ontológiák az elmúlt években számos területen elterjedtek információs rendszerek tudásra alapozva, tudásmérnökségben, információforrások szemantikai integrációjának problémáinak megoldásában stb.

    A tartományontológia különböző formalizáltsági fokú rendszerben támogatható. A legegyszerűbb esetben valamilyen verbális leírás formájában kerül bemutatásra. Ezután a dokumentumok indexelésének szakaszában és a lekérdezések megfogalmazásakor egy személy számára készült. Bonyolultabb esetben az ontológia formalizált formában kerül bemutatásra olyan tudásreprezentációs nyelveken, amelyek lehetővé teszik a következtetést. Az ilyen rendszereket intelligensnek nevezik.

    A szövegkereső rendszerek fejlődésének korai szakaszában kezdték használni az ontológia reprezentációit hierarchikus osztályozók formájában, amelyek minden hierarchikus szinten ekvivalencia relációt tartanak fenn az osztályozott entitások halmazán, ami biztosítja annak páronkénti diszjunkt osztályokra való felosztását. . Ugyanakkor a hierarchia szomszédos szintjeinek entitásai általában "egész - rész" vagy "nemzetség - faj" kapcsolatban állnak.

    Az ontológia leírásának egy másik informális módja, amelyet meglehetősen széles körben használnak a szöveges keresőrendszerekben, a rendszer témakörének tezaurusz formájában történő megjelenítése.

    A kifejlesztett rendszerek ontológiájának formális leírásához elsőrendű logikai nyelveket használnak. Lehetővé teszik a következtetés lehetőségét. Az ebbe a kategóriába tartozó KIF (Knowledge Interchange Format) nyelv, amelyet az 1990-es évek elején fejlesztettek ki a Stanford Egyetem Knowledge Systems Laboratory-jában (KSL), az ontológia reprezentációja terén meglehetősen elterjedt.

    A formális ontológialeíró eszközök létrehozásának egyik legújabb fejlesztése a webes információforrások szabványos ontológiadefiníciós nyelve – Web Ontology Language. Ez a szabvány fejlesztés alatt áll Munkacsoport ontológiák a W3C Web Consortium számára. A megadott nyelv kétségtelenül alkalmazást fog találni a második generációs webes környezet információforrásainak intelligens keresőrendszereiben.

    4. Keresési minták

    A legfejlettebb szöveges keresési technológiákat jelenleg a teljes szöveges rendszerek biztosítják. Amint azt már bemutattuk, az ilyen rendszerek felépítésének különféle megközelítései vannak. Ezek a különbségek nemcsak a felhasználók információigényének formáinak sokféleségéhez kapcsolódnak, hanem elsősorban a teljes szövegű dokumentumok és a felhasználói lekérdezések rendszerben történő megjelenítési módjainak különbözőségéhez.

    A keresési modell fogalma. A kulcsfogalom, amely egy adott rendszerben a keresési technológiát jellemzi, a keresési modell A keresési modell a következők kombinációjaként értendő: dokumentumábrázolások generálására szolgáló módszer; egy eljárás a keresési lekérdezések reprezentációinak generálására; dokumentum-relevancia-kritérium típusa.

    A különféle szöveges keresőrendszerek funkcionalitásának változatossága éppen a bennük megvalósított keresési modellek különbözőségével függ össze.

    A legegyszerűbb keresési modellek. Sok rendszer a legegyszerűbb keresési modelleket használja. Ide tartoznak például a fenti modellek az IPS leíró kereséséhez és a dublini magot használó rendszerek.

    A legegyszerűbb keresési modellek másik példája az osztályozókon alapuló modellek. Az osztályozó alapú modellben a dokumentumokat osztályazonosítók képviselik hierarchikus struktúra osztályozó, amelyre ez a dokumentum. A lekérdezési reprezentáció a legegyszerűbb esetben az adott osztályozó felhasználót érdeklő osztályának az azonosítója is. A dokumentum relevanciájának feltétele az a feltétel, hogy a dokumentum osztálya egyezik vagy alosztálya a lekérdezési nézetben található bármely osztálynak.

    Egy bonyolultabb esetben az osztályozó alapú keresési modellek lehetővé teszik több osztályozó osztály megadását egy lekérdezésben. Ebben az esetben relevánsnak minősülnek azok a dokumentumok, amelyek a kérelemben meghatározott osztályok valamelyikébe vagy annak alosztályába tartoznak. Egy ilyen keresési modell közel áll az alább tárgyalt Boole-modellhez.

    kontextus keresési modellek. A kontextus szerinti keresési modellek valamivel összetettebbek. E modellek alkalmazása akkor vált lehetővé, amikor a számítógépek processzorai kellően nagy teljesítményt értek el, és megnőtt a külső közvetlen elérésű memóriájuk mennyisége. A kontextuális keresési modellek a dokumentum megjelenítését a szövegben található összes szó és kifejezés összességeként használják, nem számítva az úgynevezett stopszavakat. A stopszavak olyan szolgálati szavak (elöljárószavak, kötőszavak stb.), amelyek szinte minden dokumentumban megtalálhatók. Az ilyen szavakat tartalmazó dokumentumok keresése a lekérdezésre válaszul a dokumentumok teljes gyűjteményét adja vissza. Ezért az ilyen szavak nem használhatók dokumentumok indexelési tulajdonságaiként.

    A vizsgált osztály rendszereiben egy indexet építenek a dokumentumokban található összes szóra és kifejezésre, kivéve a stopszavakat. Ugyanakkor az index felépítéséhez a dokumentum szövegéből kinyert szavak először „kanonikus formába” kerülnek a rendszerben támogatott szótárak és értelmezők segítségével. A felhasználói kérést nyelvtani elemzésnek is alávetik, melynek során a szövegében található szavakat és kifejezéseket is megkülönböztetik a kéréstől. Egy dokumentum akkor tekinthető relevánsnak, ha a lekérdezésből származó szavak vagy kifejezések előfordulnak a dokumentum szövegében egészen nyelvtani formákig.

    Néha szigorúbb relevanciakritériumot alkalmaznak - a lekérdezésben megnevezett összes szó és kifejezés előfordulása a dokumentum szövegében stb.

    Logikai keresési modellek. A logikai keresési modelleket széles körben használják a szöveges keresőrendszerekben. A felhasználó megfogalmazhat egy lekérdezést logikai kifejezésként ÉS, VAGY, NEM operátorok használatával. A logikai kifejezések feltételei a logikai keresési modellek különböző változataiban eltérőek lehetnek. Ez lehet például egy adott szó vagy kifejezés előfordulásának feltétele (legfeljebb nyelvtani alakzatok) egy dokumentum szövegében a kontextuskeresési modell logikai kiterjesztésében. Az osztályozók szerinti keresési modell logikai kiterjesztésében a kifejezés feltételei lehetnek a dokumentum tulajdonjogának feltételei. ez az osztály osztályozó. A Dublin Core-t használó logikai keresési modellben egy kifejezés lehet egy egyenlőség, amely azt a tényt írja le, hogy a kérdéses dokumentum egyes metaadatelemei a lekérdezésben megadott értékkel rendelkeznek.

    Egy adott dokumentum lekérdezés szempontjából való relevanciájának kritériuma a logikai keresési modellekben a lekérdezésben megadott logikai kifejezés igazsága.

    Vektor keresési minták. A fejlett szövegkereső rendszerekben a legszélesebb körben használt vektoros keresési modellek. Az ilyen modellek használata más modellekhez képest sokkal több számítási erőforrást igényel, de lényegesen többet nyújtanak jó minőség keresés.

    A vektormodellek feltételezik, hogy a dokumentumokat és a lekérdezéseket vektorok reprezentálják. A legegyszerűbb esetben a vektor koordinátái megfelelnek a szöveg kifejezéseinek - a rendszer szótárához tartozó szavaknak vagy kifejezéseknek, amelyek a tárgykör általános nyelvi szókincsét vagy szókincsét képviselik. Az ilyen szótárból származó minden kifejezés saját dimenzióhoz van társítva a vektortérben. A dokumentumokat és felhasználói kéréseket reprezentáló vektorok mérete pontosan megegyezik az ezen a téren lévő dimenziók számával.

    Egy vektorkoordináta akkor kap egy értéket, ha a hozzá tartozó kifejezés az adott dokumentumban, illetve a felhasználói lekérdezésben előfordul. Ellenkező esetben a vektor koordinátája nullára lesz állítva. Mivel a szótár mérete nagyon nagy lehet, és a dokumentumok vagy a lekérdező szövegek lényegesen kevesebb kifejezést tartalmaznak, az ilyen vektorok nagyon ritkáknak bizonyulnak. Ezért valamilyen technikát kell alkalmaznia a tömörítésükhöz.

    Egy dokumentum lekérdezés szempontjából való relevanciájának felmérésére (a közelség mértékére) a vektorkereső modellek olyan vektorfüggvényeket használnak, amelyek argumentumai az őket reprezentáló vektorok. Ilyen mértékként használhatja például a dokumentumvektor és a lekérdezési vektor közötti szög koszinuszát. Fontos megjegyezni, hogy mivel ezeknek a vektoroknak a nem nulla koordinátái csak azoknak a kifejezéseknek felelnek meg, amelyek a dokumentum szövegében és a lekérdezés szövegében szerepelnek, ezért a függvény értékét - mindkét esetben a mértékeket - ez befolyásolja. csak a dokumentumban és a lekérdezésben közös kifejezésekkel.

    A vektorkereső modellek irányíthatóságának növelése érdekében ezek a modellek gyakran bonyolultak. Bemutatjuk a kifejezések súlyozását, amelyek a jelentőségét jellemzik. Ezeknek a súlyoknak az értékei a dokumentumvektor koordinátáiként használatosak, ha szövege tartalmazza a megfelelő kifejezéseket. Így a különböző kifejezések előfordulása egy dokumentum szövegében eltérő hatással van a dokumentum és a lekérdezés közelségi függvényének értékére. Különböző megközelítések léteznek ezen súlyok kiválasztására. Leggyakrabban erre a célra egy kifejezés egy adott dokumentumban való előfordulási gyakoriságának és a gyűjtemény egészének összes dokumentumában való előfordulási gyakoriságának szorzatát használják. A lekérdezési kifejezések súlyozhatók is.

    Az egyes vektoros keresési modellek közötti különbségek abból erednek, hogy különböző utak terminussúlyok hozzárendelése és közelségi mértékek kiválasztása. A vektormodellek lehetővé teszik a lekérdezési dokumentumok eredményül kapott halmazának rangsorolását.

    5. Szövegkereső rendszerek fejlettségi állapota

    A szövegkereső rendszereket az elmúlt években különféle tevékenységi területeken aktívan használták. Míg eredetileg elsősorban a könyvtári munka eszközeként fejlesztették ki őket, mára különböző szervezetek használják őket szöveges információforrásaik kezelésére. A szöveges keresési technológiák különösen intenzív fejlődésnek indultak a globális megjelenésével információs tér Web.

    Problémakör a szöveges keresés területén. Jelenleg a szöveges keresés problémája meglehetősen kiterjedtté vált. A szöveges keresőrendszerek elméletének és fejlesztésének különböző területeit fedi le, mint például:

    Speciális keresési modellek kidolgozása;

    Kísérletek, rendszerek tesztelésének és értékelésének módszertana;

    Módszerek szöveges keresés megvalósítására;

    Szövegkereső technológiák és adatbázisok integrációjának megközelítései;

    Webes keresés;

    Adattömörítési módszerek;

    A kérelmek feldolgozásának hatékonyságának értékelése;

    Természetes nyelvi feldolgozás;

    Szöveges dokumentumok osztályozási és klaszterezési módszerei;

    Információkereső alkalmazások digitális könyvtárakban;

    szövegek mély elemzése;

    Technológiák multimédiás információk indexeléséhez és kereséséhez;

    Ember-számítógép interfészek stb.

    Szövegrendszerek funkcionalitásának bővítése.

    A szöveges keresőrendszerek fejlesztői nemcsak az alapvető funkcióik ellátási mechanizmusainak fejlesztésére fordítanak nagy figyelmet, hanem számos további jellemzők, amely lehetővé teszi a keresés hatékonyságának jelentős növelését, a rendszer kezelhetőségének javítását, és kényelmesebb feltételeket biztosít a felhasználó munkájához. Felsorolunk néhány ilyen lehetőséget.

    Jobb keresési pontosság. A felhasználói lekérdezés megfogalmazásakor nem lehet minden kifejezés egyenértékű. Egyes szöveges keresőmotorok lehetővé teszik a felhasználó számára, hogy súlyozza a lekérdezésben használt kifejezéseket, hogy jellemezze azok jelentőségét a lekérdezésben. Ez az információ a dokumentumok relevanciapontszámainak kiszámítására szolgál a felhasználó információigénye szempontjából, ezáltal jelentősen javítva a keresés pontosságát.

    Az eredményül kapott lekérdezési dokumentumok rangsorolása. A korábban tárgyalt okok miatt a szöveges keresőrendszerek nem tudják garantálni a felhasználó információigényének szigorú kielégítését a keresési lekérdezések végrehajtása során. A keletkező dokumentumok száma általában jelentős. Ezért nagyon fontos, hogy a rendszer által a felhasználónak kiállított dokumentumokat úgy rendelje meg, hogy a lista elején azok a dokumentumok kerüljenek, amelyek valószínűleg nagyobb érdeklődésre tarthatnak számot a felhasználó számára. Ezt a fajta műveletet dokumentum rangsorolásnak nevezik. A kifejlesztett szövegkereső rendszereknek vannak olyan mechanizmusai, amelyek ilyen lehetőséget biztosítanak. Az általuk megvalósított keresési modelltől függően a felhasználói kérés feldolgozása eredményeként kiállított dokumentumok sorba rendezését biztosítják, bizonyos becslések szerint, hogy mennyire relevanciája a kérés szempontjából, vagy a felhasználó információigénye kielégítésének valószínűsége. .

    A relevancia visszajelzése fontos funkció, amely lehetővé teszi a szükséges dokumentumok megtalálásának hatékonyságának javítását. A helyzet az, hogy a kérelem feldolgozásának eredménye nem feltétlenül elégíti ki a felhasználót. Ilyen esetekben sok szöveges keresőmotor lehetőséget biztosít a felhasználónak a lekérdezés finomítására. Ehhez értékelheti a beérkezett dokumentumok relevanciáját – jelezheti, hogy ezek közül melyiket tartja relevánsnak vagy irrelevánsnak.

    Mivel a keletkező dokumentumok száma meglehetősen nagy lehet, a felhasználónak legalább a rangsorolt ​​lista első néhány dokumentumát értékelnie kell, pl. azokat a dokumentumokat, amelyekhez a rendszer a legmagasabb relevanciapontszámot adta. A rendszer ezen dokumentumok feltételeit felhasználva új, kiterjesztett lekérdezést tud alkotni, amely valószínűleg pontosabban fejezi ki a felhasználó információigényét.

    Ez az iteratív folyamat, amely során egy lekérdezést feldolgozunk és módosítunk a felhasználó által a rendszernek adott visszajelzésekből nyert adatok elemzésével, addig ismételhető, amíg a felhasználó elégedett nem lesz a keresési eredményekkel. A relevancia-visszajelzést különféle keresési modelleken alapuló rendszerekben használják.

    A felhasználói kérések automatikus bővítése. Ez a felhasználó által a rendszernek eredetileg javasolt lekérdezési reprezentáció kiterjesztésére vonatkozik. Ez a funkció a keresési teljesítmény javítását is szolgálja.

    A kérelem kezdeti reprezentációja a következőkkel tölthető fel:

    A lekérdezésben szereplő kifejezések szinonimái, ha a rendszernek van olyan tezaurusza, amely támogatja a szinonímia relációt;

    Azok a kifejezések, amelyek például a tartomány tezaurusz által meghatározott más szemantikai viszonyban vannak a lekérdezési kifejezésekkel, egy fogalom egy részét képviselik, amely valamilyen lekérdezési kifejezésnek felel meg stb.;

    Az eredményül kapott dokumentumok feltételei, amelyeket a felhasználó relevánsnak vagy irrelevánsnak minősített azokban a rendszerekben, amelyek biztosítják Visszacsatolás relevancia;

    Egyes lekérdezési kifejezések gyakori elírása stb.

    Dokumentumok automatikus indexelése. A szöveges keresőrendszerek fejlesztésének korai szakaszában végzett tanulmányok kimutatták, hogy a dokumentumok automatikus indexelése minőségileg nem rosszabb, mint a kézi indexelés. Ezért a modern fejlett rendszerekben automatikus indexelést alkalmaznak.

    Többnyelvű keresés. Egyes szöveges keresőmotorok lehetővé teszik, hogy több természetes nyelvű dokumentumokat tartalmazó gyűjteményekben is keressen. Ebben az esetben az egyik összetett probléma a feldolgozott dokumentum vagy töredékei bemutatásának nyelvének azonosítása.

    Nyelvközi keresés. Léteznek olyan szöveges keresőrendszerek, ahol lehetőség van arra, hogy a felhasználó információigényét egy nyelven határozzák meg, de a keresendő gyűjteményben lévő dokumentumok más nyelvűek. Ez a feladat még nagyrészt kutatás, bár a gyakorlatban már meglehetősen elterjedt, például nemzetközi szervezetek rendszereiben, transznacionális cégeknél vagy bármely olyan országban, ahol több hivatalos nyelv is működik.

    A többnyelvű keresés fő problémája egy dokumentum és egy különböző nyelven bemutatott felhasználói lekérdezés párosítása, melynek megoldásához dokumentumfordítás, lekérdezésfordítás vagy mindkettő fordítása szükséges. Ez különböző megközelítéseket alkalmaz - szóról szóra fordítást kétnyelvű szótárból, "kézi" fordítást számítógépes támogatással, teljes dokumentum vagy dokumentumrész automatikus gépi fordítását.

    Szövegkeresés adatbázis-rendszerekben. Az adatbázis-erőforrások és szöveges dokumentumgyűjtemények integrálása, valamint a szövegkereső rendszerek megvalósításához szükséges adatbázisrendszer-eszközök használata régóta igény az információs rendszerek fejlesztésének gyakorlatában.

    Valójában a szöveges dokumentumok különféle strukturált jellemzőkkel rendelkezhetnek, és ilyen esetekben nemcsak a dokumentumok tartalma szerinti hagyományos keresésre, hanem a dokumentumokhoz kapcsolódó külső attribútumok értékei alapján történő keresésre is szükség lehet. A dokumentumokhoz társított attribútumok és a hozzájuk tartozó dokumentumok közötti kapcsolatok fenntartása, valamint a dokumentumok keresése a hozzájuk tartozó attribútumok értékei alapján jól illeszkedik a hagyományos adatbázis-technológiákba. Emellett a DBMS tárolókörnyezet mechanizmusai maguknak a dokumentumoknak a tárolására is használhatók.

    Ugyanakkor az adatbázis-rendszerek által üzemeltetett információforrások a strukturált adatok mellett gyakran tartalmaznak kapcsolódó szöveges dokumentumokat is. Ezért a hagyományos adatbázisrendszerek környezetében is felmerül a szöveges keresés igénye. Ezen okok miatt a hagyományos DBMS-eket elkezdték felszerelni a dokumentumok tartalmára vonatkozó szöveges keresési mechanizmusokkal.

    A szöveges keresési technológiát jelenleg számos relációs és objektumrelációs adatbázis-kiszolgáló támogatja, mint például az IBM DB2, az Oracle Corp. Oracle és SQL szerver 7.0 és SQL Server 2000 a Microsoft Corp. Meg kell azonban jegyezni, hogy a legtöbb ilyen DBMS-ben a szöveges keresőmotorok nem biztosítják a fent tárgyalt speciális keresési modellek megvalósítását. Leggyakrabban a logikai keresési modell támogatására korlátozódik, néha lekérdezési kiterjesztésekkel, teljes szöveges indexelési mechanizmusokkal és néhány egyéb kiegészítő szolgáltatással.

    Szöveges források keresése a weben. A weben található információs források mennyiségének növekedésével egyre fontosabbá válik a szöveges keresési technológiák használatának problémája ebben a környezetben. Navigációs hozzáférés az információs forrásokhoz A web nem biztosít megfelelő gyors hozzáférést ezekhez.

    A szöveges keresési technológiák weben való megvalósítása során figyelembe veszik a Web, mint keresőkörnyezet sajátosságait, a benne támogatott információs erőforrások jellemzőit, valamint a felhasználó viselkedését a weben való interakció során.

    A korai webes keresőmotorok, más néven webes keresőmotorok, a legegyszerűbb kontextus szerinti keresést biztosították. Később megjelentek a logikai keresési modellek implementációi. Az elmúlt években jelentősen megnőtt az érdeklődés a weben történő szöveges keresés problémái iránt. Különböző csoportok számos és változatos tanulmányt végeznek ezen a területen. Jelenleg szöveges keresőmotorok egész sora létezik az interneten. Ezek között vannak univerzális és bizonyos rendszerekre összpontosító rendszerek tantárgyi területek, nemzetközi és nemzeti szintű rendszerek. Ezek közé tartozik az AltaVista, a legnagyobb többnyelvű kereső, a Yahoo!, a Google rendszerek, a Web Yandex keresőmotor orosz oldalakhoz és még sokan mások. Hatókörükben különböznek - a szkennelt webszerverek összetétele, a felhasználói felületek felépítése, a keresőmotorok funkcionalitása. Mindegyik támogatja a logikai keresési modell különböző verzióit. Egyes rendszerek rangsorolják az eredményül kapott dokumentumkészletet, támogatják a relevancia-visszajelzést. Az AltaVista rendszer megvalósítja a keresési terület fokozatos csökkentését. A keresés után a felhasználó egy hisztogramot kap, amely osztályonként jellemzi a talált dokumentumkészlet statisztikáit. A felhasználó kiválaszthatja az őt érdeklő osztályokat. Továbbá a keresés megismétlődik az így azonosított, a rendszer számára elérhető információforrások részhalmazán belül.

    A webes szöveges keresőrendszerek fejlesztésében igen jelentős újdonságok várhatók az XML platform – a web következő generációjának technológiai platformja – intenzív fejlesztése kapcsán. Fontos megjegyezni, hogy az XML platform szabványokon alapuló webes szöveges keresőmotorok csökkentik a keresés részletességét. A keresési objektumoknak nem kell teljes dokumentumoknak lenniük. A keresőrendszer a felhasználók kérésére kiadhatja az őket érdeklő dokumentumok töredékeit. Ezen túlmenően a webszöveg információforrások XML-lel történő megjelenítése lehetővé teszi a szemantika leírásának különféle eszközeit, és ennek alapján jelentősen csökkenti az információs zaj szintjét a felhasználói kérések feldolgozásakor.

    Új követelmények a szöveges keresőrendszerekkel szemben. Az új használati feltételek és a felhasználói igények növekedése új, magasabb követelményeket támaszt a szöveges keresőrendszerekkel szemben. Felsoroljuk a főbbeket:

    A szövegkereső rendszerek azon képességének biztosítása, hogy hatékonyan tudjanak dolgozni nagyon nagy dokumentumgyűjteményekkel;

    Módszerek kidolgozása a dokumentumok jelentésének és a felhasználói keresési lekérdezések megjelenítésének jelentős javítására;

    Lehetőségek biztosítása szöveges dokumentumok közös feldolgozására eltérő jellegű dokumentumokkal - statikus kép, hang, videó stb.;

    Fejlődés hatékony módszerek keresés nemcsak statikus gyűjteményekben, hanem dokumentumfolyamokban is;

    Szövegkereső rendszerek értékelési módszertanának megalkotása, szöveggyűjtemények felépítése, kísérletek lefolytatása.

    tesztkérdések

    2. Milyen rendszereket neveztek faktografikus IPS-nek?

    3. Milyen rendszereket nevezünk dokumentumfilmes IPS-nek?

    4. Milyen elveken alapul a leíró IPS?

    5. Milyen feltételek voltak szükségesek a teljes szöveges keresési technológiák létrehozásához?

    6. Milyen újdonságokat kínálnak a teljes szöveges keresőrendszerek?

    7. Hogyan alakultak át funkcionalitás dokumentumfilmes IPS-t a szöveges keresőrendszerek fejlődése és a felhasználók információigénye befolyásolta?

    8. Mivel kapcsolatban kezdték el használni az "információs visszakereső rendszer" kifejezéssel együtt a "szövegkereső rendszer" kifejezést?

    9. Milyen feladatok kapcsolódnak a természetes nyelvi feldolgozás területéhez?

    10. Milyen eszközöket használnak a modern szövegkereső rendszerekben?

    A kérdésekre e-mailben kell válaszolni.