Rusko tržište informacijske tehnologije: trendovi i prognoze. Upiti za pretraživanje - izgledi za razvoj

18.09.2020 Savjet

U vrijeme kada je razvoj Interneta tek počinjao, količina dostupnih informacija bila je relativno mala, a korisnika Interneta malo. U početnim fazama razvoja mreže koristili su je zaposlenici sveučilišta i istraživačkih laboratorija za razmjenu informacija između institucija. U to vrijeme traženje informacija na internetu nije bilo relevantno, za razliku od danas.

Prvi način organiziranja i sistematiziranja pristupa informacijskim resursima bila je izrada imenika web stranica. Počeli su grupirati poveznice prema određenim temama.

Pionir na tom području bio je Yahoo, koji se pojavio u travnju 1994. godine. S vremenom se broj stranica povećao i Yahoo je dodao opciju pretraživanja imenika. To nije bila tražilica u pravom smislu riječi, jer je opseg pretraživanja bio ograničen na resurse imenika.

Kasnije su se katalozi proširili i počeli koristiti posvuda, ali Internet nije stao, već se nastavio razvijati. Uz to su se razvile i metode pretraživanja. Na ovaj trenutak imenici su gotovo izgubili na popularnosti, to se objašnjava činjenicom da će moderan imenik, čak i ako sadrži ogromnu količinu resursa, moći pružiti pristup samo malom dijelu informacija koje se nalaze na mreži.

Danas je najveći imenik na webu Open Directory Project ili DMOZ koji sadrži informacije o 5 milijuna izvora, no to je relativno malo u usporedbi s, primjerice, Googleovom tražilicom koja sadrži oko 8 milijardi dokumenata.

Punopravni sustav pretraživanja objavljen je tek 1994., postao je sustav pretraživanja WebCrawler.

Godinu dana kasnije, 1995., pojavljuju se projekti tražilice AltaVista i Lycos. Konkretno, jedna od njih, AltaVista, godinama je držala vodeću poziciju u području pretraživanja.

Dvije godine kasnije, 1997., studenti Sveučilišta Stanford Sergey Brin i Larry Page razvili su tražilicu Google, koja je danas vodeća u pretraživanju.

Ova je godina bila i godina kada je službeno najavljeno stvaranje ruske tražilice Yandex, koja je i dalje vodeća u ruskomezičnom segmentu mreže.

U ovom trenutku postoje samo 3 tražilice koje su dosegle međunarodnu razinu: MSN Search, Yahoo i Google. Ovi sustavi imaju vlastite baze podataka i algoritme pretraživanja. Većina drugih tražilica koristi njihove rezultate. Tako Mail.ru koristi Yandex bazu podataka, search.aol.com Google, a Lycos, AltaVista i AllTheWeb Yahoo.

Lider pretraživanja na ruskom internetu trenutno je Yandex, slijedi Rambler, slijede Google, Mail.ru, A port i KM.ru.

Tražilice imaju različite algoritme rada, a kako biste zauzeli dobru poziciju u rezultatima pretraživanja i privukli ciljane posjetitelje, morate poznavati značajke SEO optimizacije za različite tražilice. Na primjer

Za pretraživanje indeksa korisnik mora formulirati upit i poslati ga tražilici. Zahtjev može biti vrlo jednostavan, barem bi se trebao sastojati od jedne riječi. Da biste izradili složeniji upit, morate koristiti Booleove operatore koji vam omogućuju da precizirate i proširite svoje pojmove za pretraživanje.

Booleovi operatori koji se najčešće koriste su:

  • I - svi izrazi povezani operatorom "I" moraju biti prisutni na pretraživanim stranicama ili dokumentima. Neke tražilice koriste operator “+” umjesto riječi AND.
  • OR - barem jedan od izraza povezanih operatorom "OR" mora biti prisutan na stranicama ili dokumentima koji se pretražuju.
  • NOT - izraz ili izrazi iza operatora "NE" ne smiju se pojavljivati ​​na pretraživanim stranicama ili dokumentima. Neke tražilice koriste operator "-" umjesto riječi NE.
  • FOLLOWED BY - jedan od izraza mora odmah slijediti drugi.
  • BLIZU - jedan od izraza mora biti udaljen od drugog ne veći od navedenog broja riječi.
  • Navodnici - riječi u navodnicima tretiraju se kao izraz koji se nalazi u dokumentu ili datoteci.

Izgledi za razvoj tražilica

Pretraživanje određeno Booleovim operatorima je doslovno - stroj traži riječi ili fraze točno onako kako su unesene. To može uzrokovati probleme ako su unesene riječi dvosmislene. Na primjer, engleska riječ "Bed" može značiti krevet, cvjetnjak, mjesto gdje se mrijesti riba i još mnogo toga. Ako korisnika zanima samo jedno od ovih značenja, ne trebaju mu stranice s riječju koja ima druga značenja. Moguće je konstruirati doslovan upit za pretraživanje s ciljem izrezivanja neželjenih vrijednosti, ali bilo bi lijepo kada bi sama tražilica mogla pružiti odgovarajuću pomoć.

Jedna od mogućnosti rada tražilice je konceptualno pretraživanje. Dio ove pretrage uključuje korištenje Statistička analiza stranice koje sadrže riječi ili fraze koje je unio korisnik, kako bi pronašli druge stranice koje bi mogle biti od interesa za tog korisnika. Jasno je da konceptualno pretraživanje zahtijeva pohranjivanje više informacija o svakoj stranici, a svaki će upit za pretraživanje zahtijevati više izračuna. Trenutno mnogi razvojni timovi rade na poboljšanju učinkovitosti i izvedbe ovih vrsta tražilica. Drugi su se istraživači usredotočili na drugo područje koje se zove upiti prirodnog jezika.

Ideja koja stoji iza upita na prirodnom jeziku jest da korisnik formulira upit na isti način na koji bi pitao osobu koja sjedi pokraj njega—bez potrebe za praćenjem Booleovih operatora ili složenih struktura upita. Najpopularnija moderna stranica s upitima za pretraživanje na prirodnom jeziku je AskJeeves.com, koja analizira upit kako bi identificirala ključne riječi, koji se zatim koriste za pretraživanje indeksa web mjesta koje je izradila tražilica. Spomenuta stranica radi samo s jednostavnim upitima za pretraživanje, ali programeri, u visoko konkurentnom okruženju, razvijaju tražilicu na prirodnom jeziku koja može obraditi vrlo složene upite.

KOVROV DRŽAVNA TEHNOLOŠKA AKADEMIJA

Informativno-analitički priručnik o informatici

na temu: "Moderne tražilice, trendovi razvoja jednog od tržišnih lidera Yandexa."

Izvršio: student 1. god

3 akademske grupe

Makarov Ivan

Uvod. 3

Glavni dio. 4

Zaključak. jedanaest

Uvod.

Yandex je ruska IT tvrtka koja posjeduje istoimeni sustav za pretraživanje interneta i internetski portal. Tražilica Yandex osma je najveća tražilica na svijetu po broju obrađenih upita (1,290 milijardi, statistika za kolovoz 2009.) i druga najveća neengleska tražilica nakon kineskog Baidua.

Web stranica tvrtke otvorena je 23. rujna 1997. godine. 2000. je godina osnivanja tvrtke Yandex. Osnivač Yandexa je CompTek (tvrtka koja je razvila tražilicu Yandex i pružila podršku za nju). Tvrtka je 2002. dosegla samodostatnost, promet za 2006. bio je 72,6 milijuna dolara, neto dobit - 29,9 milijuna, za 2005. - 35,6 milijuna dolara, neto dobit - 13,6 milijuna.

Glavni i prioritetni smjer tvrtke je razvoj tražilice, ali tijekom godina Yandex je postao multi-portal. U 2009. Yandex je uključivao više od 30 usluga. Najpopularniji su: Yandex.News, Yandex.Photos, Yandex.Toys i drugi.

Glavni ured tvrtke nalazi se u Moskvi. Tvrtka ima urede u Sankt Peterburgu, Jekaterinburgu, Odesi, Simferopolju i Kijevu. Sredinom lipnja 2008. tvrtka je najavila otvaranje Yandex Labsa, ureda u SAD-u, Kalifornija.

Glavni dio.

Povijest nastanka tvrtke.

Tražilica Yandex.Ru službeno je najavljena 23. rujna 1997. na izložbi Softool. Glavne karakteristike Yandex.Ru u to su vrijeme bile provjera jedinstvenosti dokumenata (isključujući kopije u različitim kodovima), kao i ključna svojstva tražilice Yandex, naime: uzimanje u obzir morfologije ruskog jezika (uključujući pretraživanje po točnom obliku riječi), pretraživanje uzimajući u obzir udaljenosti (uključujući unutar odlomka, točnu frazu) i pažljivo razvijen algoritam za procjenu relevantnosti (usklađenost s odgovorom na upit), uzimajući u obzir ne samo broj upita riječi koje se nalaze u tekstu, ali i "kontrast" riječi (njena relativna učestalost za određeni dokument), udaljenost između riječi i položaj riječi u dokumentu.

Nešto kasnije, u odjeljku "Bajke" (zapažanja o sadržaju ruskog interneta), pojavila se prva Runet bajka - "Web - humanizam ili černuha?" A u odjeljku "Brojevi" nalazi se prva procjena volumena Runeta, 5 tisuća poslužitelja i 4 GB tekstova.

Dva mjeseca kasnije, u studenom 1997., implementiran je upit prirodnog jezika. Od sada možete jednostavno pristupiti Yandex.Ru "na ruskom", postavljati duge upite, na primjer: "gdje kupiti računalo", "genetski modificirani proizvodi" ili "međunarodni telefonska komunikacija» i dobiti točne odgovore. Prosječna duljina upita u Yandex.Ru sada iznosi 2,7 riječi. Godine 1997. iznosio je 1,2 riječi, a tada su korisnici tražilica navikli na telegrafski stil.

Godine 1998. Yandex.Ru uveo je mogućnost "pronalaženja sličnog dokumenta", popisa pronađenih poslužitelja, pretraživanja u određenom datumskom rasponu i sortiranja rezultata pretraživanja prema vremenu Posljednja promjena. Tijekom ove godine "volumen" ruskog interneta se udvostručio, što je dovelo do potrebe za optimizacijom tražilica. I tada i sada (s volumenom od 200 GB) brzina pretraživanja na Yandex.Ru je djelić sekunde.

Tijekom 1999. Runet je narastao za red veličine, kako u količini tekstova tako iu broju korisnika. Ovo je bila godina brzog razvoja za Yandex.Ru. Novi robot za pretraživanje omogućio je optimizaciju i ubrzanje indeksiranja Runetovih stranica. Danas je baza pretraživanja Yandex.Ru dvostruko veća od baze njegovih najbližih konkurenata.

Novi robot omogućio je korisnicima pružanje novih mogućnosti - pretraživanje u različitim područjima teksta (naslovi, poveznice, komentari, adrese, naslovi za slike), ograničavanje pretraživanja na grupu stranica, pretraživanje po poveznicama i slikama, a također isticanje dokumenata na ruskom. Pojavilo se pretraživanje u kataloškim kategorijama i po prvi put u Runetu uveden je koncept "indeksa citata" - broj izvora koji se odnose na određeni.

Tijekom godine nastavljen je rad na kvantitativnoj i kvalitativnoj analizi Runeta. Otvoren je NINI indeks (indeks nestalnosti interesa internetske populacije) koji pokazuje dinamiku promjena interesa korisnika interneta. Otvoren je forum za pretraživanje i nova usluga - zatražite pretplatu, odnosno možete ostaviti svoj zahtjev na Yandex.Ru i redovito primati informacije e-poštom o pojavi novih i/ili promijenjenih dokumenata koji odgovaraju ovom zahtjevu. Do početka školske godine otvoren je “Obiteljski Yandex” koji filtrira rezultate pretraživanja od opscenosti i pornografije.

Podrijetlo riječi "Yandex".

Danas je "Yandex" riječ iz svakodnevnog života korisnika interneta. Na internetu često vidite "Što, Yandex je već otkazan?", "Usamljenost je kada ti Yandex prvi čestita rođendan", "Sva pitanja Yandexu". Mnogi već misle da je to oduvijek tako. Na neki način, to je istina - Yandex se stvarno pojavio istovremeno s masovni Internet, kada je pristup mreži prestao biti dio odabranih tehničkih stručnjaka. Ali sama riječ "Yandex" je umjetna, ima svoje autore i svoju povijest.

Godine 1993. Arkady Volozh, budući generalni direktor buduće tvrtke Yandex, i Ilya Segalovich, budući tehnološki direktor tvrtke, razvili su, kako se kasnije pokazalo, glavnu tehnologiju - potragu za nestrukturiranim informacijama uzimajući u obzir ruski Jezik.

Razvoj se morao nekako nazvati. Ilya se sjeća kako je u kolumnu ispisao razne izvedenice riječi koje su opisivale značenje tehnologije. Ubrzo je postalo jasno da pretraga ("traži") na ruskom zvuči previše disonantno i da se na temelju toga ne može napraviti uspješna kombinacija. Riječ indeks bila je prikladnija. Tako se yandex pojavio na popisu imena - još jedan indekser ("još jedan indekser" ili jezični indeks). I Ilji i Arkadiju svidjela se opcija - lako se izgovara, lako se piše. Osim toga, Arkadij je predložio da se slovo "I" u imenu - konkretno ruskom - ostavi ruskim radi jasnoće. Tako je izmišljena riječ "Yandex". I programska datoteka, prema tome, nazvana je yandex.exe.

Godine 1996., kada je pretraživanje prvi put ponuđeno široj javnosti kao tehnologija, a ne kao dio sadržajnog proizvoda (prije toga su postojale Međunarodna klasifikacija izuma i Biblijski računalni priručnik), linija programa nazvana je Yandex i ovaj naziv je objašnjen kao Jezik iNDEX. Prvi programi u liniji bili su Yandex.Site (pretražite na jednoj od vlastitih stranica - ovaj se proizvod sada zove Yandex.Server) i Yandex.Dict (morfološki prefiks za AltaVista, jedinu tražilicu koja je u to vrijeme nekako mogla raditi sa ćirilicom) .

No, naravno, riječ "Yandex" postala je raširena od rujna 1997., nakon pokretanja tražilice www.yandex.ru. Od tada nam korisnici sustava nude svoja tumačenja. Na primjer, Tyoma Lebedev, pripremajući se za crtanje prve verzije početna stranica Web stranica Yandex, rekao je: "Oh, razumijem, ako se prvo "I" u riječi index prevede na ruski, to će biti "ja", to jest, ispast će "Yandex". Autori su iskreno priznali da o tome nisu razmišljali, ali to je dobra interpretacija i prihvaća se. Onda je netko na internetu predložio drugu opciju, vidjevši dvije strane interneta, INDEX i YANDEX. Ova riječ je već dobila izvedenice; na primjer, djelatnike Yandexa često nazivaju "Yandexoidima", a rjeđe "ljudima Yandexa".

Pretražite "Yandex".

Pretraživanje Yandexa omogućuje vam pretraživanje na Runetu, Uanetu i Kaznetu (od 14. listopada 2009.) za dokumente na ruskom, ukrajinskom, bjeloruskom, rumunjskom, engleskom, njemačkom i francuskom jeziku, uzimajući u obzir morfologiju ruskog i engleski jezici i blizina riječi u rečenici. Od početka 2006. Yandex pretraga instalirana je na portalu Mail.ru.

Osim web stranica u HTML formatu, Yandex indeksira dokumente u PDF (Adobe Acrobat), Rich Text Format (RTF), Microsoft Word binarnim formatima, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (blogovi i forumi).

Posebnost Yandexa je mogućnost finog podešavanja upita za pretraživanje. To se postiže pomoću fleksibilnog jezika upita. Tako, na primjer, za operaciju izuzimanja možete odrediti opseg: upit A ~~ B pronaći će dokumente (stranice) u kojima je A prisutan, ali B nije prisutan, a upit A ~ B pronaći će dokumente u kojima je riječ B nije prisutna s riječju A u jednoj rečenici. Slično tome, & operator traži kombinacije ključnih riječi u rečenici, dok && operator traži cijeli dokument.

Operater! omogućuje vam da onemogućite morfologiju za određenu riječ, eh!! omogućuje određivanje normalnog oblika, čime se izbjegavaju neki problemi povezani s homonimijom. Na primjer, upit!!Ivanov će pronaći Ivanov i Ivanov, ali ne i Ivana.

Yandex prema zadanim postavkama prikazuje 10 poveznica na svakoj stranici s rezultatima; u postavkama rezultata pretraživanja možete povećati veličinu stranice na 20, 30 ili 50 pronađenih dokumenata. Ponekad se redoslijed stranica na ovim stranicama može razlikovati jer se baze podataka za te rezultate ne ažuriraju u isto vrijeme.

Ako upit pronađe mnogo poveznica, stranica s rezultatima nudi ograničenje raspona pretraživanja - po regiji (tj. po IP rasponu) ili po datumu. Ako se ništa ne pronađe za riječ ili riječi, predlaže se zamjena iste sličnim (budući da predložene opcije ovise o učestalosti pronalaženja sličnih riječi, ponekad dolazi do smiješnih situacija). Također, predlaže se ispravljanje riječi upisanih na pogrešnom rasporedu tipkovnice.

S vremena na vrijeme mijenjaju se algoritmi Yandexa odgovorni za relevantnost rezultata pretraživanja, što dovodi do promjena u rezultatima upita za pretraživanje. Posljednje službeno najavljene promjene dogodile su se u ožujku 2004., travnju 2005. i siječnju 2007.; prema neslužbenim informacijama ima ih puno više (primjerice, posljednji u kolovozu-rujnu 2007.).

Konkretno, ove promjene usmjerene su protiv spama pretraživanja, koji dovodi do nerelevantnih rezultata za neke upite (rjeđe, za cijele skupine upita). Poluautomatsko i ručno moderiranje rezultata pretraživanja (koristeći takozvane "white hat optimizers"), kao i izravno odbijanje indeksiranja "zlonamjernih" stranica, koriste se protiv neželjene pošte pretraživanja koja nije automatski filtrirana.

Vlasnici, menadžment i pokazatelji uspješnosti.

Više od 30% tvrtke, prema vlastitim podacima, pripada investicijskim fondovima ru-Net Holdings i Baring Vostok Capital Partners, 15% fondu Tiger Technologies, oko 30% osnivačima tvrtke i 20% menadžerima i ostali manjinski dioničari.

Sredinom rujna 2009. postalo je poznato da je matična tvrtka Yandexa, nizozemska tvrtka Yandex N.V., izdala prioritetni udio, koji je prenesen na Sberbank za simboličan 1 euro. Jedino pravo koje dionica daje je staviti veto na prodaju više od 25% dionica tvrtke.

Uprava: Rkady Volozh - generalni direktor, Ilya Segalovich - tehnički direktor, Elena Kolmanovskaya - glavna urednica, Alexey Tretyakov - komercijalni direktor, Svetlana Kondrashova - direktorica oglašavanja.

Sve Yandex usluge.

Povrat informacija:

Traži i ya.ru

Imenik - imenik web stranica poredanih po indeksu citiranja. Ručno ga dopunjuju urednici kataloga, a postoji i mogućnost plaćene registracije.

Vijesti - Glavne vijesti dana, potječu iz glavnih medijskih kuća na Internetu. Moguće je pretraživanje po vijestima, kao i pretplata na vijesti za zadani upit pretraživanja.

Yandex.XML - pomoću ove usluge možete postavljati automatske upite za pretraživanje Yandexu u xml formatu.

Pretraživanje blogova i foruma - pretražujte resurse koji imaju RSS prikaz, kao i ocjene trenutnih upita, popularne kategorije i vijesti.

Tržište - traženje ponuda za prodaju robe i usluga, izbor modela.

“Meditativno” pretraživanje jedina je usluga pretraživanja na svijetu koja ima gumb “Pronađi”, ali nema traku za pretraživanje.

Rječnici - enciklopedije, priručnici, rječnici-prevoditelji.

Slike - pretraga slika.

Video - video pretraga.

Karte - karte Europe i Rusije, karte velikih gradova Ruske Federacije (točne do kuće), pretraživanje na karti, kao i mogućnost "lutanja" ulicama nekih gradova. [izvor?]

Adrese - pretraga kontakt informacije po nazivima tvrtki i organizacija.

Plakat - informacije o dostupnim događajima: kino, kazalište, koncerti, sport, klubovi itd.

Vrijeme - vremenska prognoza.

TV program - programi središnje, regionalne i satelitski kanali TELEVIZOR.

Vozni red - vozni red vlakova i aviona.

Personalizirano:

Yandex.Video - video hosting i video pretraga.

Pošta - e-pošta.

Ya.ru je blogerski servis.

Yandex.Photos - hosting fotografija.

Obrana od neželjene pošte - filtriranje neželjene pošte.

Ljudi - besplatni hosting za osobne internetske stranice, kao i usluga pohrane datoteka.

Yandex novac - sustav plaćanja, što vam omogućuje plaćanje roba i usluga putem interneta.

Bookmarks je sustav za pohranjivanje oznaka integriran s Yandexom. Bar."

Pretplate - pretplata na vijesti.

Lenta - online RSS čitač

Yandex.Direct je sustav za postavljanje kontekstualnog oglašavanja uz plaćanje po klikovima.

Kup - redovita natjecanja u pretraživanju Interneta.

Gradovi - Internetski indeksi ruskih gradova.

Tarifa - pretraživanje po tarifama Internet providera.

Razglednice

Proljeće - automatsko generiranje filozofskih eseja.

Internet - mjeri brzinu internetske veze.

Mirror - Mirror glavne distribucije Linux OS-a, kao i FreeBSD-a i drugih projekata.

Yandex. Lokalna mreža - pruža mogućnost korištenja svih usluga Yandexa ne po federalnoj, već po lokalnoj stopi.

Mjerni podaci - omogućuju vam mjerenje prometa, analizu ponašanja korisnika i procjenu učinkovitosti reklamnih kampanja.

Softverski proizvodi:

Filter neželjene pošte Zaštita od neželjene pošte za korporativnu upotrebu (plaća se).

Program za pretraživanje datoteka Yandex Desktop Search na računalu.

Ya.Online program za razmjenu trenutnih poruka temeljen na Jabberu. Omogućuje vam i primanje obavijesti o novim e-porukama od Yandexa. Pošta o novim događajima sa stranica Odnoklassniki.ru i VKontakte.

Program Punto Switcher je automatski izmjenjivač izgleda.

Widgeti za operacijske dvorane Mac sustavi OS X i Windows Vista, a također i za Preglednik Opera: Pretraživanje, Promet, Sat, Vijesti.

Yandex ICQ je posebna verzija ICQ klijenta sa simbolima i integracijom nekih usluga iz Yandexa.

Zanimljivosti.

1) Prosječna duljina zahtjeva u Yandex.Ru sada iznosi 2,7 riječi. Godine 1997. iznosio je 1,2 riječi, a tada su korisnici tražilica navikli na telegrafski stil.

2) Yandex se pojavio prije www.yandex.ru. Riječ Yandex izmišljena je 1993. godine, a javno je izgovorena 1996. godine i tada nije označavala tvrtku ili tražilicu, već tehnologiju pretraživanja na vlastitom poslužitelju i morfološki prefiks tražilici Altavista.com.

3) www.yandex.ru pokrenut je kako bi pokazao mogućnosti Yandex tehnologije; nitko nije razmišljao o zarađivanju novca od oglašavanja.

4) Slogan “Sve se može naći” izmišljen je 2000. godine. Iste godine Yandex je lansirao prvu reklamu za internetsku stranicu na ruskoj televiziji.

5) Prema samom Yandexu, oko 80 posto njegove publike je iz Rusije, oko 3 posto iz Europe i nešto više od 1 posto iz SAD-a.

6) Neki od zaposlenika tehničke podrške Yandexa rade pod zajedničkim pseudonimom "Platon Shchukin".

Zaključak.

Dakle, sada imamo pune informacije o Yandexu. Znamo tko je vodi, kako funkcionira iznutra, koja je povijest razvoja tvrtke i još mnogo toga. Sada možemo lako razumjeti zašto je Yandex lider na ruskom i globalnom tržištu. Vjerujem da je glavni razlog uspjeha Yandexa to što se tražilica dobro nosi sa složenošću ruskog jezika. Zbog toga tražilice koje su razvijene za engleski jezik ne mogu također indeksirati i rangirati dokumente na ruskom jeziku. Drugu prednost vidim u kreativnim, prijateljskim, veselim sloganima kojima Yandex privlači korisnike da koriste njegove usluge. Tematske slike koje Yandex postavlja u blizini svoje trake za pretraživanje puno su dostupnije ruskom korisniku.

, trend Rast broja prijedloga će se nastaviti. Danas prisutni tržište elektroničko plaćanje sustava... više jedan značajan događaj: Paycash je sklopio ugovor s najvećim pretraživač sustav ...
  • Povolški savezni okrug: moderna stanje i izgledi razvoj(na primjeru Republike Tatarstan)

    Predmet >> Ekonomija

    ... trendovi unaprijediti razvoj. ... vođa. ... razvoj jedan iz najvažnije... složeno pretraživač i akrobatike... tržište. Razvoj ... moderna tehnologije, oprema visokih performansi, moderna...supertoksikanti; - razvoj sustava praćenje zemljišta...

  • Moderno sociološki problemi tjelesne kulture i sporta

    Sažetak >> Sociologija

    Za popularizaciju političkih voditelji, stranke, ... agregat subjekt-objekt sustav socijalno-pedagoški... kreativni pretraživač aktivnosti... tržište i država. Tržište ... Trendovi razvoj moderna Olimpijski pokret Rusija je jedan iz ...

  • Trendovi razvoj naftna industrija u globalnoj ekonomiji

    Sažetak >> Ekonomija

    Svijet tržište ulje: trendovi razvoj i... već provedeno traži-istražni radovi, ... Prethodna ocjena. Vođa u svjetskoj potrošnji... je jedan iz bitni elementi moderna svjetski ekonomski... svjetski ekonomski sustav, tijekom...

  • Uz tradicionalni pristup organizaciji, kada se specijalizirane funkcije uvode jedna za drugom, kao u štafeti, visoka učinkovitost je nedostižna. Odgovor na vanjske promjene zahtijeva stalnu suradnju različitih specijaliziranih odjela i službi. Stalnim komuniciranjem i razmjenom informacija mogu djelovati brzo, dosljedno i istovremeno u različitim smjerovima. Informacijska tehnologija izuzetno korisna u slučaju tako koordiniranog procesa.


    Riža. 3.2.

    Korištenje IT-a omogućuje vam da radikalno promijenite stil upravljanja i same poslovne procese te značajno poboljšate ključne pokazatelje uspješnosti tvrtke (slika 3.2). Stara pravila poslovanja brzo zastarijevaju. Tvrtke koje ne uspiju “vidjeti” važnost ovih promjena riskiraju da zaostaju daleko (Tablica 3.2).

    Tablica 3.2. Informacijske tehnologije mijenjaju način poslovanja poduzeća
    Prethodno pravilo Novo pravilo Tehnologija
    Informacije se mogu pojaviti na jednom mjestu, u jednom trenutku Informacije se mogu pojaviti i biti tražene bilo gdje, u bilo koje vrijeme – kada su potrebne Distribuirane baze podataka i skladišta podataka, tražilice, tehnologije za pretraživanje određenih podataka
    Složeni posao procjene situacija mogu obaviti samo stručnjaci Poslove vještaka može obavljati specijalist općeg smjera Ekspertni sustavi
    Potrebno je birati između centralizacije i decentralizacije Možete istovremeno imati koristi od kombinacije dvaju oblika organizacije upravljanja i proizvodnje Distribuirani rad u grupama, telekomunikacija i mreže
    Sve odluke donose samo viši rukovoditelji i odgovorni rukovoditelji Donošenje odluka postaje dio posla svakog zaposlenika koji je odgovoran za svoje područje rada Alati za podršku odlučivanju, pristup bazama znanja i repozitoriju, sustavi znanja
    Za pretraživanje, primanje, analizu, pohranu i prijenos informacija potrebni su posebno opremljeni prostori Stručnjaci mogu slati i primati informacije s bilo kojeg mjesta Internet/Intranet tehnologije, optička vlakna i satelitski sustavi komunikacije, mobilni sustavi
    Najbolji kontakt s kupcem je osobni kontakt Bolji kontakt s potencijalnim kupcem - učinkovito proučavanje karakteristika kupca Interaktivna interakcija, baze podataka, anketa i sustavi preferencija
    Da biste pronašli određeni entitet, morate znati gdje se nalazi Entiteti vam govore gdje su Sustavi pretraživanja. Mobilni agentski sustavi
    Izrađeni planovi se ne revidiraju ili se revidiraju pod pritiskom više sile Planovi se promptno pregledavaju i prilagođavaju prema potrebi i zahtjevima potrošača. Ekspertni sustavi, fleksibilno planiranje i sustavi upravljanja rizicima, računala visokih performansi

    IT odjeli u tvrtkama i korporacijama počeo preuzimati glavne uloge. Tome su pridonijela tri čimbenika koja su se u potpunosti pojavila 1990-ih:

    • poslovne potrebe počele su stavljati sve veći pritisak na analitičke i IT odjele da povećaju svoj doprinos ukupnom učinku tvrtke;
    • Računalna paradigma računalnog rada, fokusirana na velika računala i moćne računalne centre s ogromnim osobljem, zastarijeva i zamjenjuje je nova paradigma - distribuirano računalstvo(mreže i klasteri), što pak dovodi do stvaranja novih IT-a;
    • preorijentacija s tehnologije na potrošača dovela je do potrebe za psihološkim restrukturiranjem menadžera i do formiranja nove discipline - strateškog planiranja za razvoj korporativnog IT-a za kombiniranje poslovne strategije i informacijske strategije.

    Kao rezultat toga promijenile su se i same komponente poslovanja (tablica 3.3):

    Tablica 3.3.
    Dinamika razvoja poslovanja Ubrzao je
    Strateško planiranje i taktičkih ciljeva Povećani domet i točnost prognoze
    Operativni prostor Opseg primjene je proširen
    Upravljanje rizicima Modeliranje i optimizacija situacije
    Fleksibilnost upravljanja Brzo manevriranje resursima
    Konkurentnost Širenje postojeće izvrsnosti kroz cijelo poslovanje

    Ovakav stav prema IT-u i njegovoj ulozi u poslovanju tjera nas da preispitamo tradicionalni odgovor na pitanje “Koja je glavna svrha informacijske tehnologije?” Prethodni odgovor, koji je zadovoljio zahtjeve 1980-1990-ih, - "Povećanje produktivnosti rada, ušteda financija, traženje novih oblika interakcije" - trenutno se odnosi na načine postizanja operativni i taktički koristi.

    Strateška uloga IT-a V moderni svijet- doprinositi upravljanju, adekvatno odgovoriti na tržišnu dinamiku, stvarati, održavati i produbljivati ​​konkurentsku prednost (Competitive Advantage) u cilju izvlačenja maksimalne koristi!

    Trenutno stanje IT-a može se okarakterizirati sljedećim odredbama:

    • prisutnost velikog broja softverskih i hardverskih sustava i platformi za učinkovito upravljanje i podrška proizvodnji, industrijski funkcionalnim bazama podataka i velikim repozitorijima znanja koji sadrže informacije o svim područjima djelatnosti tvrtke;
    • prisutnost tehnologija koje omogućuju interaktivni pristup informacijama i resursima za bilo kojeg korisnika - tehnička osnova za to je otvorena (besplatna) i korporativni sustavi traženje informacija(Information Retrieval Systems - IRS), državni i komercijalni komunikacijski sustavi, globalne (Global Network Systems), nacionalne (NNS) i regionalne (RNS) informacijske i računalne mreže; međunarodnih sporazuma, standarda i protokoli razmjene podaci;
    • proširenje informatičke funkcionalnosti koja osigurava distribuirani rad baza podataka i skladišta podataka s podacima različite strukture i sadržaja, višeobjektni dokumenti, hipermedija; stvaranje lokalnih i integriranih problemski orijentiranih informacijskih sustava za različite namjene temeljenih na moćnim poslužiteljima i lokalnim mrežama;
    • uključivanje u IS specijaliziranih korisničkih sučelja za interakciju sa ekspertni sustavi(Expert System - ES), sustavi za podršku odlučivanju (Decision Support System - DSS), sustavi za podršku izvršenju (Executive Support System - ESS), sustavi strojno prevođenje(Translating Computer System - TCS) i druge tehnologije i alati.

    Postoji pet glavnih trendova u razvoju IT-a.

    1. Globalizacija. Tvrtke mogu koristiti IT za poslovanje na globalnom tržištu, bilo gdje, odmah primajući sveobuhvatne informacije. Događa se internacionalizacija softver i tržište informacijskih proizvoda. Stjecanje koristi kontinuiranim širenjem troškova informacija na širu geografsku regiju postaje bitan element strategije.
    2. Konvergencija. Brišu se razlike između industrijskih proizvoda i usluga, informacijskih proizvoda i načina njihova dobivanja te njihove profesionalne i svakodnevne uporabe. Prijenos i prijem digitalnih, audio i video signala kombinirani su u istim uređajima i sustavima.
    3. Sve veća složenost informacijskih proizvoda i usluga. Informacijski proizvod u obliku softvera i hardvera, baza podataka i skladišta podataka, operativnih servisa i stručne podrške ima tendenciju stalnog razvoja i usložnjavanja. U isto vrijeme, IT sučelje, unatoč složenosti zadataka koji se rješavaju, stalno se pojednostavljuje, čineći interaktivnu interakciju između korisnika i sustava sve ugodnijom.
    4. Interoperabilnost(Interoperabilnost). Problemi optimalne razmjene podataka između računalnih informacijskih sustava, između sustava i korisnika, problemi obrade i prijenosa podataka te formiranja potrebnih informacija stekli su status vodećih tehnoloških problema. Suvremeni softver i hardver te protokoli razmjene podaci omogućuju njihovo rješavanje na sve potpuniji način.
    5. Uklanjanje međukarika(Dezinmedijacija). Razvijanje sposobnosti jasne interakcije dovodi do pojednostavljenja isporuke informacijskog proizvoda potrošaču. Lanac posrednika postaje nepotreban ako je moguće naručiti i dobiti ono što se traži izravno uz pomoć IT-a.

    U poslovnom smislu to znači sljedeće:

    • implementacija distribuirane obrade podataka, kada na radnom mjestu postoji dovoljno resursa za dobivanje i analizu informacija;
    • stvaranje razvijenih komunikacijskih sustava, kada se poslovi spajaju na najbrži mogući način prosljeđivanje poruka;
    • otklanjanje smetnji u integracijskom sustavu "organizacija - vanjsko okruženje", izravan pristup globalnom tokovi informacija;
    • stvaranje i razvoj elektroničkih sustava naručivanja i trgovanja;
    • podrška za društvene mreže.

    Promjene u zahtjevima za interesne skupine u IT i informatička kultura poduzeća određena su dinamikom razvoja poduzeća i vanjske okoline te dovode do funkcionalnih promjena u sustavu upravljanja. Ključni aspekti ovaj razvoj i njihov utjecaj na ulogu IT-a u upravljanju poduzećem su sljedeći [Müller-Stevens G., Aschwanden S. Problemi teorije i prakse upravljanja, br. 1, 1998.].

    Od obrade podataka do upravljanja znanjem

    IT više nije potrebno promatrati samo kao sredstvo obrade podataka. Uz pomoć tehnologije potrebno je iz podataka izdvojiti informacije za potrebe korisnika, a problem „preopterećenosti informacijama“ koji se pritom javlja zahtijeva suvremena, brza sredstva odabira, daljnje obrade i ažuriranja informacija. Istodobno treba razmotriti pitanje komercijalno isplativih i user-friendly sučelja, kao i interakciju zajedničkog znanja između organizacijskih jedinica i suradničkih partnera.

    Brza mrežna integracija lokalni sustavi s regionalnim, pa čak i međunarodnim strukturama dovodi do napuštanja klasičnih područja rada računalne znanosti i širokog privlačenja sredstava telekomunikacija. Organizacijski, to dovodi do "zamagljivanja" informacijskih granica poduzeća. Sve je teže odrediti gdje počinje, a gdje završava. Stvaranje i rad odgovarajuće komunikacijske strukture za takva "virtualna poduzeća" zadatak je upravljanja informacijama, baš kao i klasična funkcija podrške proizvodnom procesu ili razvoju IT proizvoda i usluga. Ovdje nije stvar samo u obradi informacija, već i u racionalnoj distribuciji i korištenju znanja. Znanje treba donositi dobit i to, ako je moguće, danas!

    Osim toga, zaposlenici i menadžeri poduzeća moraju na profesionalnoj razini uzeti u obzir sve nove i važne aspekte za IT. Primjer je pitanje tehnološkog i ekonomskog značaja Internet/Intranet tehnologija. Informatička služba je ta koja snosi odgovornost za stvaranje platforme na kojoj će biti moguće korporativno upravljanje, uključujući i kvalificiranu obuku (uključujući psihološku) osoblja.

    Decentralizacija i rastuće potrebe za informacijama

    Usredotočenost na maksimalnu blizinu klijentu zahtijevala je od poduzeća da prijeđu na horizontalne, decentralizirane strukture. Donošenje odluka u uvjetima decentralizacije dovelo je do naglog porasta potrebe za informacijama u vezi proces proizvodnje dobara i usluga. Ukazala se potreba za detaljnijim upoznavanjem treće strane sa stanjem u relevantnim gospodarskim područjima i sustavima. implementacija kvalitete proizvod. U novom okruženju informiranje u svim područjima mora funkcionirati besprijekorno.

    Korištenje IT-a osmišljeno je za izravnavanje organizacijske složenosti poduzeća. Prethodno se to postiglo oslanjanjem na računala za složene izračune i vrlo velike količine obrade dokumentacije. Sada govorimo o tome kako se uz pomoć nove komunikacijske tehnologije poboljšavaju sve složeniji horizontalni i vertikalni modeli odnosa (čije se strukture pak stalno mijenjaju).

    Ranije su poduzeća instalirala moćne računalne centre koji su pripremali ogroman broj digitalnih izvješća, na temelju kojih se kasnije upravljalo poslovanjem. Sada je zadatak informatičkih službi tvrtke razviti tehnologiju pomoću koje bi bilo moguće stalno biti u tijeku s događanjima menadžera i njihovih partnera koji donose odluke u decentraliziranom okruženju. Novi informacijsko-tehnološki sustavi ne bi trebali osigurati neki apstraktni ekonomski sustav, već specifične partnere koji u različitim oblicima sudjeluju u gospodarskom procesu.

    Integracija decentraliziranih sustava

    Informacije u poduzećima obrađuju se unutar širokog spektra sustava, često nepovezanih jedni s drugima. Učiniti ih dostupnim svim zaposlenicima (kao i vanjskim partnerima) i time olakšati kreativno donošenje odluka može biti kritični faktor uspjeha za mnoge tvrtke. Istodobno, vertikalna i horizontalna integracija informacijsko-tehnoloških sustava nastala u uvjetima decentralizacije čini se gotovo nemogućom. U svakom slučaju, u klasičnim informatičkim područjima nema iskustva po tom pitanju. Međutim, integracija se mora dogoditi.

    Postavljanje takvog cilja neophodno je za top menadžment za stvarno upravljanje promjenama. Organizacijska poluga u postizanju toga mogu biti virtualne, projektne i radne skupine, koje objedinjuju zajednički interesi u provođenju tekućih projekata i rješavanju dugoročnih problema. Možda će takve grupe čak moći učinkovito upravljati funkcijama distribuiranih odjela tvrtke i IT aktivnostima koje ih prate. Cilj bi u ovom slučaju mogao biti integracijski pristup međusobno povezanim tehnološkim, društvenim, funkcionalnim i ekonomskim procesima poduzeća.

    Ulaganja i rizici

    IT ulaganja danas imaju brojne implikacije. S jedne strane, otvaraju određene izglede, ali s druge strane, mogu lišiti poduzeće obećavajućih prilika u budućnosti zbog ovisnosti povezanih s brzim tehnološkim promjenama i "zaključanosti" na bilo koju tehnologiju ili određenog dobavljača . Stoga se odluke o ulaganju u informatičku tehnologiju ne bi trebale donositi dok se ne procijene rizici korištenja pojedinih računalnih i telekomunikacijskih alata i dok se ne dobiju stručni savjeti o tome kojim će putem krenuti sljedeća generacija tehnologije. Prilikom planiranja kapitalnih ulaganja u IT, imperativ je “imati na umu” krajnji cilj njihove nabave i implementacije - koliko će IT doprinijeti provedbi poslovne strategije poduzeća.

    Psihološki faktor i jezične razine

    Naravno, nova tehnologija povećava produktivnost i pomaže tvrtki u postizanju boljih poslovnih rezultata. Uz to, menadžeri moraju biti svjesni kako ljudi koji koriste nova tehnologija. Tvrtke koje to rade bolje mogu očekivati ​​veće povrate svojih IT ulaganja.

    IT dobavljači i integracijski timovi moraju naučiti davati prijedloge u više od tehničkih termina. Tijekom pregovora partner će pokrenuti pitanja koja su od temeljne važnosti za viši menadžment u njegovoj tvrtki. Ovdje je važno da obje strane dosegnu novu pregovaračku razinu kada strane bi govorile istim jezikom. U ovom slučaju ne govorimo o kvaliteti opreme, već o kvaliteti usluga u IT području. Tehnologija, naravno, mora dobro funkcionirati visoka razina. Pritom se njezin proizvođač mora osjećati u koži menadžera koji uz pomoć informatike nastoji ostvariti konkurentsku prednost. “Čisti prodavač” u IT sustavu prodaje postaje prošlost. Slična situacija trebala bi se pojaviti u samom poduzeću, osobito kada je u pitanju višeindustrijska proizvodnja ili pružanje raznih usluga. Sposobnost IT menadžera da pronađe zajednički jezik s voditeljima odjela trebala bi prestati biti usamljena umjetnost, već postati svakodnevna praksa.

    Razmjena informacija u društvu odvija se uglavnom u tekstualnom obliku. Stoga nije slučajnost da vrlo značajan udio izvori informacija Suvremeni informacijski sustavi sastoje se od tekstualnih informacija. Već u ranim fazama razvoja informacijskih sustava velika se pozornost počela posvećivati ​​razvoju učinkovitih tehnologija za pohranjivanje, obradu i dohvaćanje tekstualnih informacija. Aktivna istraživanja i praktični razvoj u ovom području započeli su još 50-ih godina prošlog stoljeća, od vremena kada je računalna tehnologija omogućila unos-izlaz tekstualnih informacija.

    Među informacijskim sustavima koji se bave tekstualne informacije, najčešći su sustavi za pretraživanje teksta. Njihov zadatak je pronaći u zbirci pohranjenoj na računalu tekstualni dokumenti u prirodnom jeziku takve dokumente koji zanimaju korisnika.

    Razvoj sustava za pretraživanje teksta u velikoj je mjeri bio potaknut potrebama informacijske podrške znanstvenom istraživanju i obrazovanju te razvojem automatiziranih knjižničnih sustava. Međutim, posljednjih se godina sve više koriste u upravljanju poduzećima iu mnogim drugim područjima djelovanja.Traženje informacija pomoću računala ima povijest dugu gotovo pola stoljeća. Prvi automatizirani informacijski sustavi počeli su se razvijati još 50-ih godina prošlog stoljeća, a njihova glavna funkcija bila je upravo potraga za informacijama. Stoga su ih nazvali sustavima za pronalaženje informacija (IRS).

    Ovisno o prirodi podržanih informacijskih izvora, ti su se sustavi obično dijelili u dvije kategorije: činjenične i dokumentarne. Factual IPS je radio s činjenicama predstavljenim u obliku entiteta iz stvarnog svijeta i njihovih svojstava, te je omogućio pronalaženje entiteta koji imaju korisnička svojstva, kao i svojstva navedenih entiteta. Kada se ranih 1960-ih počela pojavljivati ​​tehnologija baze podataka, postalo je jasno da je ova kategorija informacijskog sustava poseban slučaj sustava baze podataka. Kao rezultat toga, ovaj smjer u području pretraživanja informacija postupno je "apsorbirao" tehnologije baza podataka.

    Dokumentarni informacijski sustavi namijenjeni su pohranjivanju i pronalaženju dokumenata koji sadrže tekstove na prirodnim jezicima. Takvi IRS-ovi predstavljaju rane sustave pretraživanja teksta.

    Sustavi za pretraživanje teksta razvijeni u tom razdoblju nazvani su deskriptor IRS. U takvim sustavima, sadržaj svakog tekstualnog dokumenta i korisničkih upita za pretraživanje opisan je skupovima riječi ili izraza koji se nazivaju deskriptori. U procesu pretraživanja, sustav za pretraživanje informacija ne radi sa samim tekstualnim dokumentima, već s njihovim "zamjenama", koje u većini sustava ručno kreiraju autori dokumenata, stručnjaci za predmetno područje dokumenata i drugi osobe. Usklađivanje skupova deskriptora koji predstavljaju dokumente u sustavu sa skupom deskriptora koji predstavljaju korisnički zahtjev omogućuje pronalaženje dokumenata koje korisnik traži. IPS deskriptora imaju relativno jednostavne mehanizme pretraživanja, ali je kvaliteta pretraživanja relativno niska.

    Jedna od najčešćih primjena sustava deskriptora bilo je bibliografsko pretraživanje. Takvi sustavi pohranjuju zbirke bibliografskih opisa dokumenata, a sustav omogućuje pronalaženje publikacija određenog autora, publikacija objavljenih u određenoj izdavačkoj kući i/ili objavljenih u određenoj godini i sl. Mnogi IRS-ovi bibliografskih deskriptora i danas su u upotrebi.

    U procesu razvoja računalne tehnologije računala su dobila uređaje vanjska memorija izravan pristup dovoljno velikog volumena, performanse procesora značajno su porasle. To je omogućilo stvaranje i praktičnu upotrebu naprednijih tehnologija u sustavima za pretraživanje dokumentarnih informacija, nazvanih tehnologijama pretraživanja punog teksta.

    Zahvaljujući mogućnosti pohranjivanja i obrade cjelovitih tekstova dokumenata u takvim sustavima, bilo je moguće u velikoj mjeri automatizirati procese jezične analize i pretraživanja dokumenata. Razvijeni su pristupi za automatizaciju kompilacije niza rječnika i tezaurusa koji se koriste u ovom procesu. U tehnologijama pretraživanja punog teksta značajno mjesto zauzimaju statističke metode analize dokumenata. U početku su sustavi punog teksta pružali uglavnom kontekstualno pretraživanje, tj. traženje dokumenata čiji tekstovi sadrže pojavu konteksta navedenog u zahtjevu korisnika. Kasnije je korišteno Booleovo pretraživanje. Razvijeni su i razni suptilniji modeli pretraživanja.

    Kroz povijest sustava za pretraživanje teksta aktivna su znanstvena istraživanja u ovom području. Na razvoj sustava za pretraživanje teksta uvelike su utjecali inovativni istraživački projekti i razvoj eksperimentalnih prototipova sustava za pretraživanje cijelog teksta provedenih 60-ih godina prošlog stoljeća. Ovo razdoblje karakterizira značajan napredak u različitim aspektima organizacije sustava za pretraživanje teksta i metoda koje se u njima koriste. Trenutno su obećavajući razvoji u području koje se razmatra koncentrirani oko autoritativnog međunarodna konferencija pretraživanjem teksta TRES (Text Retrieval Conference), koji je 1992. u SAD-u osnovao Američki nacionalni institut za standarde i tehnologiju (NIST).

    Aktivan razvoj tehnologija za pretraživanje teksta i informacijske potrebe korisnika potaknuli su transformaciju informacijskih sustava iz sustava za pretraživanje teksta u sustave općenitije klase koji se ne bave samo tekstualnim dokumentima, već i dokumentima koji sadrže informacije drugačije prirode. U takvim sustavima (oni se nazivaju multimedijski), sadržaj njihovih objekata pretraživanja - dokumenata - kombinacija je informacijskih izvora predstavljenih u različitim okruženjima - tekstualni elementi, statične slike, audio podaci (glazbena djela, tekst izgovoren glasom itd.) , crtani filmovi, video isječci itd.

    Vjerojatno, kako bi se razlikovali sustavi za pretraživanje teksta i sustavi za pretraživanje koji upravljaju tim drugim vrstama informacijskih resursa, posljednjih godina, uz pojam sustava za pretraživanje informacija (Information Retrieval System), počeo se koristiti i pojam sustav za pretraživanje teksta (Sustav za pretraživanje teksta ili Tekst Retrieval System) počeo se koristiti. .

    Budući da korisnici postavljaju prilično visoke zahtjeve sustavima za pretraživanje teksta, moderne tehnologije Pretraživanje teksta postalo je vrlo složeno sintetičko područje istraživanja i razvoja. Ovo područje pokriva širok raspon problema - od teorije pronalaženja informacija do metoda zadovoljavanja potreba korisnika za prikupljanjem, organiziranjem, pohranjivanjem, pronalaženjem i distribucijom informacija. Također uključuje probleme pružanja sučelja između korisnika i alata za upravljanje resursima za nestrukturirane ili polustrukturirane informacije podržane u računalnom okruženju. U sustavima za pretraživanje teksta koriste se i analitički i empirijski pristupi.

    Značajno mjesto u tehnologijama pretraživanja teksta zauzima obrada prirodnog jezika, tj. računalno rješavanje problema vezanih uz razumijevanje, analizu, izvođenje različitih operacija nad tekstovima na prirodnom jeziku, kao i njihovo generiranje. Ova klasa zadataka pripada području umjetne inteligencije.

    Suvremene tehnologije pretraživanja teksta koriste se ne samo aparatom lingvistike za analizu teksta, već i statističkim metodama, matematičkom logikom i teorijom vjerojatnosti, analizom klastera, metodama umjetne inteligencije i tehnologijama upravljanja podacima.

    Rad na informacijskoj superautocesti, posebice vezan uz stvaranje digitalnih knjižnica, koji se sredinom 1990-ih razvio u mnogim zemljama diljem svijeta, značajno je oživio interes za probleme pretraživanja teksta. Pojavili su se potpuno novi pravci, poput otkrivanja informacija u globalu računalna mreža, pretraživanje teksta na webu, višejezično pretraživanje.

    U svojoj polustoljetnoj povijesti razvoj tehnologija za pretraživanje teksta napravio je ogroman korak od najjednostavnijih sustava za pretraživanje deskriptornih informacija do sofisticiranih sustava za pretraživanje cijelog teksta, od tražilica do sustava s bogatijom funkcionalnošću. Resursi suvremenih računalnih sustava omogućuju pohranjivanje ogromnih količina informacijskih izvora u sustavima za pretraživanje teksta, provođenje ne samo tehničkih, već i algoritamski složenih postupaka obrade pohranjenih zbirki dokumenata - njihovu klasifikaciju, grupiranje, dubinsku analizu teksta. , prijevod dokumenata s jednog jezika na drugi itd. .d.

    Sustavi za pretraživanje teksta značajno su utjecali na formiranje specifične klase informacijskih sustava nazvanih sustavi za upravljanje dokumentima, koji su danas u širokoj upotrebi u mnogim velikim trgovačkim poduzećima i drugim organizacijama. U takvim sustavima važnu ulogu imaju ne samo metode obrade prirodnog jezika stvorene za rad s tekstualnim dokumentima, već i organizacija grupnog razvoja dokumenata, njihova pohrana, distribucija i, naravno, tehnologije pretraživanja teksta.

    Razvoj tehnologija za pretraživanje teksta nastavio se prilično intenzivno posljednjih godina zahvaljujući aktivnom istraživanju i razvoju koji se provode u mnogim zemljama. Pojavila se industrija komercijalnog softvera za sustave za pretraživanje teksta. Takvi sustavi se razvijaju i naširoko koriste u našoj zemlji.

    Kao što je navedeno, tehnologije pretraživanja teksta bave se informacijama prikazanim na prirodnim jezicima. Sadržajna raznolikost takvih informacija je prilično velika - to mogu biti članci objavljeni u novinama i časopisima, razni tehnički priručnici, izvješća, knjige, disertacije, pisma, zakonodavni akti itd.

    Osnovna jedinica informacija u sustavima za pretraživanje teksta naziva se dokument. Dokument nije pravna cjelina, već sadržajno kompletna, jedinstveno identificirana jedinica informacija predstavljena na bilo kojem prirodnom jeziku. U ranom IPS-u, dokument se smatrao atomskom (nedjeljivom) jedinicom. Za sustav je djelovao kao "crna kutija". U naprednijim sustavima za pretraživanje teksta, sadržaj dokumenta dostupan je sustavu za obradu i analizu.

    Djeluju sustavi za pretraživanje cijelog teksta elektronički dokumenti, tj. dokumenti pohranjeni u memoriji računala i dostupni za automatsku obradu. Računalna lingvistička analiza i obrada tekstualnih dokumenata mogući su samo ako su dostupni u softveru pojedinačni elementi tekstualni dokument. Stoga je potpuno nedovoljno skenirati tekstualni dokument na papiru i pohraniti dobiveni faksimil u memoriju računala u obliku grafička datoteka bilo koji format. Dokument je potrebno imati u digitaliziranom obliku, tj. u takvom formatu da je svaki znak teksta ovog dokumenta programski dostupan. Sustav tako može raditi na sadržajnim elementima digitaliziranog dokumenta. Digitalizirani prikaz tekstualnog dokumenta može se stvoriti, na primjer, korištenjem:

    Skeniranje s papira i korištenje programa za prepoznavanje optički simboli(Optičko prepoznavanje znakova - OCR);

    Programsko generiranje teksta korištenjem prepoznavanja glasa ili na neki drugi način.

    Ukupnost dokumenata pohranjenih u sustavu drugačije se naziva različitim sustavima(traži polje, arhivu itd.). U posljednje vrijeme često se u tu svrhu koristi izraz „zbirka dokumenata“. Svaka tražilica teksta može, općenito govoreći, podržati nekoliko različitih zbirki dokumenata.

    Dokumenti se pohranjuju u tekstualni sustav pretraživanja kako bi se zadovoljile informacijske potrebe korisnika. Prikaz informacijskih potreba korisnika u obliku koji se može percipirati softver sustav za pretraživanje teksta naziva se korisnički upit (ili samo upit). Potrebna komponenta Sadržaj korisničkog zahtjeva je opis svojstava koja imaju dokumenti od interesa za korisnika. Prirodno je ovaj opis nazvati kriterijem pretraživanja.

    Treba naglasiti da jedinica granularnosti pretraživanja, tj. u većini sustava za pretraživanje teksta, najmanja jedinica informacije koja se može vratiti korisniku kao rezultat obrade upita koji je on naveo je dokument, a ne bilo koji njegov dio. U pravilu, kao rezultat obrade korisničkog zahtjeva, sustav proizvodi skup rezultirajućih dokumenata koji zadovoljavaju kriterij naveden u zahtjevu.

    Kriteriji pretraživanja u korisničkim upitima mogu imati različite oblike. Na primjer, to može biti skup pojmova (riječi ili fraza) sadržanih u traženim dokumentima ili pojmova povezanih Booleovim simbolima operatora. U potonjem slučaju, Booleov operator se tumači kao uvjet istovremenog pojavljivanja (operator "AND") riječi koje povezuje u dokumentu, alternativnog pojavljivanja (operator "OR") ili odsutnosti pojavljivanja (operator "NOT") sljedećeg termina. U složenijim slučajevima kriterij pretraživanja može biti rečenica prirodnog jezika ili čak primjer dokumenta koji zadovoljava informacijske potrebe korisnika. Analizirajući takav dokument, sustav će istaknuti pojmove kako bi formirao neki "interni" pogled na ovaj zahtjev korisnika.

    Dokumenti pohranjeni u sustavu koji odgovaraju upitu korisnika nazivaju se relevantnim.

    Relevantnost dokumenta ne mora se nužno procjenjivati ​​u smislu binarne logike („da-ne“). Neki razvijeni sustavi koriste suptilnije procjene, koje se izračunavaju kao vrijednosti posebno odabrane numeričke funkcije (funkcija relevantnosti), uzimajući vrijednosti u intervalu. U takvim je slučajevima primjereno govoriti o stupnju relevantnosti dokumenta, shvaćajući ga kao vrijednost ove funkcije. Neki sustavi za pretraživanje teksta daju korisniku skup dokumenata dobivenih kao rezultat obrade upita, poredajući dokumente silaznim redoslijedom relevantnosti. Ovakav raspored pronađenih dokumenata naziva se rangiranje. Korisnik može učinkovitije analizirati rangirani skup dokumenata rezultata upita. S velikom vjerojatnošću njemu najzanimljiviji dokumenti od pronađenih nalaze se na početku prikazanog popisa dokumenata.

    Zbog različitih razloga, posebice povezanih s poteškoćama automatizacije razumijevanja prirodnog jezika, kao i netočnosti prikaza korisnikovih informacijskih potreba u zahtjevu, kao rezultat obrade korisničkog zahtjeva, dokumenti koji ne zadovoljavaju mogu se pronaći potrebe korisnika za informacijama. Taj se fenomen naziva informacijski šum.

    Važna svojstva kvalitete pretraživanja u sustavima za pretraživanje teksta su potpunost i točnost pretraživanja. Cjelovitost pretraživanja određuje omjer broja relevantnih dokumenata vraćenih kao rezultat obrade zahtjeva korisnika i broja relevantnih dokumenata stvarno dostupnih u sustavu. Udio relevantnih dokumenata u skupu rezultirajućih dokumenata upita može se koristiti za kvantificiranje točnosti pretraživanja.

    2. Načela pretraživanja teksta

    Razmotrimo sada osnovne principe izgradnje modernih sustava za pretraživanje teksta. Raznolikost tehnologija koje se ovdje koriste uzrokovana je razlikama u pristupima koji se koriste za predstavljanje značenja dokumenata pohranjenih u sustavu na prirodnim jezicima i informacijskim potrebama korisnika te raznolikošću kriterija za relevantnost dokumenata za korisničke upite.

    Izvori složenosti u suvremenim sustavima za pretraživanje teksta. Za razliku od tehnologija ranih sustava za pretraživanje informacija, razvijene suvremene tehnologije pretraživanja teksta omogućuju pretraživanje dokumenata od interesa za korisnika na temelju njihovog informacijskog sadržaja, a ne samo na skupovima deskriptora ili vrijednostima bilo kojih atributa povezanih s njima. dokumenti (godina izdanja, autor, izdavač i sl.). Ovi atributi, iako mogu, posebno, biti jedinstveni identifikatori dokumenata, ali ni na koji način ne ovise o njihovom sadržaju.

    Glavni problemi tehnologija pretraživanja teksta povezani su sa složenošću nedvosmislenog automatskog tumačenja sadržaja tekstova dokumenata i formulacije korisničkih informacijskih potreba na prirodnom jeziku. Izjave prirodnog jezika često sadrže dvosmislenost i suvišnost. Potrebno je voditi računa o sinonimiji i homonimiji pojmova, raznolikosti gramatičkih oblika jezičnih elemenata. Semantičke veze između riječi u rečenici često su prikazane u implicitnom obliku. Rječnik prirodnih jezika je dinamičan; novi koncepti i termini pojavljuju se prilično često u mnogim tematskim područjima.

    Ove značajke dovode do nepostojanja pravilne strukture u tekstualnim dokumentima na prirodnom jeziku. Stoga se podaci koji predstavljaju informacijske resurse ove prirode nazivaju nestrukturiranima.

    Semantička usporedba sadržaja dokumenata pohranjenih u sustavu i korisničkih upita izraženih prirodnim jezikom prilično je težak zadatak. To objašnjava poteškoće pri odlučivanju zadovoljava li dotični dokument informacijske potrebe korisnika moderni sustavi pretraživanje teksta.

    Za upravljanje podacima ove prirode potrebno je koristiti drugačiju tehniku ​​upravljanja podacima nego u sustavima baza podataka, iako su neki od elemenata upravljanja podacima koji se koriste u sustavima baza podataka primjenjivi i na sustave za pretraživanje teksta.

    Podnošenje dokumenata. Zbirke dokumenata pohranjenih u sustavima za pretraživanje teksta mogu biti prilično velike. Tekstovi sadržani u dokumentima također mogu biti prilično veliki. Stoga je nerealno očekivati ​​da će sustav za pretraživanje teksta moći analizirati pune tekstove pohranjenih dokumenata u procesu obrade korisničkih zahtjeva, čak i ako se ovaj sustav temelji na vrlo moćnom računalu. Učinkovitost takvog sustava ne bi bila jako visoka.

    Izlaz je ne raditi sa samim dokumentima, već s nekim strukturiranim prikazima njihovog sadržaja, koji se nazivaju prikazi dokumenata (u nekim publikacijama nazivaju se i predstavnicima dokumenata). Korištenje prikaza dokumenta umjesto samog dokumenta omogućuje vam da izbjegnete dugotrajan proces pregledavanja i analize cijelog sadržaja dokumenta tijekom faze pretraživanja, dok u isto vrijeme iskorištavate prednosti strukturirane prezentacije za poboljšanje učinkovitosti pretraživanja.

    Suvremeni sustavi za pretraživanje teksta koriste različiti pristupi do konstruiranja prikaza pohranjenih dokumenata. Kvaliteta pretraživanja - njegova točnost, potpunost, izvedba i druge karakteristike - značajno ovisi o prirodi korištenih prikaza dokumenata. Budući da tekstualni dokumenti uneseni u sustav u pravilu ostaju nepromijenjeni tijekom cijelog vremena postojanja u sustavu, konstrukcija prikaza svakog dokumenta dostupnog u sustavu može se izvršiti jednom u fazi njegovog unosa u sustav. sustav.

    Indeksiranje dokumenata. Prikaz dokumenta obično se konstruira na temelju skupa svojstava (atributa) tog dokumenta. U jednostavni sustavi pretraživanje teksta, ovi atributi, kao što je već navedeno, uopće nisu komponente sadržaja dokumenta. Takvi atributi mogu biti bilo koja vanjska (u odnosu na tekst dokumenta) obilježja dokumenta i uopće nije nužno da ga identificiraju na jedinstven način. Možete, primjerice, koristiti registarski broj dokumenta u arhivi, datum njegove registracije, naziv organizacije koja je primatelj dokumenta, naznaku mjesta njegove pohrane itd. Naslovi klasifikatori dokumenata ili elementi metapodataka Dublin Corea također se mogu koristiti kao takvi vanjski atributi dokumenata.

    Dublinska jezgra (DC) je skup elemenata metapodataka, čije je značenje opisano verbalno i zabilježeno u specifikaciji standarda koji ga definira. U smislu značenja ovih elemenata, moguće je opisati sadržaj različitih vrsta tekstualnih dokumenata i dokumenata prikazanih u drugim okruženjima. Takav će opis jasno razumjeti cijela zajednica koja koristi DC za predstavljanje dokumenata i korisničkih zahtjeva.

    Dublinska jezgra posljednjih je godina sve raširenija. Atraktivnost ovog pristupa povezana je s njegovom jednostavnošću, što naravno rezultira ograničenjima njegovih mogućnosti.

    Izvorna verzija Dublinske jezgre, koja je uključivala 13 elemenata, predložena je na simpoziju održanom u Dublinu (SAD) 1995. godine, koji su organizirali On-line Computer Library Center (OCLC) i National Center for Supercomputing Applications (NCSA) kako bi opisati informacijske izvore knjižničnih sustava, posebno web-informacijske resurse itd. Razvoj Dublin Corea podupire organizacija posebno osnovana za tu svrhu - Dublin Core Metadata Initiative (DCMI).

    Trenutna verzija specifikacija Dublin Core, DC 1.1, usvojena je kao DCMI standard 1999. godine. Uključuje 15 metapodataka. To uključuje:

    Naslov (naziv izvora);

    Kreator (osoba, organizacija ili služba odgovorna za pripremu sadržaja izvora);

    Predmet (tema o kojoj se govori u sadržaju izvora);

    Opis (opis sadržaja izvora u slobodnom obliku);

    Izdavač (osoba, organizacija ili usluga koja omogućuje pristup izvoru);

    Suradnik (drugi sudionici u pripremi sadržaja resursa osim onih navedenih u Kreatoru)",

    Datum (datum stvaranja ili pružanja pristupa resursu);

    Format (priroda reprezentacije resursa);

    Jezik (jezik prezentacije izvora);

    Pokrivenost (područje prostora, vremena i sl. kojem pripada sadržaj izvora);

    Prava (prava intelektualnog vlasništva nad resursom itd.). Postignuti dogovor o sastavu elemenata metapodataka Dublin Corea utvrđuje sastav elemenata koji mu pripadaju. Međutim, na verbalnoj razini teško je svakome od njih jednoznačno pripisati precizno značenje. Na primjer, element Datum može imati različita značenja u različitim slučajevima - datum objave stranice na webu, datum zadnje ažuriranje ovu stranicu itd.

    Iz tog je razloga 2000. godine za DMCI Dublin Core predložen koncept kvalifikatora i objavljen je njihov početni sastav.

    Kvalifikatori su pojašnjavači semantike elemenata metapodataka Dublin Corea i njihova značenja u raznim specifičnim slučajevima njihove uporabe. Na primjer, za element Datum možete navesti da mislite na vrijeme kada je resurs kreiran, vrijeme kada je bio dostupan ili vrijeme tijekom kojeg je njegov sadržaj važeći, i tako dalje. Vrijednost elementa Relation može se odrediti da bude u URL formatu.

    Ako je kvalifikator naveden za element metapodataka Dublin Corea nepoznat web aplikaciji, bit će zanemaren.

    Skup kvalifikatora koje je usvojio DMCI 2000. godine uključuje dvije kategorije kvalifikatora: kvalifikatore koji specificiraju semantiku elemenata metapodataka jezgre i kvalifikatore koji definiraju način na koji su značenja njegovih elemenata kodirana tako da se mogu adekvatno interpretirati.

    Trenutno je u tijeku rad na razjašnjavanju danog sastava skupa elemenata metapodataka i njihovih kvalifikatora. Na temelju specifikacija DC 1.1, 2001. godine usvojen je nacionalni američki standard ANSI/NISO Z39.85-2001.

    U sustavima za kontekstualno pretraživanje cijelog teksta, atributi prezentacije dokumenta su pojmovi izdvojeni iz njegovog sadržaja - riječi, fraze itd., ili vrijednosti bilo koje posebno odabrane funkcije izračunate na temelju tih izdvojenih pojmova.

    U svakom slučaju, atributi povezani s dokumentom koji identificiraju dokument i/ili karakteriziraju njegov sadržaj nazivaju se njegovim svojstvima indeksiranja. Na temelju svojstava indeksiranja dokumenata u sustavu za pretraživanje teksta, izgrađena je pomoćna struktura podataka koja omogućuje, na temelju njihovih vrijednosti ili vrijednosti neke funkcije koja ih koristi kao argumente, učinkovito (bez potpunog pregleda sadržaja dokumenata i bez njihovog potpunog nabrajanja) otkriti dokument ili dokument u zbirkama sustava dokumente kojima ti atributi odgovaraju, te po potrebi izvršiti brz pristup ovim dokumentima. Ova prateća struktura podataka naziva se indeks, a proces dodjele navedenih atributa dokumentu naziva se indeksiranje dokumenta.

    Rani sustavi za pretraživanje teksta koristili su jednostavnu prezentaciju dokumenta, koja je bila vrlo popularna zbog svoje jednostavnosti, iako nije mogla pružiti kvalitetno pretraživanje. Takav prikaz bio je skup riječi ili izraza iz vokabulara predmetnog područja sustava, karakterizirajući sadržaj ovog dokumenta. Te se riječi i izrazi nazivaju deskriptorima. Prikaz dokumenta u sustavima deskriptora naziva se pretražena slika dokumenta.

    IPS koji koriste pristup koji se razmatra nazivaju se deskriptorski sustavi. Takvi sustavi su i danas u uporabi. Indeksiranje dokumenta u njima svodi se na dodjelu skupa deskriptora.

    Dokumenti se mogu indeksirati u sustavima za pretraživanje teksta na temelju njihovih naslova, komentara ili puni tekst. To se može učiniti ručno od strane autora dokumenata, stručnjaka za predmetno područje sustava koji pripremaju dokumente za unos u sustav ili automatski pomoću mehanizama sustava na temelju analize dokumenata.

    Metode za predstavljanje i indeksiranje dokumenata u modernim razvijenim sustavima za pretraživanje teksta koriste prilično radno intenzivne računalne postupke, tako da se mogu implementirati samo automatski.

    Prezentacija zahtjeva korisnika. Formiranje strukturiranih prikaza sadržaja korisničkih upita još je jedan važan zadatak sustava za pretraživanje teksta. Kao što tijekom procesa pretraživanja sustav radi sa strukturiranim prikazima dokumenata umjesto sa samim dokumentima, on umjesto korisnički specificiranog upita koristi strukturirani prikaz koji se konstruira u procesu obrade tog upita. Prikaz upita izgrađen je na istim principima kao i prikazi dokumenata u ovom sustavu, jer inače ne bi bili usporedivi.

    Na primjer, u sustavima za pretraživanje teksta deskriptora, skup deskriptora koji karakteriziraju sadržaj upita također se koristi kao reprezentacija upita. U takvim sustavima, prikaz upita naziva se slika upita za pretraživanje.

    Kriteriji relevantnosti dokumenta. U procesu obrade korisničkog zahtjeva, sustav treba procijeniti relevantnost sljedećeg dokumenta koji se razmatra. Da bi se riješio ovaj problem, njegov prikaz mora se usporediti prema nekom kriteriju relevantnosti (kriterij blizine) s prikazom upita.

    Vrsta kriterija blizine ovisi o pristupu koji se koristi u sustavu za generiranje prikaza dokumenata i upita. Sustavi deskriptora obično koriste kriterije teorije skupova. Na primjer, dokument se smatra relevantnim ako je skup deskriptora slike upita podskup skupa deskriptora slike pretraživanja dokumenta. Ostale varijante kriterija - navedeni skupovi deskriptora su jednaki ili njihovo sjecište nije prazno. Napredni sustavi za pretraživanje teksta koriste složenije kriterije blizine.

    Opća načela pretraživanja teksta. Moderni sustavi za pretraživanje teksta koriste prilično širok raspon pristupa predstavljanju i indeksiranju pohranjenih dokumenata, predstavljanju korisničkih upita i procjeni relevantnosti dokumenata. Međutim, i jednostavni i napredni sustavi koriste neke generalni principi organizacija pretraživanja. Ova opća načela su sljedeća.

    Kada se dokument unese u sustav, dokument se indeksira i gradi njegova reprezentacija, koja će služiti kao zamjena za ovaj dokument tijekom funkcioniranja sustava prilikom obrade zahtjeva korisnika. Budući da je prezentacija dokumenta dovoljno formalizirana, eliminirana je potreba za analizom njegovog punog teksta svaki put prilikom obrade zahtjeva. Prezentacija dokumenta ostaje nepromijenjena kroz cijelo vrijeme postojanja dokumenta u sustavu, budući da se sadržaj dokumenta ne mijenja.

    Nadalje, na temelju svojstava indeksiranja specifičnih dokumenata primljenih izvan sustava ili identificiranih od strane samog sustava analizom sadržaja dokumenata, sustav generira i održava indeks za svaku kolekciju dokumenata pohranjenih u njemu. Također osigurava da se indeks ažurira kada se zbirka doda u zbirku ili, što se događa relativno rijetko, kada se dokumenti uklone iz zbirke.

    Kada zahtjev korisnika uđe u sustav, za njega se također gradi odgovarajuća reprezentacija. Metoda za njegovu konstrukciju slična je onoj koja se koristi za izradu prikaza dokumenta.

    Naposljetku, samo pretraživanje sastoji se u tome da se na neki učinkovit način (ne izravnim nabrajanjem, već obično uz pomoć racionalno organiziranog indeksa dokumenata u zbirci), usporedba prikaza upita s prikazima dokumenata pohranjenih u sustav se provodi prema kriteriju blizine koji je usvojio sustav. U nekim se slučajevima za te sklopove uvodi posebna metrika. Rezultati obrade upita prikazuju se u obliku skupa pronađenih relevantnih dokumenata (rezultirajući skup dokumenata).

    Iako se u praksi koriste različite vrste prikaza dokumenata i korisničkih upita, navedeni opći principi pretraživanja teksta koriste se u širokom spektru sustava.

    3. Alati jezične potpore

    Kada obrađujete dokumente punog teksta u sustavima za pretraživanje teksta, morate se nositi s alatima za obradu prirodnog jezika. Ovi alati predstavljaju prilično složenu i važnu funkcionalnu komponentu takvih sustava.

    Alati za obradu prirodnog jezika u sustavima za pretraživanje teksta omogućuju izolaciju pojmova (riječi, izraza ili fraza) koji nose svoj sadržaj iz analiziranih tekstualnih dokumenata i korisničkih upita, identificiraju ovisnosti između tih pojmova, uzimaju u obzir njihove konceptualne veze u kontekstu danom predmetnom području, nadograđivati ​​na ovoj osnovi za prezentaciju dokumenta, transformirati korisničke upite za pretraživanje u oblik prikladan za pretraživanje i proširiti upite kako bi se povećala cjelovitost pretraživanja.

    Za obavljanje ovih funkcija većina sustava klase koja se razmatra koristi komplekse alata za jezičnu podršku. Takav kompleks može uključivati ​​različite rječnike, tezauruse, ontološke specifikacije predmetnog područja sustava.

    Rječnici sustava. Sustavi za pretraživanje teksta koji se bave obradom prirodnog jezika mogu podržavati rječnike vokabulara općeg jezika i vokabulara specifičnog područja. Takvi rječnici služe za morfološku analizu teksta, za osiguranje identifikacije riječi u različitim gramatičkim oblicima tijekom procesa pretraživanja, kao i za konstruiranje određenih vrsta prikaza dokumenata i upita.

    Tezaurusi. Posebni rječnici zvani tezaurusi imaju važnu ulogu u analizi i formiranju formaliziranog prikaza tekstualnih dokumenata. Tezaurus je rječnik temeljnih pojmova jezika, označenih pojedinačnim riječima ili frazama, s određenim semantičkim vezama među njima.

    Tezaurus može biti opći jezik (na primjer, tezaurus ruskog jezika) ili usmjeren na određeno područje. Rječnik tezaurusa uključuje mnoge riječi i/ili mnoge fraze. Vrste podržanih semantičkih veza između njih mogu biti ovisne ili neovisne o određenom predmetnom području. Tipično, takve veze definiraju sinonime, homonime, antonime jezičnih koncepata, podržavaju odnose među njima kao što su "cjelina - dio", "rod - vrsta", "koristi se za", "radi u", itd.

    Trenutno se koriste dvije metode izrade tezaurusa - ručna i automatska. Tezaurus, izrađen ručno, može biti univerzalan, neovisan o određenoj zbirci dokumenata. Međutim, nažalost, ručno razvijanje tezaurusa vrlo je skup, mukotrpan i dugotrajan zadatak koji zahtijeva dosta vremena. Stoga se u praksi često koristi automatska izrada tezaurusa. Metode za rješavanje ovog problema počele su se razvijati početkom 60-ih godina prošlog stoljeća. Automatsko stvaranje tezaurusa obično se provodi na temelju zadanih zbirki tekstualnih dokumenata, stoga su takvi tezaurusi dizajnirani za rad posebno s tim zbirkama.

    U sustavima koji koriste tezaurus, omogućuje, na primjer, prilikom pretraživanja po ključnim riječima, proširenje upita kako bi uključio sinonime ključnih riječi koje je izvorno odredio korisnik, čime se omogućuje potpunije pretraživanje. Sinonimi u dokumentu iu upitu mogu se identificirati. Tezaurusi se također često koriste u procesu ručnog ili automatskog indeksiranja dokumenata.

    Ontologije. Za adekvatnu interpretaciju sadržaja tekstualnih dokumenata i upita za pretraživanje prikazanih na prirodnom jeziku od strane korisnika i/ili sustava, sustav mora imati kontekst koji definira osnovne pojmove predmetnog područja i različite vrste semantičkih veza između njih. Ovaj opis je neovisan o specifičnim dokumentima sadržanim u zbirkama sustava i predstavlja specifikaciju konceptualizacije predmetnog područja sustava. Ova eksplicitna specifikacija naziva se ontologija domene. Ontologije su posljednjih godina postale široko rasprostranjene u raznim informacijski sustavi temeljene na znanju, u inženjerstvu znanja, u rješavanju problema semantičke integracije informacijskih izvora itd.

    Ontologija domene može biti podržana u sustavu s različitim stupnjevima formalizacije. U najjednostavnijem slučaju predstavlja se u obliku nekog verbalnog opisa. Zatim je namijenjen za ljudsku upotrebu u fazi indeksiranja dokumenata i kod formuliranja upita. U složenijem slučaju, ontologija je predstavljena u formaliziranom obliku u jezicima reprezentacije znanja koji dopuštaju logično zaključivanje. Takvi sustavi nazivaju se inteligentni.

    Čak iu ranoj fazi razvoja sustava za pretraživanje teksta, počeli su koristiti ontološke reprezentacije u obliku hijerarhijskih klasifikatora. Takvi opisi na svakoj hijerarhijskoj razini podržavaju odnos ekvivalencije na skupu klasificiranih entiteta, osiguravajući njegovu podjelu u po parovima disjunktne klase. U ovom slučaju, entiteti susjednih razina hijerarhije obično su u odnosu “cjelina – dio” ili “rod – vrsta”.

    Još jedan neslužbeni način opisivanja ontologije, koji se prilično široko koristi u sustavima za pretraživanje teksta, jest da se predstavi u obliku tezaurusa predmetnog područja sustava.

    Za formalno opisivanje ontologije u razvijenim sustavima koriste se logički jezici prvog reda. Dopuštaju mogućnost logičkog zaključivanja. Jezik navedene kategorije KIF (Knowledge Interchange Format), razvijen ranih 1990-ih u Laboratoriju za sustave znanja (KSL) na Sveučilištu Stanford, postao je prilično raširen za predstavljanje ontologije.

    Jedan od najnovijih razvoja posvećen kreiranju alata za formalni opis ontologije je standard ontološkog definicijskog jezika za web informacijske resurse - Web Ontology Language. Rad na ovoj normi provodi Radna skupina ontologije za W3C Web Consortium. Ovaj će jezik nedvojbeno naći primjenu u inteligentnim sustavima za pretraživanje informacijskih izvora u drugoj generaciji web okruženja.

    4. Modeli pretraživanja

    Najrazvijenije tehnologije pretraživanja teksta trenutno pružaju sustavi punog teksta. Kao što je već pokazano, postoje različiti pristupi konstruiranju takvih sustava. Te su razlike povezane ne samo s raznolikošću oblika informacijskih potreba korisnika, već i, uglavnom, s razlikom u načinima predstavljanja cjelovitih dokumenata i korisničkih upita u sustavu.

    Pojam modela pretraživanja. Ključni koncept koji karakterizira tehnologiju pretraživanja u pojedinom sustavu je model pretraživanja.Model pretraživanja podrazumijeva kombinaciju: metode generiranja prikaza dokumenta; metoda formiranja prikaza upita za pretraživanje; vrsta kriterija relevantnosti dokumenta.

    Raznolikost funkcionalnosti različitih sustava za pretraživanje teksta povezana je upravo s različitošću implementiranih modela pretraživanja u njima.

    Najjednostavniji modeli pretraživanja. Mnogi sustavi koriste jednostavne modele pretraživanja. To uključuje, na primjer, gore razmatrane modele pretraživanja za deskriptor IPS i sustave koji koriste dublinsku jezgru.

    Drugi primjer najjednostavnijih modela pretraživanja su modeli temeljeni na klasifikatorima. U modelu koji se temelji na klasifikatoru, dokumenti su predstavljeni identifikatorima klasa u hijerarhijska struktura klasifikator, koji uključuje ovaj dokument. Reprezentacija zahtjeva u najjednostavnijem slučaju također je identifikator klase danog klasifikatora koji zanima korisnika. Kriterij za relevantnost dokumenta je uvjet da se klasa dokumenta podudara s bilo kojom klasom u pregledu upita ili je njezina potklasa.

    U složenijem slučaju, modeli pretraživanja temeljeni na klasifikatoru dopuštaju da se u upitu navede više klasa klasifikatora. U tom slučaju relevantnim se smatraju dokumenti koji pripadaju bilo kojoj od klasa navedenih u zahtjevu ili njezinoj potklasi. Ovaj model pretraživanja blizak je Booleovom modelu koji se razmatra u nastavku.

    Modeli kontekstualnog pretraživanja. Modeli kontekstualnog pretraživanja su nešto složeniji. Korištenje ovih modela postalo je moguće kada su računalni procesori postigli dovoljno visoke performanse i povećao se volumen njihove vanjske memorije s izravnim pristupom. Modeli kontekstualnog pretraživanja koriste reprezentaciju dokumenta kao zbirke svih mogućih riječi i izraza koji se nalaze u njegovom tekstu, ne računajući takozvane stop-riječi. Zaustavne riječi su funkcijske riječi (prijedlozi, veznici itd.) koje se nalaze u gotovo svakom dokumentu. Pretraživanje dokumenata koji sadrže takve riječi rezultiralo bi vraćanjem kompletne zbirke dokumenata kao odgovor na upit. Stoga se takve riječi ne mogu koristiti kao svojstva indeksiranja dokumenata.

    U sustavima klase koja se razmatra, indeks se gradi na svim riječima i izrazima koji se nalaze u dokumentima, osim stop riječi. U isto vrijeme, za izradu indeksa, riječi izvučene iz teksta dokumenta najprije se reduciraju u "kanonski oblik" korištenjem rječnika i alata za gramatičku analizu podržanih u sustavu. Zahtjev korisnika također se podvrgava gramatičkoj analizi, pri čemu se riječi i fraze koje se nalaze u njegovom tekstu također izoliraju iz zahtjeva. Dokument se smatra relevantnim ako se bilo koja riječ ili izraz iz upita nalazi točno unutar gramatičkih oblika u tekstu dokumenta.

    Ponekad se koristi stroži kriterij relevantnosti - uključivanje u tekst dokumenta svih riječi i fraza navedenih u zahtjevu itd.

    Booleovi modeli pretraživanja. Booleovi modeli pretraživanja naširoko se koriste u sustavima za pretraživanje teksta. Korisnik može formulirati upit kao Boolean izraz koristeći operatore AND, OR, NO. Uvjeti Booleovog izraza mogu biti različiti u različitim varijantama Booleovih modela pretraživanja. To može biti, na primjer, uvjet za pojavu određene riječi ili izraza (do gramatičkih oblika) u tekstu dokumenta u Booleovom proširenju modela kontekstualnog pretraživanja. U Booleovom proširenju modela pretraživanja klasifikatora, pojmovi izraza mogu biti uvjeti članstva u dokumentu ovaj sat klasifikator. U Booleovom modelu pretraživanja koji koristi dublinsku jezgru, izraz može biti jednakost koja opisuje činjenicu da neki element metapodataka za predmetni dokument ima vrijednost navedenu u upitu.

    Kriterij za relevantnost određenog dokumenta za upit u Booleovim modelima pretraživanja je istinitost Booleovog izraza navedenog u upitu.

    Vektorski modeli pretraživanja. Vektorski modeli pretraživanja najčešće se koriste u razvijenim sustavima pretraživanja teksta. Korištenje ovakvih modela zahtijeva znatno više računalnih resursa u odnosu na druge modele, ali oni pružaju znatno više visoka kvaliteta traži.

    Vektorski modeli pretpostavljaju da su dokumenti i upiti predstavljeni vektorima. U najjednostavnijem slučaju, koordinate vektora odgovaraju tekstualnim terminima - riječima ili izrazima koji pripadaju rječniku sustava, koji predstavlja vokabular općeg jezika ili vokabular predmetnog područja. Svaki termin iz takvog rječnika povezan je sa svojom vlastitom dimenzijom u vektorskom prostoru. Dimenzija vektora koji predstavljaju dokumente i korisničke upite točno je jednaka broju dimenzija u tom prostoru.

    Vektorskoj koordinati dodjeljuje se jedna vrijednost u slučaju kada se odgovarajući pojam pojavljuje u danom dokumentu ili, sukladno tome, u korisničkom upitu. Inače, vektorskoj koordinati se dodjeljuje nula vrijednost. Budući da veličina rječnika može biti vrlo velika, a dokumenti ili tekstovi upita sadrže znatno manji broj pojmova sadržanih u njemu, takvi vektori ispadaju vrlo rijetki. Stoga morate koristiti neku tehniku ​​za njihovo sažimanje.

    Za procjenu stupnja relevantnosti dokumenta za upit (mjera njihove blizine), vektorski modeli pretraživanja koriste bilo koje vektorske funkcije, čiji su argumenti vektori koji ih predstavljaju. Na primjer, možete koristiti kosinus kuta između vektora dokumenta i vektora upita kao takvu mjeru. Važno je napomenuti da budući da koordinate različitih od nule ovih vektora odgovaraju samo terminima uključenim u tekst dokumenta i tekst upita, na vrijednost funkcije - mjere u oba ova slučaja - utječu samo termini zajednički za dokument i upit.

    Kako bi se vektorskim modelima pretraživanja lakše upravljalo, ti se modeli često čine složenijima. Uvode se težine pojmova koje karakteriziraju njihov značaj. Vrijednosti ovih težina koriste se kao koordinate vektora dokumenta ako njegov tekst uključuje odgovarajuće pojmove. Stoga pojavljivanje različitih termina u tekstu dokumenta ima različite učinke na vrijednost funkcije blizine između dokumenta i upita. Postoje različiti pristupi odabiru ovih ljestvica. Najčešće se u tu svrhu koristi umnožak učestalosti pojavljivanja pojma u određenom dokumentu i učestalosti njegova pojavljivanja u svim dokumentima zbirke u cjelini. Pojmovi upita također se mogu ponderirati.

    Razlike između specifičnih modela vektorske pretrage svode se na na razne načine dodjeljivanje pondera pojmova i odabir mjera blizine. Vektorski modeli omogućuju vam rangiranje rezultirajućeg skupa dokumenata upita.

    5. Stanje razvoja sustava za pretraživanje teksta

    Posljednjih godina sustavi za pretraživanje teksta počeli su se aktivno koristiti u raznim područjima. Iako su prvotno razvijeni primarno kao alat za knjižničarstvo, sada su našli primjenu u raznim organizacijama za upravljanje svojim tekstualnim informacijskim resursima. Tehnologije pretraživanja teksta počele su se posebno intenzivno razvijati pojavom globalnih informacijski prostor Mreža.

    Raspon problema u području pretraživanja teksta. Trenutno je problem pretraživanja teksta postao prilično opsežan. Pokriva različita područja teorije i razvoja sustava za pretraživanje teksta, kao što su:

    Razvoj specifičnih modela pretraživanja;

    Metodologija provođenja eksperimenata, ispitivanja i ocjenjivanja sustava;

    Metode za provedbu pretraživanja teksta;

    Pristupi integraciji tehnologije pretraživanja teksta i baza podataka;

    Pretraživanje u web okruženju;

    Metode kompresije podataka;

    Procjena učinkovitosti obrade zahtjeva;

    Obrada prirodnog jezika;

    Metode klasifikacije i klasteriranja tekstualnih dokumenata;

    Aplikacije za pronalaženje informacija u digitalnim knjižnicama;

    Dubinska analiza teksta;

    Tehnologije za indeksiranje i pretraživanje multimedijskih informacija;

    Sučelja čovjek-računalo, itd.

    Proširenje funkcionalnosti tekstualnih sustava.

    Programeri sustava za pretraživanje teksta posvećuju veliku pozornost ne samo poboljšanju mehanizama za obavljanje svojih osnovnih funkcija, već i razvoju niza dodatne mogućnosti, omogućujući značajno povećanje učinkovitosti pretraživanja, poboljšanje upravljivosti sustava i pružanje ugodnijih radnih uvjeta za korisnika. Nabrojimo neke od tih mogućnosti.

    Poboljšana točnost pretraživanja. U formuliranju korisničkog upita, ne moraju svi pojmovi biti ekvivalentni. Neke tekstualne tražilice dopuštaju korisniku dodjeljivanje težine pojmovima koji se koriste u upitu kako bi se okarakterizirala njihova važnost u upitu. Ovi se podaci koriste za izračunavanje relevantnosti dokumenata za informacijske potrebe korisnika, čime se značajno povećava točnost pretraživanja.

    Rangiranje rezultirajućih dokumenata upita. Zbog prethodno navedenih razloga, sustavi za pretraživanje teksta ne mogu jamčiti striktno zadovoljenje korisnikovih informacijskih potreba kao rezultat izvršavanja upita za pretraživanje. Broj rezultirajućih dokumenata obično je značajan. Stoga je vrlo važno organizirati dokumente koje sustav daje korisniku na način da se na početku liste nalaze dokumenti koji će korisnika vjerojatno najviše zanimati. Ova vrsta operacije naziva se rangiranje dokumenata. Razvijeni sustavi za pretraživanje teksta imaju mehanizme koji pružaju tu mogućnost. Ovisno o modelu pretraživanja koji implementiraju, osiguravaju poredak skupa dokumenata koji nastaju kao rezultat obrade korisničkog zahtjeva, prema nekim procjenama stupnja njihove relevantnosti za zahtjev ili vjerojatnosti zadovoljenja informacijskih potreba korisnika. .

    Povratne informacije o relevantnosti važna su značajka koja vam omogućuje da poboljšate učinkovitost pronalaženja dokumenata koje korisnik treba. Činjenica je da rezultati obrade zahtjeva možda neće zadovoljiti korisnika. U takvim slučajevima mnogi sustavi za pretraživanje teksta pružaju korisniku mogućnost preciziranja upita. Da bi to učinio, može procijeniti relevantnost primljenih dokumenata - naznačiti koje od njih smatra relevantnim ili nerelevantnim.

    Budući da broj rezultirajućih dokumenata može biti prilično velik, od korisnika se traži da ocijeni barem prvih nekoliko dokumenata na rangiranoj listi, tj. one dokumente kojima je sustav dodijelio najviše ocjene relevantnosti. Sustav može koristiti uvjete ovih dokumenata za formiranje novog, proširenog upita koji će vjerojatno točnije izraziti informacijske potrebe korisnika.

    Ovaj iterativni proces obrade upita i njegove izmjene analizom podataka dobivenih povratnom informacijom korisnika sustavu može se ponavljati sve dok korisnik ne bude zadovoljan rezultatima pretraživanja. Povratna informacija o relevantnosti koristi se u sustavima koji se temelje na različitim modelima pretraživanja.

    Automatsko proširenje korisničkih upita. Ovo se odnosi na proširenje reprezentacije upita koju je izvorno sustavu predložio korisnik. Ova značajka također služi za poboljšanje učinkovitosti pretraživanja.

    Početni prikaz upita može se obogatiti sa:

    Sinonimi pojmova sadržanih u upitu, ako sustav ima tezaurus koji podržava odnos sinonima;

    Pojmovi koji su u nekom drugom semantičkom odnosu s pojmovima upita, definirani tezaurusom domene, na primjer, predstavljaju dio koncepta koji odgovara nekom pojmu upita itd.;

    Uvjeti rezultirajućih dokumenata, ocijenjeni od strane korisnika kao relevantni ili nerelevantni, u sustavima koji pružaju Povratne informacije relevantnost;

    Česte pravopisne pogreške nekih pojmova upita itd.

    Automatsko indeksiranje dokumenata. Studije provedene u ranim fazama razvoja sustava za pretraživanje teksta pokazale su da automatsko indeksiranje dokumenata nije inferiorno u kvaliteti od ručnog indeksiranja. Stoga moderni razvijeni sustavi koriste automatsko indeksiranje.

    Višejezično pretraživanje. Neke tražilice teksta omogućuju vam pretraživanje zbirki koje sadrže dokumente na više prirodnih jezika. Jedan od teških problema koji se u ovom slučaju javlja je identifikacija jezika na kojem je obrađeni dokument ili njegovi fragmenti prikazani.

    Međujezično pretraživanje. Postoje sustavi za pretraživanje teksta u kojima su moguće situacije da su informacijske potrebe korisnika definirane na jednom jeziku, ali su dokumenti u zbirci koju treba pretraživati ​​prikazani na drugom jeziku. Ova je zadaća još uvijek u velikoj mjeri istraživačka, iako se već dosta često susreće u praksi, primjerice u sustavima međunarodnih organizacija, transnacionalnih kompanija ili bilo koje organizacije u zemlji u kojoj postoji više službenih jezika.

    Glavni problem međujezičnog pretraživanja je podudaranje dokumenta i korisničkog upita predstavljenog na različitim jezicima.Da bi se riješio ovaj problem, potrebno je koristiti prijevod dokumenta, prijevod upita ili prijevod oba. U ovom slučaju koriste se različiti pristupi - prijevod riječ po riječ pomoću dvojezičnog rječnika, "ručni" prijevod uz podršku računala, automatski strojni prijevod cijelog dokumenta ili dijela dokumenta.

    Pretraživanje teksta u sustavima baza podataka. Integracija resursa baza podataka i kolekcija tekstualnih dokumenata, kao i korištenje alata sustava baza podataka za implementaciju sustava za pretraživanje teksta, odavno su traženi u praksi razvoja informacijskih sustava.

    Doista, tekstualni dokumenti mogu imati različite strukturirane karakteristike i u takvim slučajevima može biti potrebno ne samo tradicionalno pretraživanje prema sadržaju dokumenata, već i pretraživanje prema vrijednostima takvih vanjskih atributa povezanih s dokumentima. Podržavanje odnosa između atributa povezanih s dokumentima i njihovih odgovarajućih dokumenata, kao i traženje dokumenata na temelju vrijednosti njihovih povezanih atributa, dobro se uklapa u konvencionalne tehnologije baza podataka. Osim toga, mehanizmi DBMS okruženja za pohranu mogu se koristiti za pohranu samih dokumenata.

    Istodobno, izvori informacija kojima upravljaju sustavi baza podataka često uključuju, uz strukturirane podatke, i pridružene tekstualne dokumente. Stoga se potreba za pretraživanjem teksta javlja iu okruženju tradicionalnih sustava baza podataka. U vezi s tim razlozima, tradicionalni DBMS-ovi počeli su se opremati mehanizmima pretraživanja teksta za sadržaj dokumenta.

    Tehnologije pretraživanja teksta trenutno podržavaju mnogi relacijski i objektno-relacijski poslužitelji baza podataka, kao što su IBM-ov DB2, Oracle Corp. i Oracle SQL poslužitelj 7.0 i SQL Server 2000 od Microsoft Corp. Međutim, treba primijetiti da u većini ovih DBMS-ova tražilice teksta ne implementiraju modele naprednog pretraživanja o kojima se gore raspravljalo. Najčešće je stvar ograničena na podržavanje Booleovog modela pretraživanja, ponekad s proširenjem upita, mehanizmima indeksiranja cijelog teksta i nekim drugim dodatnim značajkama.

    Potražite tekstualne resurse na webu. S porastom količine informacijskih izvora na webu, problem korištenja tehnologija za pretraživanje teksta u ovom okruženju postaje sve aktualniji. Navigacijski pristup informacijskim resursima Internet ne omogućuje dovoljno brz pristup istima.

    Prilikom implementacije tehnologija pretraživanja teksta na webu, uzimaju se u obzir specifičnosti weba kao okruženja za pretraživanje, karakteristike informacijskih izvora koji su u njemu podržani, kao i ponašanje korisnika u interakciji s webom.

    Rane web tražilice, koje se nazivaju i web tražilice, pružale su osnovno kontekstualno pretraživanje. Kasnije su se počele pojavljivati ​​implementacije Booleovih modela pretraživanja. Posljednjih godina značajno je porastao interes za probleme pretraživanja teksta na webu. Razni timovi provode brojna i raznolika istraživanja u ovom području. Trenutno postoji cijeli niz sustava za pretraživanje teksta za web. Među njima postoje sustavi koji su univerzalni i usmjereni na specifičnosti predmetna područja, sustavi međunarodne i nacionalne razine. To uključuje najveću višejezičnu tražilicu AltaVista, Yahoo!, Google, tražilicu za ruske web stranice Yandex i mnoge druge. Razlikuju se po opsegu - sastavu skeniranih web poslužitelja, organizaciji korisničkih sučelja i funkcionalnosti tražilica. Svi podržavaju različite verzije Booleov model pretraživanja. Neki sustavi pružaju rangiranje dobivenog skupa dokumenata i podržavaju povratne informacije o relevantnosti. Sustav AltaVista implementira mogućnost postupnog smanjenja područja pretraživanja. Nakon provođenja pretraživanja, korisniku se daje histogram koji karakterizira statistiku pronađenog skupa dokumenata po klasama. Korisnik može odabrati nastavu koja ga zanima. Zatim se ponavlja pretraga unutar podskupa informacijskih resursa dostupnih tako identificiranom sustavu.

    Vrlo ozbiljna nova dostignuća u razvoju sustava za pretraživanje teksta u web okruženju mogu se očekivati ​​u vezi s intenzivnim razvojem XML platforme - platforme web tehnologije sljedeće generacije. Važno je napomenuti da sustavi pretraživanja web teksta koji se temelje na standardima XML platforme omogućuju smanjenje granularnosti pretraživanja. Objekti pretraživanja ne moraju nužno biti potpuni dokumenti. Tražilica može vratiti fragmente dokumenata koji ih zanimaju na temelju zahtjeva korisnika. Osim toga, predstavljanje tekstualnih informacijskih resursa na webu pomoću XML-a omogućuje korištenje različitih sredstava za opisivanje njihove semantike i, na temelju toga, značajno smanjenje razine informacijske buke pri obradi korisničkih zahtjeva.

    Novi zahtjevi za sustave za pretraživanje teksta. Novi uvjeti primjene i rastuće potrebe korisnika postavljaju nove, veće zahtjeve pred sustave pretraživanja teksta. Navodimo glavne:

    Osiguravanje sposobnosti sustava za pretraživanje teksta da učinkovito rade s vrlo velikim zbirkama dokumenata;

    Razvijanje metoda za značajno poboljšanje prezentacije značenja dokumenata i korisničkih upita za pretraživanje;

    Pružanje mogućnosti zajedničke obrade tekstualnih dokumenata s dokumentima različite prirode - statične slike, audio, video, itd.;

    Razvoj učinkovite metode pretraživati ​​ne samo u statičnim zbirkama, već iu tokovima dokumenata;

    Izrada metodologije za evaluaciju sustava za pretraživanje teksta, izgradnja zbirki teksta, provođenje eksperimenata.

    Kontrolna pitanja

    2. Koji su sustavi nazvani sustavima za pretraživanje činjeničnih informacija?

    3. Koji se sustavi nazivaju sustavima za pretraživanje dokumentarnih informacija?

    4. Na kojim principima se temelje deskriptori IPS?

    5. Koji su uvjeti bili potrebni za stvaranje tehnologije pretraživanja cijelog teksta?

    6. Koje nove mogućnosti pružaju sustavi za pretraživanje cijelog teksta?

    7. Kako ste se transformirali? funkcionalnost sustavi za pretraživanje dokumentarnih informacija pod utjecajem razvoja sustava za pretraživanje teksta i informacijskih potreba korisnika?

    8. U vezi s čime se uz pojam „sustav za pretraživanje informacija” počeo koristiti pojam „sustav za pretraživanje teksta”?

    9. Koji problemi pripadaju području obrade prirodnog jezika?

    10. Koji se alati koriste u modernim sustavima za pretraživanje teksta?

    Odgovore na pitanja potrebno je poslati e-poštom