Tehnologija pretraživanja web stranica. Faze traženja informacija. Kronologija nastanka tražilica

10.11.2019 Zanimljiv

Predavanje ORGANIZACIJA I TEHNOLOGIJA PRETRAŽIVANJA INFORMACIJA NA INTERNETU 1. 2. Alati za pretraživanje informacija Tehnologija za pretraživanje informacija

Karakteristike interneta pružaju više brz način pretraživanje informacija u usporedbi s tradicionalnim. Posjedujući značajnu količinu informacija, mreža je loše strukturirana. U tom smislu, aktivno se razvija razvoj alata za pronalaženje informacija koji automatiziraju proces traženja informacija u određenom okruženju. Slajd broj 3

Alati za pronalaženje informacija Usluge internetskog pretraživanja (alati dizajnirani za traženje informacija) Tražilice Imenici (tražilice) (imenici) Metatražilice (metatražilice) Slajd br. 5

Klasifikacija alata za pretraživanje prema širini pokrivenosti izvori informacija Slajd br. 6 INTERNET Tražilice Direktoriji Globalno Regionalno Lokalno Specijalizirano Regionalno Metatražilo Mreža Lokalno Specijalizirano

Klasifikacija alata za pretraživanje prema širini obuhvata informacijskih izvora Određeni alat za pretraživanje može istovremeno odgovarati nekoliko navedenih vrsta. Vrsta alata za pretraživanje određuje širinu pokrivenosti internetskih izvora informacija ovim alatom. Slajd broj 7

Sustav za pretraživanje informacija Slajd br. 8 Sustav za pretraživanje informacija (IRS) je sustav koji omogućuje izbor, indeksiranje i pronalaženje informacija na temelju indeksa dokumenata. Indeksiranje informacija znači dodjeljivanje ključnih riječi svakom dokumentu koje odražavaju sadržaj dokumenta i kontroliraju pretragu, dovodeći do onih dokumenata čije se riječi pokažu sličnijima riječima zahtjeva Porezne uprave, rješavanje problema prikupljanja, pohrane , obrada i izdavanje informacija, pretraživanje dokumenata, analiza njihovog sadržaja, izgradnja slika pretraživanja dokumenata (izdvajanje informacija iz dokumenata koje sustav koristi kao znanje o dokumentu), pohranjivanje slika pretraživanja, analiza zahtjeva korisnika, traženje relevantnih dokumenata ( odgovarajući) na zahtjev i izdavanje poveznica na dokumente korisnicima.

Tipična IPS shema Slajd br. 9 Zahtjev za resurse informacija klijenta Robot indekser Korisničko sučelje Indeks dokumenta tražilice odgovora

Značajke IRS-a Slajd br. 10 Svaki određeni sustav pretraživanja ne pohranjuje informacije o svim internetskim dokumentima, već samo o onim dokumentima koji su poznati sustavu (za različite sustave postotak indeksiranih dokumenata je različit, ali, u pravilu, ne ne prelazi 70%). U tražilice Ne pohranjuju se sami dokumenti, već samo podaci o njima koji su dovoljni da ih korisnik pronađe i, kao posljedicu toga, dotični sustav možda neće vratiti neke dokumente koji odgovaraju zahtjevu kao rezultat traži. Kao rezultat pretraživanja (odgovora na zahtjev), sustav razvrstava dokumente prema stupnju usklađenosti sa zahtjevom korisnika sa stajališta algoritma tražilice, a ne sa stajališta njihove stvarne usklađenosti s zahtjev.

Korištenje IRS slajda br. 11 Tražilice su najobimniji izvor znanja o stranicama (dokumentima) na Internetu. Izvršite pretragu razne informacije na internetu je u većini slučajeva potrebno koristiti sustave za pretraživanje informacija. Nema im ravnih u brzini i potpunosti dobivanja informacija na zahtjev korisnika. Mnoge tražilice zajedno koriste tražilicu i imenik.

Sustavi za pretraživanje informacija Popularni globalni sustavi za pretraživanje informacija na Internetu su: n Google (http: //www. google. com) n Bing (http: //search. msn. com/) n Ask. com (http: //www. ask. com) Ruski sustavi za pretraživanje informacija uključuju: n Yandex (http: //www. yandex. ru, http: //www. ya. ru) n Rambler (http: //www. rambler . ru) n Webalta (http: //www. aport. ru/) Slajd br. 12

Katalog Slajd br. 20 Katalog je sustav koji pruža klasifikaciju informacija. Njegova posebnost je prisutnost hijerarhije (sheme redoslijeda) resursa, u kojoj svaki resurs pripada jednom ili više odjeljaka. Imenici pohranjuju opise (komentacije) internetskih izvora. Ispunjavaju ih webmasteri (ljudi koji stvaraju informacijske resurse) ili posebni urednici koji pregledavaju mrežne informacijske resurse. Kao odgovor na zahtjev korisnika, imenici pretražuju ove opise. Imenici ne otkrivaju automatski promjene mrežnih informacijskih resursa.

Tipični izgled kataloga Slajd br. 21 Zahtjev Izvori informacija Tehničko osoblje Korisničko sučelje Odgovor Hipertekstualne veze Tražilica klijenta Odgovor Zahtjev Hijerarhija izvora informacija i njihovih opisa

Korištenje kataloga Slajd br. 22 Kada rješavate problem pretraživanja kada trebate pronaći skupinu izvora informacija o prilično širokoj temi, katalog je najviše najbolji lijek za izvođenje pretraživanja, kao što je traženje stranica koje pružaju kontakt informacije organizacije u Moskvi ili stranice elektroničkih medija. Rezultati pretraživanja u imenicima mogu biti smisleniji jer izvore informacija u njima pripremaju ljudi.

Katalozi Slajd br. 23 Globalni elektronički katalozi na Internetu su: n Yahoo (http: //www. yahoo. com) n Open Directory (http: //www. dmoz. org) n Look. Smart (http: //www. looksmart. com) Najznačajniji ruski elektronički katalozi uključuju: n Yandex katalog (http: //yaca. yandex. ru) n Mail katalog. ru (http: //www. list. ru/) n Katalog Rambler’s Top 100 (http: //top 100. rambler. ru)

Metapretraživački sustav Slajd br. 28 Metapretraživački sustav je nadgradnja na tražilicama i elektroničkim katalozima koja nema vlastitu bazu podataka (indeks) te prilikom pretraživanja prema uputama korisnika automatski generira upite za više vanjskih alata za pretraživanje, te zatim također automatski analizira rezultate dobivene od njih i prikazuje popis poveznica redoslijedom određenim omjerom ocjena odgovora u nekoliko alata za pretraživanje odjednom. Razlike u strategiji i širini pokrivenosti informacijskih izvora različitih tražilica često dovode do toga da različiti alati za pretraživanje daju različite odgovore na isti upit. Sustavi za metapretraživanje u svom radu koriste potencijal drugih alata za traženje informacija.

Tipični dijagram metapretraživačkog sustava Slajd br. 29 Zahtjev Klijent Korisničko sučelje Odgovor Tražilica Zahtjevi Izvori informacija Odgovori IRS 1 Katalog 1 IRS N Katalog N

Korištenje metapretraživača Slajd br. 30 Metapretraživači su najučinkovitiji u početnim fazama pretraživanja informacija. Omogućuju brzu provjeru jesu li potrebne informacije dostupne na internetu i lokaliziraju alate za pretraživanje u kojima se nalaze. Metatražilice vam omogućuju da smanjite vrijeme potrošeno na traženje informacija, jer prilikom obrade korisničkog zahtjeva ovi sustavi istovremeno pristupaju nekoliko različitih alata za pretraživanje.

Vrste metapretraživača Slajd br. 31 Mreža - dostupna putem mreže za pretraživanje informacija Globalni sustavi metapretraživanja dostupni putem Interneta uključuju: n Meta. Alat za indeksiranje (http: //www. metacrawler. com) n Web. Alat za indeksiranje (http: //www. webcrawler. com) n Pretraživanje. com (http: //www. search. com) Najpoznatiji ruski metapretraživački sustavi: n Meta. Bot. ru (http: //metabot. ru) n Nigma (http: //nigma. ru) Prednost ruskih alata za pretraživanje je točna obrada zahtjeva na nacionalnom jeziku.

Specijalizirani alati za pretraživanje Slajd br. 33 Sustavi koji traže datoteke, na primjer File. Traži. ru (http: //www. filesearch. ru) Sustavi koji omogućuju pretraživanje u vijestima elektroničkih medija, na primjer, Yandex News (http: //news. yandex. ru), Google News (http: //news. google. ru ) Tražite robu, na primjer, Yandex Market (http: //market. yandex. ru), Trgovina. ru (http: //www. torg. ru) Tražite ljude, na primjer, POISKI. ru (http: //poiski. ru), Poisk 24 (http: //www. poisk 24. de), Yahoo! Pretraživanje ljudi (http://people.yahoo.com)

Specijalizirani alati za pretraživanje Pretraživanje slika, na primjer, Yandex Slike (http: //images. yandex. ru), Google Slike (http: //images. google. ru) Pretraživanje videozapisa, na primjer, Yandex Video (http: //video . yandex . ru), Google Video (http: //video. google. ru) Slajd br. 34

Dodatni alati i metode pretraživanja Slajd br. 36 Na Internetu informacije možete tražiti ne samo pomoću tražilica, već i na druge načine. Postoji mnogo različitih stranica, usluga i korisnika na internetu koji vam mogu pomoći u potrazi. Takve usluge uključuju sustave pitanja i odgovora, forume i razne online zajednice ( društveni mediji), e-pošta, razgovori. Svi ovi načini dobivanja informacija imaju jednu zajedničku stvar: drugi ljudi (ne programi) odgovaraju na vaša pitanja. Sustavi pitanja i odgovora: odgovori poštom. ru (http: //otveti. mail. ru), Pitanja i odgovori Google (http: //otvety. google. ru), Stručnjak. ru (http: //znatok.ru)

Dodatni alati i metode pretraživanja Slajd br. 37 Ove metode su dodatne jer: n nisu univerzalne (akumuliraju adrese u nedovoljnom volumenu ili u uskim područjima); n ne postoji točna garancija za dobivanje odgovora na pitanje (pitanje se jednostavno može zanemariti); dobivanje odgovora u takvim sustavima ponekad može potrajati dosta vremena. Glavna prednost pri korištenju dodatne načine pretraživanje je visoka točnost dobivenih informacija.

Preporuke za traženje informacija Slajd br. 40 Provjerite je li riječ (fraza) vašeg upita ispravno napisana. Vaš zahtjev se može ispraviti ako je pogrešno napisana riječ često korištena. Rijetke riječi ili fraze možda neće biti pronađene. Kada tražite informacije pomoću tražilica, trebali biste znati da sustavi obično odgovaraju na bilo koji zahtjev korisnika (zbog velike količine interneta) (primjerice, na zahtjev asgr VKT 5, koji je na prvi pogled besmislen skup znakova, tražilica Yandex pronašla je 12 web stranica na kojima se pojavljuje ovaj izraz). Budi oprezan.

Preporuke za traženje informacija Slajd br. 41 Pojasnite svoj zahtjev. Što je fraza upita preciznija, veća je šansa da brzo pronađete potrebne informacije, na primjer, rezultati pretraživanja za upite Jesenjinove pjesme i Jesenjinove pjesme iz njegovih ranih godina bit će različiti. Koristite sinonime. Ako traženi podaci nisu pronađeni za vaš zahtjev, pokušajte razjasniti zahtjev zamjenom riječi njezinim sinonimom, npr. radna memorija ili memorije s izravnim pristupom ili RAM-a. Različite riječi i izrazi daju različite rezultate. Koristite riječi koje bi se koristile na web stranicama koje tražite.

Preporuke za traženje informacija Slajd br. 42 Prilikom sastavljanja zahtjeva uvijek mentalno zamislite kakav bi mogao biti sadržaj dokumenta. Na primjer, ako trebate pronaći informacije o A. S. Puškinu, tada nije dovoljno samo navesti njegovo prezime u upitu (popis rezultata sadržavat će mnogo različitih institucija koje se nalaze na ulicama Puškina u različitim gradovima). Pretraživanje će biti učinkovitije ako uz prezime dodate nazive pjesnikovih djela. Za traženje tekstova radova, vrijedi unijeti pojedinačne retke iz njih (po mogućnosti rijetko korištene u citatima).

Preporuke za traženje informacija Slajd br. 43 Ne unosite upit u tražilicu u uobičajenom razgovornom obliku. Dakle, na zahtjev Kakvo je vrijeme sada u Nižnjem Novgorodu? pronaći će se dokumenti koji sadrže sve upitne riječi, odnosno tekstovi koji sadrže ovo pitanje (primjerice, tekstovi književnih djela). U ovom slučaju bilo bi učinkovitije unijeti upit za vremensku prognozu u Nižnjem Novgorodu, prvih deset veza u odgovoru na koje će sadržavati potrebne informacije. Pokušajte napisati riječi zahtjeva samo malim slovima - za takav zahtjev mogu se pronaći dodatni dokumenti.

Preporuke za traženje informacija Slajd br. 44 Potražite slične dokumente. Ako je neki od pronađenih dokumenata bliži temi koju tražite od ostalih, kliknite na poveznicu "pronađi slične dokumente". Tražilica će analizirati stranicu i pronaći dokumente slične onom koji ste naveli. Ali ako je ova stranica izbrisana s poslužitelja, a tražilica je još nije stigla ukloniti iz indeksa, tada ćete primiti poruku "Traženi dokument nije pronađen."

Preporuke za traženje informacija Slajd br. 45 Koristite znakove “+” i “-”. Da biste isključili dokumente koji sadrže određenu riječ, ispred nje stavite znak minus. Obrnuto, kako biste bili sigurni da je određena riječ prisutna u dokumentu, stavite plus ispred nje. Imajte na umu da između riječi i znaka plus/minus ne smije biti razmaka. Također možete koristiti druge posebne naredbe za pročišćavanje vašeg zahtjeva. Popis njih može se pronaći u pomoći sustava, obično na stranici Jezik upita.

Preporuke za traženje informacija Slajd br. 46 Traži točne fraze. Ako znaš točan izraz, koji bi trebao biti prisutan na stranici s rezultatima, zatim ga navedite u zahtjevu, stavljajući ga pod navodnike. Na primjer, "Širok prostor za snove i za život. Nadolazeće godine nam se otvaraju" Koristite regionalne tražilice. Da dobiješ više potpuna informacija na jeziku koji nije engleski, možete koristiti regionalne sustave koji rade s tim jezikom. U mnogim zemljama regionalni sustavi imaju širok raspon resursa. Najveća tražilica u Rusiji je Yandex (http: //www. yandex. ru).

Preporuke za traženje informacija Slajd br. 47 Koristite specijalizirane tražilice. Tražite li slike, video zapise, proizvode, karte i neke druge informacije, onda sve te informacije možete brže pronaći pomoću specijaliziranih tražilica namijenjenih za te svrhe. Mnoge tražilice Opća namjena imaju posebna sučelja za traženje ove vrste informacija (vidi opise pojedinih sustava). Zahtjev za pretraživanje u ovom slučaju može biti: pretraživanje slike.

Preporuke za traženje informacija Slajd br. 48 Ako je izvor informacija organizacija, pokušajte tražiti informacije na web stranici te organizacije. Tražilice možda nisu svjesne svih informacija pohranjenih na internetskim stranicama. Idite na web stranicu organizacije iz koje su ove informacije stigle, možda će ih biti pojedinosti o njoj. Na stranicama postoje lokalni sustavi pretraživanje (izvođenje pretraživanja posebno na ovoj stranici) ili možete pokušati pronaći informacije koje su vam potrebne navigacijom kroz dijelove stranice. Ako ste, na primjer, čuli radio program i znate ime te radio postaje. Informacije o ovom programu potražite na službenim stranicama ove radio postaje.

Preporuke za traženje informacija Slajd br. 49 Pitajte druge ljude za pomoć u pronalaženju informacija. Tamo su specijalni sustavi(na primjer, sustavi pitanja i odgovora) u kojima neki korisnici mogu pomoći drugima pronaći informacije. Možda je ljude već zanimalo isto pitanje kao i vas i znaju točan odgovor.

Internet raste gigantskim tempom a pronalaženje informacija potrebnih određenom korisniku nije baš lako. Ali moguće je, budući da na internetu postoje resursi koji će pomoći i početnicima i profesionalcima da se ne utope u oceanu informacija.

Pojava World Wide Weba bila je kvantitativni i kvalitativni skok u tom području informacijske tehnologije. Broj novih resursa i količina informacija koje oni sadrže raste poput lavine, povećava se broj iglica u informacijskom “plastu sijena”, a time i njegova veličina. Za traženje informacija na Internetu dostupne su sljedeće vrste izvora:

  • - informativni portali;
  • - katalozi internetskih izvora;
  • - tražilice.

Sam internet postupno se pretvorio u masovni medij s ogromnom publikom korisnika diljem svijeta i nevjerojatnom količinom informacija. Postao je globalno sredstvo informiranja koje je komunikacijskim kanalima zaplelo cijeli svijet, ali nije apsorbirao medije na koje smo navikli, oni su se organski uklopili u mrežu kao samostalni izvori informacija. Gotovo sve novine, radio postaja ili televizijski kanal u bilo kojoj zemlji na svijetu imaju vlastito predstavništvo na Internetu.

Elektronička inačica novina može i u pravilu se uvelike razlikuje od papirnate inačice, znatno je premašujući obujmom - format podataka koji se objavljuju na internetskim stranicama je fleksibilniji, nije ograničen na stranice, dodijeljene stupce novina i časopisa. za materijal. Pojavljuje se element interaktivnosti - čitatelji mogu ostaviti svoje komentare i recenzije o pročitanom članku, vijesti ili analitičkom pregledu.

Neki časopisi, poput TIMES-a, čak su digitalizirali novinske arhive tijekom svog postojanja, uključujući godine prije nego što su se pojavila računala ili računalne mreže Međutim, pretraživanje takvih arhiva se plaća i prilično je skupo.

Najmjerodavniji i najprofesionalniji izvor operativnih informacija za korisnike interneta i medije su web resursi novinskih agencija. Posjedujući razgranatu dopisničku mrežu, svakodnevno i svaki sat putem Interneta i putem elektroničkih komunikacijskih kanala šire društveno-političke, gospodarske, znanstvene i financijske informacije.

Alati za pretraživanje

Alati za pretraživanje su posebni programi čija je glavna svrha korisnicima Interneta omogućiti najoptimalnije i najkvalitetnije pretraživanje informacija. Alati za pretraživanje nalaze se na posebnim web poslužiteljima, od kojih svaki obavlja određenu funkciju:

  • 1. Analiza web stranica i unos rezultata analize na jednu ili drugu razinu baze podataka poslužitelja za pretraživanje.
  • 2. Pretraživanje informacija na temelju zahtjeva korisnika.
  • 3. Pružanje prikladnog sučelja za pretraživanje informacija i pregled rezultata pretraživanja od strane korisnika.

Radne tehnike koje se koriste pri radu s jednim ili drugim alatom za pretraživanje gotovo su iste. Prije nego što o njima raspravljamo, razmotrimo sljedeće pojmove:

  • 1. Sučelje alata za pretraživanje predstavljeno je u obliku stranice s hipervezama, linijom upita (linijom za pretraživanje) i alatima za aktivaciju upita.
  • 2. Indeks tražilice je informacijska baza, koji sadrži rezultat analize web stranica, sastavljen prema određenim pravilima.
  • 3. Upit je ključna riječ ili fraza koju korisnik unosi u traku za pretraživanje. Za formiranje raznih upita koriste se posebni znakovi ("", |, ~) i matematički simboli (*, +, ?).

Shema pretraživanja informacija je jednostavna. Korisnik upisuje ključnu frazu i aktivira pretragu, čime dobiva izbor dokumenata na temelju formuliranog (specificiranog) zahtjeva. Ovaj popis dokumenata je rangiran prema određenim kriterijima tako da se na vrhu popisa nalaze oni dokumenti koji najviše odgovaraju zahtjevu korisnika. Svaki od alata za pretraživanje koristi različite kriterije za rangiranje dokumenata, kako pri analizi rezultata pretraživanja, tako i pri stvaranju indeksa (popunjavanje baze podataka indeksa web stranica).

Dakle, ako navedete upit istog dizajna u traci za pretraživanje za svaki alat za pretraživanje, možete dobiti različite rezultate pretraživanja. Za korisnika je od velike važnosti koji će se dokumenti pojaviti u prvih dva do tri tuceta dokumenata u rezultatima pretraživanja i koliko ti dokumenti odgovaraju očekivanjima korisnika.

Većina alata za pretraživanje nudi dvije metode pretraživanja - jednostavno pretraživanje(jednostavno pretraživanje) i napredno pretraživanje(napredno pretraživanje) sa ili bez posebnog obrasca zahtjeva. Razmotrimo obje vrste pretraživanja na primjeru tražilice na engleskom jeziku.

Na primjer, AltaVista je korisna za proizvoljne upite, “Nešto o online diplomama iz informacijske tehnologije,” dok Yahooov alat za pretraživanje omogućuje dobivanje svjetskih vijesti, informacija o tečaju ili vremenske prognoze.

Savladavanje kriterija preciziranja upita i naprednih tehnika pretraživanja omogućuje vam povećanje učinkovitosti pretraživanja i brzo pronalaženje potrebnih informacija. Prije svega, možete povećati učinkovitost svoje pretrage korištenjem logičkih operatora (operacija) Or, And, Near, Not, matematičkih i posebni znakovi. Koristeći operatore i/ili simbole, korisnik pridružuje ključne riječi u traženom nizu kako bi dobio najprikladniji rezultat pretraživanja za upit.

Jednostavan zahtjev daje određeni broj poveznica na dokumente, jer... popis uključuje dokumente koji sadrže jednu od riječi unesenih tijekom zahtjeva ili jednostavnu frazu (vidi tablicu 1). Operator and omogućuje vam da navedete da sve ključne riječi trebaju biti uključene u sadržaj dokumenta. Međutim, broj dokumenata još uvijek može biti velik i njihov pregled će potrajati dosta vremena. Stoga je u nekim slučajevima mnogo prikladnije koristiti operator konteksta blizu, koji označava da se riječi trebaju nalaziti dovoljno blizu u dokumentu. Korištenje blizu značajno smanjuje broj pronađenih dokumenata. Prisutnost znaka "*" u nizu upita znači da će se riječ pretraživati ​​prema maski. Na primjer, dobit ćemo popis dokumenata koji sadrže riječi koje počinju s "gov" ako napišemo "gov*" u nizu upita. To mogu biti riječi vlada, guverner itd.

Najrazvijeniju uslugu pretraživanja informacija na ruskom jeziku pruža poslužitelj za pretraživanje Yandex. U Yandexu možete jednostavno napisati izraz na ruskom koji opisuje što želite pronaći, a sustav će analizirati i obraditi vaš zahtjev, a zatim pokušati pronaći sve što se odnosi na zadanu temu. Pomoću posebnih operatora možete stvoriti niz koji tražilici objašnjava kakvi bi trebali biti vaši zahtjevi za informacijama koje vas zanimaju.

Jednako popularna tražilica Rambler vodi statistiku prometa linkova iz vlastite baze podataka, isti logički operatori AND, OR, NOT, metasimbol * (sličan znaku * u AltaVisti koji proširuje raspon upita), simboli koeficijenata + i - su podržava povećanje ili smanjenje riječi značaja unesenih u zahtjev.

Najpopularnije tehnologije za pretraživanje informacija na internetu.

pretraživanje računalne internetske animacije

Internetske tražilice

Tražilice Google sustavi, Yahoo, Yandex, Mail... služe za lociranje potrebnog resursa na internetu pomoću ključnih riječi. Ovi sustavi, ili, kako se inače nazivaju, tražilice, svaki dan pretražuju milijune WWW poslužitelja, indeksiraju i katalogiziraju pronađene resurse. Mogućnost traženja resursa na Internetu vrlo je zgodna, ali ne smijemo zaboraviti da Mreža živi vlastitim životom - svaki dan se pojavljuju tisuće novih stranica, neke stare nestaju... Stoga tražilice ne pružaju uvijek najtočnije informacije.

Alati za pronalaženje i strukturiranje, koji se ponekad nazivaju tražilicama, koriste se za pomoć ljudima u pronalaženju informacija koje su im potrebne. Alati za pretraživanje kao što su agenti, pauci, pretraživači i roboti koriste se za prikupljanje informacija o dokumentima koji se nalaze na internetu. Ovaj posebni programi, koji pretražuju stranice na webu, izdvajaju hipertekstualne veze na tim stranicama i automatski indeksiraju informacije koje pronađu za izgradnju baze podataka. Svaka tražilica ima vlastiti skup pravila koja određuju kako prikupljati dokumente. Neki slijede svaku vezu na svakoj stranici koju pronađu, a zatim redom istražuju svaku vezu na svakoj novoj stranici, i tako dalje. Neki ljudi ignoriraju veze koje vode do grafičkih i zvučne datoteke, animacijske datoteke; drugi ignoriraju veze na resurse kao što su WAIS baze podataka; drugi su upućeni da prvo pogledaju najpopularnije stranice.

Google - najveća mreža tražilice u vlasništvu Google Inc.

Prvi najpopularniji sustav, obrađuje 41 milijardu 345 milijuna zahtjeva mjesečno, indeksira više od 25 milijardi web stranica i može pronaći informacije na 195 jezika.

Googleovo sučelje sadrži prilično složen jezik upita koji vam omogućuje da ograničite pretraživanje na određene domene, jezike, vrste datoteka itd.

Za rezultate Google pretraživanje ranije je pružao mogućnost ponovnog pretraživanja, što je omogućilo detaljnije pretraživanje. Za detaljniju pretragu korisnici su morali navesti Dodatne mogućnosti, prema kojem su odabrani rezultati, što je omogućilo da se odmah prikaže ne samo upit, već i kontekst u kojem se primjenjuje. Ova prilika pojednostavio postupak pretraživanja, eliminirajući potrebu za otvaranjem svakog rezultata. Dana 22. rujna 2010. tvrtka je pokrenuta glasovno pretraživanje u Rusiji. Za pretraživanje morate pritisnuti gumb pored linije za pretraživanje na svom telefonu i izgovoriti svoj upit, telefon će poslati vaš glas poslužitelju, a preglednik će prikazati redak s prepoznatim upitom i rezultatima pretraživanja za njega.

Zbog popularnosti tražilice, u engleskom se pojavio neologizam to google ili to Google, koji se koristi za traženje informacija na internetu pomoću koristeći Google. Upravo je ovom definicijom glagol uvršten u najmjerodavnije rječnike na engleskom- Oxford English Dictionary i Merriam-Webster, iako drugi izvori, daju primjere njegove upotrebe za traženje bilo čega na Internetu.

Yandex je ruska IT tvrtka koja posjeduje istoimeni sustav za pretraživanje interneta i internet portal. Tražilica Yandex četvrta je među svjetskim tražilicama po broju obrađenih upite za pretraživanje. Od 8. veljače 2013., prema ocjeni Alexa.com, web stranica yandex.ru zauzima 20. mjesto u svijetu i 1. u Rusiji po popularnosti.

Tražilica Yandex.ru službeno je najavljena 23. rujna 1997., a prvi put je razvijena u okviru CompTek Internationala. Yandex je osnovan kao zasebna tvrtka 2000. godine. U svibnju 2011. Yandex je održao inicijalnu javnu ponudu zaradivši više od bilo koje internetske tvrtke od IPO-a tražilice Google 2004.

ʹ Upravljanje indeksiranjem u tražilici Yandex

Dozvole i zabrane za indeksiranje preuzete su iz datoteke robots.txt. Yandex podržava oznaku META robots, oznaku NOINDEX i nestandardnu ​​ekstenziju robots.txt - Host direktivu. Dozvole i zabrane za indeksiranje sve tražilice preuzimaju iz datoteke robots.txt koja se nalazi u korijenskom direktoriju poslužitelja. Zabrana indeksiranja određenog broja stranica može nastati, na primjer, iz želje da se identični dokumenti ne indeksiraju u različitim kodovima. Što je poslužitelj manji, robot će ga brže zaobići. Stoga je preporučljivo u datoteci robots.txt onemogućiti sve dokumente koje nema smisla indeksirati.

ʹ Dodavanje stranica u Yandex tražilicu

Yandex indeksira stotine tisuća web stranica svaki dan u potrazi za promjenama ili novim poveznicama. Vlasnici resursa mogu samostalno dodati svoju web stranicu ispunjavanjem obrasca AddURL

Yandex tražilica je puni tekst, to jest, samo one riječi koje su napisane na stranicama web stranice uključene su u njen indeks (i postaju dostupne za pretraživanje).

ʹ Indeksiranje u tražilici Yandex

Kada Yandex otkrije novu ili promijenjenu stranicu, indeksira je. Tijekom ovog procesa stranica se dijeli na elemente čiji se sadržaj unosi u indeks. Kada Yandex otkrije novu ili promijenjenu stranicu, indeksira je. Tijekom ovog procesa stranica se dijeli na elemente (tekst, naslove, opise slika, poveznice itd.), čiji se sadržaj unosi u indeks. U ovom slučaju uzimaju se u obzir položaji riječi, odnosno njihov položaj u dokumentu ili njegovom elementu. Sam dokument nije pohranjen u bazi podataka.

Yahoo! je američka tvrtka koja posjeduje drugu najpopularniju tražilicu na svijetu i pruža niz usluga koje objedinjuje internetski portal Yahoo! Imenik; portal uključuje popularnu uslugu E-mail Yahoo.

Prema Alexa Internet statistici, u veljači-travnju 2012. Yahoo! je četvrta najposjećenija web stranica na Internetu, a oko 28% posjeta sastoji se od pregleda samo jedne stranice.

pošta- veliki komunikacijski portal ruskog interneta, čija mjesečna publika od listopada 2012. prelazi 31,9 milijuna ljudi.

Broj zaposlenih je 2800 ljudi.

Resurs pripada investicijskoj skupini pošta. Ru grupa.

Ključna usluga portala je mail usluga Pochta@Mail. Ru, nastao je 1998. u američkoj softverskoj tvrtki DataArt koju su osnovali ruski emigranti. Programeri iz ureda DataArt-a u Sankt Peterburgu izradili su novi softver za poslužitelj web pošte, koji je kasnije trebao biti prodan zapadnim tvrtkama. Radi testiranja usluge, privremeno je objavljena na otvoreni pristup u studenom 1998. za Ruski korisnici, a usluga je odjednom počela brzo dobivati ​​na popularnosti.

Prema potpredsjedniku i tehničkom direktoru pošte. Ru Vladimir Gabrielyan, portal ima osam podatkovnih centara, broj poslužitelja je 9000 jedinica. U tehničkom odjelu Mail. Ru zapošljava više od sedam stotina stručnjaka.

Organizacija pretraživanja

Forma za pretraživanje je vrlo korisna i popularna stvar, pogotovo kada se radi o ozbiljnim, velikim (po broju stranica i prezentiranom materijalu) i posjećenim stranicama. Pronalaženje informacija koje su vam potrebne na ovakvom mjestu koristeći samo navigacijski izbornik i interne veze ponekad može biti težak zadatak. Puno je lakše upisati nekoliko potrebnih riječi u odgovarajuće polje, kliknuti gumb "pronađi" i završiti s poveznicama na stranice na kojima bi mogle biti dostupne informacije od interesa za korisnika.

Pretraživanje se obično može implementirati na dva načina:

1. pretraživanje implementirano korištenjem tražilice web stranice (php ili neki drugi web programski jezik) - ali ovo je samo za ozbiljne web programere, za obične smrtnike, metoda broj 2 je poželjnija;

2. obrazac za pretraživanje koji se obraća tražilici. Ova je metoda dostupna svakoj osobi koja je savladala osnove HTML-a i prikladna je za bilo koje mjesto, čak i ono koje se sastoji od skupa statičnih HTML stranica. Međutim, takvo će se pretraživanje provoditi samo na onim stranicama koje se nalaze u bazi podataka tražilice. Kako bi sve stranice stranice bile pravilno indeksirane, moraju se poštovati dva pravila: 1) svaka stranica stranice mora imati izravnu vezu bez preusmjeravanja; 2) stranica ne smije kršiti licencu za pretraživanje tražilice koja se koristi.

Relevantnost

Relevantnost u pronalaženju informacija je semantička podudarnost između upita za pretraživanje i tražene slike dokumenta. U općenitijem smislu, jedna od kvaliteta najbližih konceptu „relevantnosti“ je „adekvatnost“, odnosno ne samo procjena stupnja usklađenosti, već i stupanj praktične primjenjivosti rezultata, kao i stupanj društvene primjenjivosti rješenja problema.

Vrste relevantnosti

Usklađenost dokumenta sa zahtjevom za informacijama, utvrđena neformalno

2. Formalna relevantnost

Podudaranje određeno usporedbom slike upita za pretraživanje sa slikom za pretraživanje dokumenta pomoću određenog algoritma.

Tehnologija za pretraživanje informacija na internetu. Vrste alata za pretraživanje

1. Uvod

2. Tehnologije pretraživanja

2.1 Alati za pretraživanje

2.2 Tražilice

2.3 Imenici

2.4 Zbirke veza

2.5 Baza adresa

2.6 Pretraži Gopher arhive

2.7 FTP sustav pretraživanja datoteka (FTP pretraživanje)

2.8 Sustav pretraživanja u Usenetu za novinske konferencije

2.9 Meta tražilice

2.10 Sustavi za traženje ljudi

3. Zaključak

Primjena . Kratke informacije o tražilicama

1. Uvod

Svake godine obujam interneta značajno se povećava, pa se vjerojatnost pronalaska potrebnih informacija naglo povećava.

Internet povezuje milijune računala, mnogo različitih mreža, a broj korisnika se godišnje povećava za 15-80%. Pa ipak, sve više, kada pristup internetu, glavni problem Ispostavilo se da nije riječ o nedostatku potrebnih informacija, većpriliku pronaći je. U pravilu, običan čovjek, zbog različitih okolnosti, ne može ili ne želi potrošiti više od 15-20 minuta tražeći odgovor koji mu treba. Stoga je posebno važno pravilno i kompetentno naučiti naizgled jednostavnu stvar – gdje i kako tražiti da bismo dobili ŽELJENE odgovore.

Da biste pronašli informacije koje su vam potrebne, morate pronaći njihovu adresu. U tu svrhu postoje specijalizirani poslužitelji za pretraživanje (indeksni roboti (tražilice), tematski internetski imenici, sustavi za meta-pretraživanje, servisi za pretraživanje ljudi itd.).

Zatim se otkrivaju glavne tehnologije za pretraživanje informacija na Internetu, daju se opće značajke alata za pretraživanje i razmatraju se strukture upita za pretraživanje za najpopularnije tražilice na ruskom i engleskom jeziku.

2. Tehnologije pretraživanja

Web tehnologija World Wide Web (WWW) smatra se posebnom tehnologijom za pripremu i postavljanje dokumenata na Internet. WWW uključuje web stranice, elektroničke knjižnice, kataloge, pa čak i virtualne muzeje! S takvim obiljem informacija postavlja se pitanje: „Kako se snalaziti u tako ogromnoj i širokoj informacijski prostor? Pomoć u rješavanju ovog problema alati za pretraživanje.

2.1 Alati za pretraživanje

Alati za pretraživanje su posebni programi čija je glavna svrha korisnicima Interneta omogućiti najoptimalnije i najkvalitetnije pretraživanje informacija. Alati za pretraživanje nalaze se na posebnim web poslužiteljima, od kojih svaki obavlja određenu funkciju:

1. Analiza web stranica i unos rezultata analize na jednu ili drugu razinu baze podataka poslužitelja za pretraživanje.

2. Traženje informacija na temelju zahtjeva korisnika.

3. Pružanje prikladnog sučelja za korisnika za traženje informacija i pregled rezultata pretraživanja.

Radne tehnike koje se koriste pri radu s jednim ili drugim alatom za pretraživanje gotovo su iste.

Razmotrimo najprije sljedeće koncepte:

1. Sučelje alata za pretraživanje predstavljeno je u obliku stranice s hipervezama, linijom upita (linijom za pretraživanje) i alatima za aktivaciju upita.

2. Indeks tražilice je informacijska baza koja sadrži rezultat analize web stranica, sastavljena prema određenim pravilima.

3. Upit je ključna riječ ili fraza koju korisnik unosi u traku za pretraživanje. Za formiranje raznih upita koriste se posebni simboli ("", ~) i matematički simboli (*, +, ?).

Shema pretraživanja informacija je jednostavna. Korisnik upisuje ključnu frazu i aktivira pretragu, čime dobiva izbor dokumenata na temelju formuliranog zahtjeva. Ovaj popis dokumenata je rangiran prema određenim kriterijima tako da se na vrhu popisa nalaze oni dokumenti koji najviše odgovaraju zahtjevu korisnika. Svaki od alata za pretraživanje koristi različite kriterije za rangiranje dokumenata, kako pri analizi rezultata pretraživanja, tako i pri stvaranju indeksa (popunjavanje baze podataka indeksa web stranica).

Dakle, ako navedete upit istog dizajna u traci za pretraživanje za svaki alat za pretraživanje, možete dobiti različite rezultate pretraživanja. Za korisnika je od velike važnosti koji će se dokumenti pojaviti u prvih dva do tri tuceta dokumenata u rezultatima pretraživanja i koliko ti dokumenti odgovaraju očekivanjima korisnika.

Većina alata za pretraživanje nudi dvije metode pretraživanja - jednostavno pretraživanje i napredno pretraživanje, sa ili bez posebnog obrasca za upit. Razmotrimo obje vrste pretraživanja na primjeru tražilice na engleskom jeziku.

Na primjer, AltaVista je zgodna za korištenje za proizvoljne upite, " Nešto o online diplomama iz informacijske tehnologije“, dok Yahooov alat za pretraživanje omogućuje dobivanje svjetskih vijesti, tečaja ili vremenske prognoze.

Savladavanje kriterija preciziranja upita i naprednih tehnika pretraživanja omogućuje vam povećanje učinkovitosti pretraživanja i brzo pronalaženje potrebnih informacija. Prije svega, možete povećati učinkovitost vašeg pretraživanja korištenjem logičkih operatora (operacija) Or , And , Near , Not , matematičkih i posebnih simbola u vašim upitima. Koristeći operatore i/ili simbole, korisnik pridružuje ključne riječi u traženom nizu kako bi dobio najprikladniji rezultat pretraživanja za upit. Obrasci zahtjeva na engleskom jeziku. dati su u tabeli 1.

stol 1

Jednostavan zahtjev

Napredni upit

Napredna

pomoću matematičkih

likovi

internetski trgovački račun i

Internet+ račun trgovca+

trgovački račun

internet ~ trgovac ~ vlada*

internetski trgovački račun

internetski trgovac u blizini vlade*

internet ~ trgovac ~ guverner

"trgovački račun"

internetski trgovac blizu obrazovanja

Internetski ~ trgovac ~ (guverner

"internet trgovački račun"

Jednostavan zahtjev daje određeni broj poveznica na dokumente, jer... popis uključuje dokumente koji sadrže jednu od riječi unesenih tijekom zahtjeva ili jednostavnu frazu (vidi tablicu 1). Operator and omogućuje vam da naznačite da sve ključne riječi trebaju biti uključene u sadržaj dokumenta. Međutim, broj dokumenata još uvijek može biti velik i njihov pregled će potrajati dosta vremena. Stoga je u nekim slučajevima mnogo prikladnije koristiti operator konteksta near , označavajući da se riječi trebaju nalaziti dovoljno blizu u dokumentu. Korištenje blizu značajno smanjuje broj pronađenih dokumenata. Prisutnost znaka "*" u nizu upita znači da će se riječ pretraživati ​​prema maski. Na primjer, dobit ćemo popis dokumenata koji sadrže riječi koje počinju s "gov" ako napišemo "gov*" u nizu upita. To mogu biti riječi vlada, guverner itd.

Najrazvijeniju uslugu pretraživanja informacija na ruskom jeziku pruža poslužitelj za pretraživanje Yandex.

U Yandexu možete jednostavno napisati izraz na ruskom koji opisuje što želite pronaći, a sustav će analizirati i obraditi vaš zahtjev, a zatim pokušati pronaći sve što se odnosi na zadanu temu.

Pomoću posebnih operatora možete stvoriti niz koji tražilici objašnjava kakvi bi trebali biti vaši zahtjevi za informacijama koje vas zanimaju. Neki od operatora Yandex jezika upita mogu se vidjeti ovdje: http://help.yandex.ru/search/?id=481939

Jednako popularna tražilica Rambler vodi statistiku prometa linkova iz vlastite baze podataka, isti logički operatori AND, OR, NOT, metasimbol * (sličan znaku * u AltaVisti koji proširuje raspon upita), simboli koeficijenata + i - su podržava povećanje ili smanjenje riječi značaja unesenih u zahtjev.

Pogledajmo najpopularnije tehnologije za pretraživanje informacija na internetu.

2.2 Tražilice

Web tražilice su poslužitelji s ogromnom bazom URL-ova koji automatski pristupaju WWW stranicama na svim tim adresama, ispituju sadržaj tih stranica, oblikuju i upisuju ključne riječi sa stranica u svoju bazu (indeksiraju stranice).

Štoviše, roboti tražilica slijede veze pronađene na stranicama i ponovno ih indeksiraju. Budući da gotovo bilo koji WWW stranica ima mnogo poveznica na druge stranice, onda s takvim radom tražilica može teoretski indeksirati sva mjesta na Internetu kao konačni rezultat.

Ova vrsta alata za pretraživanje je najpoznatija i najpopularnija među svim korisnicima interneta. Svi su čuli imena poznatih web tražilica (tražilica) - Yandex,

Rambler, Aport.

Da biste koristili ovu vrstu alata za pretraživanje, morate otići do njega i u traku za pretraživanje upisati ključnu riječ koja vas zanima.

Za najučinkovitije pretraživanje, Imajte na umu sljedeće točke unaprijed:

odlučiti o predmetu zahtjeva. Što točno na kraju želite pronaći?

obratiti pažnju na jezik, gramatiku, upotrebu raznih neslovnih znakova, morfologiju . Također je važno pravilno formulirati i unijeti ključne riječi. Svaka tražilica ima svoj oblik konstrukcije upita - princip je isti, ali korišteni simboli ili operatori mogu se razlikovati. Potrebni obrasci zahtjeva također se razlikuju ovisno o složenosti softver tražilice i usluge koje pružaju. Na ovaj ili onaj način, svaka tražilica ima odjeljak " Pomozite " ("Pomoć"), gdje su jasno objašnjena sva pravila sintakse, kao i preporuke i savjeti za pretraživanje (snimka zaslona stranica tražilice).

koristiti mogućnosti različitih tražilica . Ako ga ne pronađete na Yandexu, pokušajte na Googleu. Koristite usluge naprednog pretraživanja.

Da biste isključili dokumente koji sadrže određene pojmove, koristite znak "-". prije svake takve riječi. Na primjer, ako trebate informacije o Shakespeareovim djelima, s izuzetkom Hamleta, unesite upit u obrazac: "Shakespeare-Hamlet". Kako biste bili sigurni da su određene veze uključene u rezultate pretraživanja, koristite simbol "+ ": linkovi o prodaji automobila konkretno - upit "prodaja + auto".

Svaka poveznica na popisu rezultata pretraživanja sadrži isječak - nekoliko redaka iz pronađenog dokumenta, među kojima se pojavljuju vaše ključne riječi. Prije nego što kliknete na vezu, procijenite relevantnost isječka za temu zahtjeva. Nakon što slijedite poveznicu do određene stranice, pažljivo pogledajte glavnu stranicu. U pravilu je dovoljna prva stranica da shvatite jeste li došli na pravu adresu ili ne. Ako da, provedite daljnja pretraživanja potrebnih informacija na odabranoj stranici (u odjeljcima stranice); ako ne, vratite se na rezultate pretraživanja i pokušajte sa sljedećom poveznicom.

Ne zaboravite da tražilice ne proizvode vlastite informacije (osim objašnjenja o sebi). Sustav pretraživanja

samo je posrednik između vlasnika informacija (stranica) i vas. Baze podataka se stalno ažuriraju, dodaju im se nove adrese, ali zaostatak za informacijama koje zapravo postoje u svijetu i dalje ostaje. To je jednostavno zato što tražilice ne rade brzinom svjetlosti.

Najpoznatije web tražilice su Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Među onima koji govore ruski mogu se istaknuti Yandex, Rambler, Aport.

Tražilice su najveći i najvrjedniji, ali daleko od jedinih izvora informacija na internetu.

Najpopularnije tražilice među korisnicima ruskog govornog područja su Google, Yandex i Rambler.

Traženje informacija kao proces

Pretraživanje informacija je proces identificiranja u određenom skupu dokumenata (tekstova) svih onih koji su posvećeni određenoj temi (predmetu), zadovoljavaju unaprijed zadani uvjet pretraživanja (upit) ili sadrže potrebne (koje odgovaraju potrebama informacija) činjenice, informacije, podaci.

Proces pretraživanja uključuje slijed operacija usmjerenih na prikupljanje, obradu i pružanje informacija.

Općenito, traženje informacija sastoji se od četiri faze:

  • utvrđivanje (pojašnjenje) informacijskih potreba i formuliranje informacijskih zahtjeva;
  • određivanje ukupnosti mogućih nositelja informacijskih nizova (izvora);
  • izdvajanje informacija iz identificiranih nizova informacija;
  • upoznavanje s dobivenim informacijama i procjena rezultata pretraživanja.

Vrste pretraživanja

Metode pretraživanja

Pretraživanje adresa

Proces traženja dokumenata na temelju čisto formalnih karakteristika navedenih u zahtjevu.
Za implementaciju su potrebni sljedeći uvjeti:

  1. Dokument ima točnu adresu
  2. Osiguravanje strogog reda u rasporedu dokumenata u uređaju za pohranu ili pohranu sustava.

Adrese dokumenata mogu biti adrese web poslužitelja i web stranica, elementi bibliografskih zapisa te adrese za pohranu dokumenata u repozitorij.

Semantičko pretraživanje

Proces pretraživanja dokumenata po sadržaju.

  • Prijevod sadržaja dokumenata i upita s prirodnog jezika na jezik za pretraživanje informacija i kompilacija slika pretraživanja dokumenta i upita.
  • Kompilacija opis pretraživanja, što ukazuje dodatni uvjet traži.

Temeljna razlika između adresnog i semantičkog pretraživanja je u tome što se adresnim pretraživanjem dokument promatra kao objekt u smislu forme, a kod semantičkog pretraživanja - u smislu sadržaja.

Semantičko pretraživanje pronalazi mnoge dokumente bez navođenja adresa.

To je temeljna razlika između kataloga i kartoteka.

Pretraživanje informacija je proces identificiranja zapisa u nizu informacija koji zadovoljavaju unaprijed određeni uvjet pretraživanja ili upit.

IP razmatra traženje informacija u dokumentima, pretraživanje samih dokumenata, izdvajanje metapodataka iz dokumenata, pretraživanje teksta, slika, videa i zvuka u lokalnim relacijskim bazama podataka, u hipertekstualnim bazama podataka kao što su Internet i lokalni intranet sustavi.

Postoji određena zbrka oko pojmova dohvaćanja podataka, dohvaćanja dokumenata, dohvaćanja informacija i dohvaćanja teksta. No, svako od ovih područja istraživanja ima svoje metode, praktična iskustva i literaturu.

Trenutno je IP polje znanosti koje se brzo razvija, a popularnost je rezultat eksponencijalnog rasta količine informacija, posebno na Internetu. Opsežna literatura i mnoge konferencije posvećene su IP-u. Jedan od najpoznatijih je TREC, koji je 1992. godine organiziralo Ministarstvo obrane SAD-a u suradnji s Institutom za standarde i tehnologiju (NIST) s ciljem konsolidacije istraživačke zajednice i razvoja metoda za procjenu kvalitete IP-a.

Zahtjev i objekt zahtjeva

Kada govore o IP sustavima, koriste termine zahtjev I objekt zahtjeva.

Zahtjev je formalizirani način izražavanja informacijskih potreba korisnika sustava. Jezik upita za pretraživanje koristi se za izražavanje potrebe za informacijama, a sintaksa se razlikuje od sustava do sustava. Osim posebnog jezika upita, moderne tražilice omogućuju unos upita na prirodnom jeziku.

Objekt zahtjeva je informacijska cjelina koja je pohranjena u bazi podataka automatiziranog sustava pretraživanja. Iako je najčešći objekt zahtjeva Tekstualni dokument, nema temeljnih ograničenja. Konkretno, moguće je pretraživati ​​slike, glazbu i druge multimedijske informacije. Proces unosa objekata pretraživanja u Poreznu upravu naziva se indeksiranje. IPS ne pohranjuje uvijek točna kopija objekt, često se umjesto njega pohranjuje surogat.

Zadaci traženja informacija

Središnja zadaća IP-a je pomoći korisniku da zadovolji svoju informacijsku potrebu. Budući da je tehnički teško opisati informacijske potrebe korisnika, one se formuliraju kao određeni zahtjev, koji je skup ključne riječi, karakterizirajući ono što korisnik traži.

Klasični UI problem koji je započeo razvoj ovog područja je traženje dokumenata koji zadovoljavaju upit unutar statične zbirke dokumenata. Ali popis IP zadataka stalno se širi i sada uključuje:

  • Problemi modeliranja;
  • Filtriranje dokumenata;
  • Dizajniranje arhitekture tražilica i korisničkih sučelja;
  • Dohvaćanje informacija, posebice bilježenje i sažetak dokumenata;

Također, UI motori imaju neke zadatke u obradi prirodnog jezika, što uključuje morfološku analizu, rješavanje leksičke višeznačnosti i tako dalje.

Ocjene izvedbe

Postoji mnogo načina za procjenu koliko dokumenti koje je pronašla Porezna uprava odgovaraju zahtjevu. Nažalost, pojam stupnja podudaranja upita, ili drugim riječima relevantnosti, subjektivan je pojam, a stupanj relevantnosti ovisi o pojedinoj osobi koja ocjenjuje rezultate upita.

Točnost

Na ovoj slici relevantne točke (rel) su lijevo od linije, a točke koje je tražilica (retr) nalaze se u ovalu. Crvena područja predstavljaju pogreške tražilice. Crveno područje s lijeve strane su relevantne točke koje sustav nije pronašao (događaj koji nedostaje), crveno područje s desne strane su pronađene, ali su nebitne točke (lažni alarm). Točnost- ovo je udio lijevog zelenog područja u odnosu na oval (vodoravna strelica). Potpunost- ovo je omjer lijeve zelene površine prema površini lijevo od ravne crte (dijagonalna strelica).

Definira se kao omjer broja relevantnih dokumenata koje je pronašla Porezna uprava i ukupnog broja pronađenih dokumenata:

,

gdje je skup relevantnih dokumenata u bazi podataka, a je skup dokumenata koje je pronašao sustav. Na temelju rezultata istraživanja tvrtke koja procjenjuje relevantnost pokazatelja glavnih ruskih i stranih tražilica.

Potpunost (opoziv)

Omjer broja pronađeno relevantnih dokumenata, na ukupan broj relevantnih dokumenata u bazi podataka:

,

gdje je skup relevantnih dokumenata u bazi podataka, a je skup dokumenata koje je pronašao sustav.

Ispasti

Ispadanje karakterizira vjerojatnost pronalaska irelevantnog izvora i definira se kao omjer broja pronađenih nerelevantnih dokumenata prema ukupnom broju nerelevantnih dokumenata u bazi podataka:

,

gdje je set Ne relevantni dokumenti u bazi podataka, a skup je dokumenata koje je pronašao sustav.

F-mjera (Van Risbergenova mjera)

Ponekad je korisno kombinirati preciznost i opoziv u jedan prosjek. U tu svrhu, aritmetički prosjek nije prikladan, jer, na primjer, sustav za pretraživanje samo treba vratiti sve dokumente kako bi osigurao potpunost jednaku jedan s preciznošću blizu nule, a aritmetički prosjek točnosti i potpunosti neće biti manje od 1/2. Harmonijska sredina nema ovaj nedostatak, jer se s velikom razlikom u prosječnim vrijednostima približava minimalnoj od njih.

Stoga je dobra mjera za zajedničku procjenu preciznosti i prisjećanja F-mjera, koji je definiran kao ponderirana harmonijska sredina točnosti P i potpunost R:

Obično F-u obrascu se upisuje mjera

Kada bilo F-mjera daje jednaku težinu točnosti i potpunosti i naziva se uravnotežena ili - mjera(uobičajeno je navesti vrijednost u indeksu), izraz za to je pojednostavljen

Korištenje uravnoteženog F-mjere nisu obvezne: kod prednosti se daje točnost, a kod veće težine daje se potpunost.

vidi također

  • Ruska radionica o evaluaciji metoda pronalaženja informacija (ROMIP)

Bilješke

Linkovi

Književnost

  • Baeza-Yates R., Ribeiro-Neto B. Moderno pronalaženje informacija. - Addison-Wesley, 1999. - ISBN 0-201-39829-X
  • Manning C., Raghavan P., Schütze H. Uvod u pronalaženje informacija. - Cambridge University Press, 2008. - ISBN 0-521-86571-9
  • Manning K., Raghavan P., Schütze H. Uvod u pronalaženje informacija. - Williams, 2011. - ISBN 978-5-8459-1623-5
  • Lande D. V., Snarsky A. A., Bezsudnov I. V. Internetika: Navigacija u složenim mrežama: modeli i algoritmi. - M.: Librocom (Editorial URSS), 2009. - 264 str. - ISBN 978-5-397-00497-8

Zaklada Wikimedia. 2010.