Tehnologia de căutare a paginilor web. Etapele căutării informațiilor. Cronologia apariției motoarelor de căutare

10.11.2019 Interesant

Curs ORGANIZAREA ȘI TEHNOLOGIA CĂUTĂRII INFORMAȚIILOR PE INTERNET 1. 2. Instrumente de regăsire a informațiilor Tehnologia de regăsire a informațiilor

Caracteristicile internetului oferă mai mult cale rapidă căutarea de informații în comparație cu cele tradiționale. Deținând o cantitate semnificativă de informații, rețeaua este slab structurată. În acest sens, se dezvoltă în mod activ dezvoltarea instrumentelor de regăsire a informațiilor care automatizează procesul de căutare a informațiilor într-un mediu dat. Slide numărul 3

Instrumente de regăsire a informațiilor Servicii de căutare pe Internet (instrumente concepute pentru căutarea informațiilor) Motoare de căutare Directoare (motoare de căutare) (directoare) Motoare de metacăutare (motoare de metacăutare) Slide nr. 5

Clasificarea instrumentelor de căutare în funcție de amploarea acoperirii resurse informaționale Slide Nr. 6 INTERNET Motoare de căutare Directoare Globale Regionale Locale Specializate Regionale Metamotoare de căutare Rețeaua Locală Specializate

Clasificarea instrumentelor de căutare în funcție de amploarea acoperirii resurselor informaționale Un instrument de căutare specific poate corespunde simultan cu mai multe dintre tipurile enumerate. Tipul de instrument de căutare determină amplitudinea de acoperire a resurselor de informații de pe Internet de către acest instrument. Slide numărul 7

Sistemul de regăsire a informațiilor Slide nr. 8 Un sistem de regăsire a informațiilor (IRS) este un sistem care asigură selectarea, indexarea și regăsirea informațiilor pe baza unui index de documente. Indexarea informațiilor înseamnă atribuirea fiecărui document de cuvinte cheie care reflectă conținutul documentului și controlează căutarea, conducând la acele documente ale căror cuvinte se dovedesc a fi mai asemănătoare cu cuvintele cererii făcute de IRS, rezolvând problemele de colectare, stocare. , prelucrarea și emiterea de informații, căutarea documentelor, analizarea conținutului acestora, construirea de imagini de căutare ale documentelor (extragerea de informații din documente care sunt utilizate de sistem ca cunoștințe despre document), stocarea imaginilor de căutare, analizarea solicitărilor utilizatorilor, căutarea documentelor relevante ( corespunzatoare) solicitarii si emiterea de link-uri catre documente catre utilizatori.

Schema IPS tipică Slide nr. 9 Solicitați resurse de informații despre client Robot indexer Interfața cu utilizatorul Motor de căutare Răspuns Interogare Index document

Caracteristicile diapozitivei IRS nr. 10 Fiecare sistem de căutare specific stochează informații nu despre toate documentele de pe Internet, ci numai despre acele documente cunoscute de sistem (pentru sisteme diferite, procentul documentelor indexate este diferit, dar, de regulă, nu nu depășește 70%). ÎN motoare de căutare Nu documentele în sine sunt stocate, ci doar informațiile despre acestea sunt suficiente pentru ca utilizatorul să le găsească și, drept consecință, este posibil ca sistemul în cauză să nu returneze unele documente corespunzătoare solicitării ca urmare a căutare. Ca urmare a căutării (răspuns la o solicitare), sistemul sortează documentele în funcție de gradul de conformitate cu solicitarea utilizatorului din punct de vedere al algoritmului motorului de căutare, și nu din punctul de vedere al conformității lor efective cu cererea.

Utilizarea IRS Slide No. 11 Motoarele de căutare sunt cea mai voluminoasă sursă de cunoștințe despre paginile (documentele) de pe Internet. Efectuați o căutare diverse informatii pe Internet în majoritatea cazurilor este necesară utilizarea sistemelor de regăsire a informațiilor. Nu au egal în ceea ce privește viteza și completitudinea obținerii de informații la solicitarea unui utilizator. Multe motoare de căutare folosesc împreună un motor de căutare și un director.

Sisteme de regăsire a informațiilor Sistemele globale de regăsire a informațiilor populare de pe Internet sunt: ​​n Google (http: //www. google. com) n Bing (http: //search. msn. com/) n Ask. com (http: //www. ask. com) Sistemele rusești de recuperare a informațiilor includ: n Yandex (http: //www. yandex. ru, http: //www. ya. ru) n Rambler (http: //www. rambler . ru) n Webalta (http: //www. aport. ru/) Slide No. 12

Catalog Slide Nr. 20 Un catalog este un sistem care oferă clasificarea informațiilor. Caracteristica sa distinctivă este prezența unei ierarhii (scheme de ordonare) a resurselor, în care fiecare resursă aparține uneia sau mai multor secțiuni. Directoarele stochează descrieri (adnotări) resurse de Internet. Acestea sunt completate de webmasteri (oameni care creează resurse de informații) sau editori speciali care examinează resursele de informații din rețea. Ca răspuns la o solicitare a utilizatorului, directoarele caută aceste descrieri. Directoarele nu detectează automat modificările aduse resurselor de informații din rețea.

Structura tipică a catalogului Slide Nr. 21 Solicitare Resurse de informații Personal tehnic Interfață cu utilizatorul Răspuns Legături hipertext Client Motor de căutare Solicitare de răspuns Ierarhia resurselor de informații și descrierile acestora

Folosirea catalogului Slide nr. 22 Când rezolvați o problemă de căutare când trebuie să găsiți un grup de resurse de informații pe un subiect destul de larg, catalogul este cel mai cel mai bun remediu pentru a efectua căutări, cum ar fi atunci când căutați site-uri care oferă informații de contact organizații din Moscova sau site-uri media electronice. Rezultatele căutării în directoare pot fi mai semnificative, deoarece resursele de informații din acestea sunt pregătite de oameni.

Cataloage Slide No. 23 Cataloagele electronice globale de pe Internet sunt: ​​n Yahoo (http: //www. yahoo. com) n Open Directory (http: //www. dmoz. org) n Look. Smart (http: //www. looksmart. com) Cele mai importante cataloage electronice rusești includ: n Catalog Yandex (http: //yaca. yandex. ru) n Catalog de e-mail. ru (http: //www. list. ru/) n Catalog Rambler’s Top 100 (http: //top 100. rambler. ru)

Sistem de metacăutare Slide Nr. 28 Un sistem de metacăutare este o suprastructură pe motoare de căutare și cataloage electronice, care nu are o bază de date proprie (index) și, la căutarea conform instrucțiunilor de căutare ale utilizatorului, generează automat interogări pentru mai multe instrumente de căutare externe, și apoi, de asemenea, analizează automat rezultatele primite de la acestea și afișează o listă de link-uri în ordinea determinată de raportul evaluărilor răspunsurilor din mai multe instrumente de căutare simultan. Diferențele de strategie și amplitudinea de acoperire a resurselor de informații ale diferitelor motoare de căutare duc adesea la faptul că diferite instrumente de căutare oferă răspunsuri diferite la aceeași interogare. Sistemele de metacăutare utilizează potențialul altor instrumente de regăsire a informațiilor în activitatea lor.

Diagrama tipică a unui sistem de metacăutare Slide Nr. 29 Solicitare Client Interfață utilizator Răspuns Motor de căutare Cereri Resurse de informații Răspunsuri IRS 1 Catalog 1 IRS N Catalog N

Utilizarea unui metamotor de căutare Slide No. 30 Metamotoarele de căutare sunt cele mai eficiente în etapele inițiale ale căutării de informații. Acestea vă permit să verificați rapid dacă informațiile necesare sunt disponibile pe Internet și să localizați instrumentele de căutare în care sunt prezente. Motoarele de metacăutare vă permit să reduceți timpul petrecut căutând informații, deoarece atunci când procesează o cerere de utilizator, aceste sisteme accesează simultan mai multe instrumente de căutare diferite.

Tipuri de metamotoare de căutare Slide Nr. 31 Rețea - disponibilă prin intermediul rețelei pentru căutarea informațiilor Sistemele globale de metacăutare accesibile prin Internet includ: n Meta. Crawler (http://www. metacrawler. com) n Web. Crawler (http: //www. webcrawler. com) n Căutare. com (http: //www. search. com) Cele mai cunoscute sisteme de metacăutare rusești: n Meta. Bot. ru (http: //metabot. ru) n Nigma (http: //nigma. ru) Avantajul instrumentelor de căutare rusești este procesarea corectă a cererii în limba națională.

Instrumente de căutare specializate Slide No. 33 Sisteme care caută fișiere, de exemplu, File. Căutare. ru (http: //www. filesearch. ru) Sisteme care oferă căutări în știri media electronice, de exemplu, Yandex News (http: //news. yandex. ru), Google News (http: //news. google. ru) ) Căutați bunuri, de exemplu, Yandex Market (http: //market. yandex. ru), Trade. ru (http: //www. torg. ru) Căutați oameni, de exemplu, POISKI. ru (http: //poiski. ru), Poisk 24 (http: //www. poisk 24. de), Yahoo! Căutare de persoane (http://people.yahoo.com)

Instrumente de căutare specializate Căutare de imagini, de exemplu, Yandex Pictures (http: //images. yandex. ru), Google Images (http: //images. google. ru) Căutare video, de exemplu, Yandex Video (http: //video). . yandex . ru), Google Video (http: //video. google. ru) Slide nr. 34

Instrumente și metode suplimentare de căutare Slide nr. 36 Pe Internet, puteți căuta informații nu numai folosind motoarele de căutare, ci și în alte moduri. Există multe site-uri, servicii și utilizatori diferite pe Internet care vă pot ajuta în căutarea dvs. Astfel de servicii includ sisteme de întrebări-răspuns, forumuri și diverse comunități online ( social media), e-mail, chat-uri. Toate aceste metode de obținere a informațiilor au un lucru în comun: alte persoane (nu programele) vă răspund la întrebări. Sisteme întrebări-răspuns: răspunsuri prin e-mail. ru (http: //otveti. mail. ru), Întrebări și răspunsuri Google (http: //otvety. google. ru), Expert. ru (http://znatok.ru)

Instrumente și metode suplimentare de căutare Slide nr. 37 Aceste metode sunt suplimentare deoarece: n nu sunt universale (acumulează adrese într-un volum insuficient sau în zone înguste); n nu există nicio garanție exactă a primirii unui răspuns la o întrebare (întrebarea poate fi pur și simplu ignorată); obținerea unui răspuns în astfel de sisteme poate dura uneori mult timp. Principalul avantaj la utilizare modalități suplimentare căutarea reprezintă acuratețea ridicată a informațiilor obținute.

Recomandări pentru căutarea informațiilor Slide nr. 40 Asigurați-vă că cuvântul (expresia) din interogarea dvs. este scris corect. Solicitarea dvs. poate fi corectată dacă cuvântul scris greșit este unul folosit în mod obișnuit. Este posibil să nu fie găsite cuvinte sau expresii rare. Când căutați informații folosind motoarele de căutare, trebuie să știți că sistemele răspund de obicei la orice solicitare a utilizatorului (din cauza volumului mare de internet) (de exemplu, pentru cererea asgr VKT 5, care, la prima vedere, este un set lipsit de sens). de caractere, motorul de căutare Yandex a găsit 12 pagini web în care apare această expresie). Atenție.

Recomandări pentru căutarea informațiilor Slide No. 41 Clarificați solicitarea. Cu cât este mai precisă expresia de interogare, cu atât este mai mare șansa de a găsi rapid informațiile de care aveți nevoie, de exemplu, rezultatele căutării pentru interogările unei poezii a lui Yesenin și a unei poezii a lui Yesenin din primii săi ani vor fi diferite. Folosiți sinonime. Dacă informațiile necesare nu au fost găsite pentru solicitarea dvs., încercați să clarificați solicitarea înlocuind cuvântul cu sinonimul său, de exemplu RAM sau memorie cu acces aleatoriu sau RAM. Cuvinte și expresii diferite produc rezultate diferite. Folosiți cuvinte care ar fi folosite pe site-urile web pe care le căutați.

Recomandări pentru căutarea informațiilor Slide nr. 42 Când întocmiți o cerere, trebuie să vă imaginați întotdeauna mental care ar putea fi conținutul așteptat al documentului. De exemplu, dacă trebuie să găsiți informații despre A.S. Pușkin, atunci nu este suficient să indicați pur și simplu numele său de familie în interogare (lista de rezultate va conține multe instituții diferite situate pe străzile din Pușkin în diferite orașe). Căutarea va fi mai eficientă dacă adăugați numele operelor poetului la nume de familie. Pentru a căuta texte ale lucrărilor, merită să introduceți rânduri individuale din ele (de preferință rar folosite în citate).

Recomandări pentru căutarea informațiilor Slide nr. 43 Nu introduceți o interogare în motorul de căutare în forma conversațională obișnuită. Deci, la cerere. Care este vremea acum în Nijni Novgorod? vor fi găsite documente care includ toate cuvintele de interogare, și anume, texte care conțin această întrebare (de exemplu, texte de opere literare). În acest caz, ar fi mai eficient să introduceți o interogare pentru vremea în Nijni Novgorod, primele zece link-uri din răspuns la care vor conține informațiile necesare. Încercați să scrieți cuvintele cererii numai cu litere mici - se pot găsi documente suplimentare pentru o astfel de solicitare.

Recomandări pentru căutarea informațiilor Slide nr. 44 Căutați documente similare. Dacă unul dintre documentele găsite este mai aproape de subiectul pe care îl căutați decât celelalte, faceți clic pe linkul „găsiți documente similare”. Motorul de căutare va analiza pagina și va găsi documente similare cu cea specificată de dvs. Dar dacă această pagină a fost ștearsă de pe server și motorul de căutare nu a avut încă timp să o elimine din index, atunci veți primi mesajul „Documentul solicitat nu a fost găsit”.

Recomandări pentru căutarea informațiilor Slide nr. 45 Utilizați semnele „+” și „-”. Pentru a exclude documentele care conțin un anumit cuvânt, precedați-l cu semnul minus. În schimb, pentru a vă asigura că un anumit cuvânt este prezent în document, puneți un plus în față. Vă rugăm să rețineți că nu ar trebui să existe spațiu între cuvânt și semnul plus/minus. De asemenea, puteți utiliza alte comenzi speciale pentru a vă rafina cererea. O listă a acestora poate fi găsită în ajutorul sistemului, de obicei pe pagina Limbă de interogare.

Recomandări pentru căutarea informațiilor Slide nr. 46 Căutați expresii exacte. Daca stii fraza exacta, care ar trebui să fie prezent pe pagina de rezultate, apoi indicați-l în cerere, punând-o între ghilimele. De exemplu, „Obiectiv larg pentru vise și pentru viață Următorii ani se deschid pentru noi” Utilizați motoarele de căutare regionale. Pentru a obține mai mult informatii completeîntr-o altă limbă decât engleza, puteți utiliza sisteme regionale care funcționează cu limba respectivă. În multe țări sisteme regionale au o gamă largă de resurse. Cel mai mare motor de căutare din Rusia este Yandex (http: //www. yandex. ru).

Recomandări pentru căutarea informațiilor Slide nr. 47 Folosiți motoare de căutare specializate. Dacă sunteți în căutarea unor imagini, videoclipuri, produse, hărți și alte informații, atunci puteți găsi toate aceste informații mai rapid folosind motoare de căutare specializate concepute pentru aceste scopuri. Multe motoare de căutare scop general au interfețe speciale pentru căutarea acestor tipuri de informații (vezi descrierea sistemelor specifice). Cererea de căutare în acest caz ar putea fi: căutare de imagini.

Recomandări pentru căutarea informațiilor Slide nr. 48 Dacă sursa de informații este o organizație, atunci încercați să căutați informații pe site-ul web al acestei organizații. Este posibil ca motoarele de căutare să nu cunoască toate informațiile stocate pe site-urile de internet. Accesați site-ul organizației de la care provin aceste informații, poate că va exista Detalii despre ea. Pe site-urile exista sisteme locale căutare (efectuând o căutare în mod specific pe acest site) sau puteți încerca să găsiți informațiile de care aveți nevoie navigând prin secțiunile site-ului. Dacă, de exemplu, ați auzit un program de radio și știți numele acestui post de radio. Căutați informații despre acest program pe site-ul oficial al acestui post de radio.

Recomandări pentru căutarea informațiilor Slide nr. 49 Cereți ajutor altor persoane pentru a găsi informații. Sunt sisteme speciale(de exemplu, sisteme de întrebări-răspuns) în care unii utilizatori îi pot ajuta pe alții să găsească informații. Poate că oamenii au fost deja interesați de aceeași întrebare ca și tine și știu răspunsul corect.

Internetul este în creștere într-un ritm gigantic iar găsirea informațiilor necesare unui anumit utilizator nu este foarte ușoară. Dar este posibil, deoarece există resurse pe Internet care îi vor ajuta atât pe începători, cât și pe profesioniști să nu se înece în oceanul de informații.

Apariția World Wide Web a reprezentat un salt cantitativ și calitativ în domeniu tehnologia Informatiei. Numărul de noi resurse și cantitatea de informații pe care le conțin crește ca o avalanșă; numărul de ace din „coșul de fân” de informații și, în consecință, dimensiunea acesteia în sine crește. Pentru a căuta informații pe Internet, sunt disponibile următoarele tipuri de resurse:

  • - portaluri de informare;
  • - cataloage de resurse Internet;
  • - motoare de căutare.

Internetul în sine s-a transformat treptat într-un mass-media cu o audiență uriașă de utilizatori din întreaga lume și o cantitate incredibilă de informații. A devenit un mijloc global de informare, încurcând întregul glob cu canale de comunicare, dar nu a absorbit mass-media cu care suntem obișnuiți, acestea s-au alăturat organic rețelei ca resurse informaționale independente. Aproape fiecare ziar, post de radio sau canal de televiziune din orice țară din lume are propria sa reprezentare pe Internet.

Versiunea electronică a unui ziar poate și, de regulă, diferă foarte mult de versiunea pe hârtie, depășindu-l semnificativ ca volum - formatul datelor publicate pe site-urile de internet este mai flexibil, nu se limitează la pagini, coloane de ziare și reviste alocate pentru material. Apare un element de interactivitate - cititorii își pot lăsa comentariile și recenziile despre articolul pe care l-au citit, știri sau recenzie analitică.

Unele periodice, precum TIMES, au digitizat chiar arhivele ziarului de-a lungul existenței sale, inclusiv cu ani înainte de calculatoare sau retele de calculatoare Cu toate acestea, căutarea prin astfel de arhive este plătită și destul de costisitoare.

Cea mai autorizată și profesională sursă de informații operaționale pentru utilizatorii de internet și mass-media sunt resursele web ale agențiilor de presă. Dispunând de o largă rețea de corespondenți, aceștia difuzează zilnic și orar informații socio-politice, economice, științifice și financiare pe internet și prin canale de comunicații electronice.

Instrumente de căutare

Instrumentele de căutare sunt software speciale al căror scop principal este de a oferi utilizatorilor de Internet cea mai optimă și de înaltă calitate de căutare a informațiilor. Instrumentele de căutare sunt găzduite pe servere web speciale, fiecare dintre ele îndeplinește o funcție specifică:

  • 1. Analiza paginilor web și introducerea rezultatelor analizei la unul sau altul nivel al bazei de date a serverului de căutare.
  • 2. Căutați informații pe baza solicitării utilizatorului.
  • 3. Furnizarea unei interfețe convenabile pentru căutarea informațiilor și vizualizarea rezultatului căutării de către utilizator.

Tehnicile de lucru folosite atunci când lucrați cu unul sau altul instrument de căutare sunt aproape aceleași. Înainte de a le discuta, să luăm în considerare următoarele concepte:

  • 1. Interfața instrumentului de căutare este prezentată sub forma unei pagini cu hyperlinkuri, o linie de interogare (linie de căutare) și instrumente de activare a interogărilor.
  • 2. Indexul motorului de căutare este baza de informatii, care conține rezultatul analizei paginilor web, întocmite după anumite reguli.
  • 3. O interogare este un cuvânt cheie sau o expresie pe care utilizatorul o introduce în bara de căutare. Pentru a forma diverse interogări, sunt folosite caractere speciale ("", |, ~) și simboluri matematice (*, +, ?).

Schema de căutare a informațiilor este simplă. Utilizatorul introduce o frază cheie și activează căutarea, primind astfel o selecție de documente pe baza cererii formulate (specificate). Această listă de documente este clasificată în funcție de anumite criterii, astfel încât în ​​fruntea listei se află acele documente care se potrivesc cel mai bine cu solicitarea utilizatorului. Fiecare dintre instrumentele de căutare utilizează criterii diferite pentru clasarea documentelor, atât la analizarea rezultatelor căutării, cât și la crearea unui index (popularea unei baze de date indexate a paginilor web).

Astfel, dacă specificați o interogare cu același design în bara de căutare pentru fiecare instrument de căutare, puteți obține rezultate de căutare diferite. Este de mare importanță pentru utilizator ce documente vor apărea în primele două până la trei duzini de documente din rezultatele căutării și cât de bine corespund aceste documente așteptărilor utilizatorului.

Majoritatea instrumentelor de căutare oferă două metode de căutare - căutare simplă(căutare simplă) și Cautare Avansata(căutare avansată) cu sau fără formular de cerere specială. Să luăm în considerare ambele tipuri de căutare folosind exemplul unui motor de căutare în limba engleză.

De exemplu, AltaVista este utilă pentru interogări arbitrare, „Ceva despre diplomele online în tehnologia informației”, în timp ce instrumentul de căutare Yahoo vă permite să obțineți știri mondiale, informații despre cursul de schimb sau prognoze meteo.

Stăpânirea criteriilor de rafinare a interogărilor și a tehnicilor avansate de căutare vă permite să creșteți eficiența căutării și să găsiți rapid informațiile necesare. În primul rând, puteți crește eficiența căutării dvs. utilizând operatori logici (operații) Or, And, Near, Not, matematici și caractere speciale. Folosind operatori și/sau simboluri, utilizatorul asociază cuvinte cheie în secvența necesară pentru a obține rezultatul de căutare cel mai potrivit pentru interogare.

O simplă solicitare oferă un anumit număr de link-uri către documente, deoarece... lista include documente care conțin unul dintre cuvintele introduse în timpul cererii, sau o simplă frază (vezi Tabelul 1). Operatorul și vă permite să specificați că toate cuvintele cheie trebuie incluse în conținutul documentului. Cu toate acestea, numărul documentelor poate fi încă mare și revizuirea acestora va dura destul de mult. Prin urmare, în unele cazuri este mult mai convenabil să folosiți operatorul de context lângă, ceea ce indică faptul că cuvintele ar trebui să fie amplasate într-o proximitate suficientă în document. Utilizarea aproape reduce semnificativ numărul de documente găsite. Prezența caracterului „*” în șirul de interogare înseamnă că cuvântul va fi căutat după masca acestuia. De exemplu, vom obține o listă de documente care conțin cuvinte care încep cu „gov” dacă scriem „gov*” în șirul de interogare. Acestea ar putea fi cuvintele guvern, guvernator etc.

Cel mai dezvoltat serviciu de căutare pentru informații în limba rusă este oferit de serverul de căutare Yandex. În Yandex, puteți scrie pur și simplu o frază în rusă care descrie ceea ce doriți să găsiți, iar sistemul vă va analiza și procesa solicitarea, apoi va încerca să găsească tot ce se referă la subiectul dat. Folosind operatori speciali, puteți crea un șir care explică motorului de căutare care ar trebui să fie cerințele dvs. pentru informațiile care vă interesează.

Motorul de căutare la fel de popular Rambler păstrează statistici privind traficul de linkuri din propria bază de date; aceiași operatori logici ȘI, SAU, NU, metasimbolul * (similar cu caracterul * din AltaVista care extinde intervalul de interogări), simbolurile coeficienților + și - sunt susținută pentru a crește sau a micșora cuvintele de semnificație introduse în cerere.

Cele mai populare tehnologii pentru căutarea informațiilor pe Internet.

căutare de animație pe internet pe computer

Motoarele de căutare pe internet

Motoare de căutare sistemele Google, Yahoo, Yandex, Mail... servesc pentru a localiza resursa necesară pe Internet folosind cuvinte cheie. Aceste sisteme sau, așa cum se numesc altfel, motoarele de căutare, caută milioane de servere WWW în fiecare zi, indexează și catalogează resursele găsite. Posibilitatea de a căuta o resursă pe Internet este foarte convenabilă, dar nu trebuie să uităm că Rețeaua își trăiește propria viață - mii de pagini noi apar în fiecare zi, unele vechi dispar... Prin urmare, motoarele de căutare nu oferă întotdeauna cele mai exacte informații.

Instrumentele de căutare și structurare, numite uneori motoare de căutare, sunt folosite pentru a ajuta oamenii să găsească informațiile de care au nevoie. Instrumente de căutare, cum ar fi agenți, păianjeni, crawler-uri și roboți sunt folosite pentru a colecta informații despre documentele aflate pe Internet. Acest programe speciale, care caută pagini pe Web, extrag link-uri hypertext de pe acele pagini și indexează automat informațiile pe care le găsesc pentru a construi o bază de date. Fiecare motor de căutare are propriul set de reguli care determină modul de colectare a documentelor. Unii urmăresc fiecare link de pe fiecare pagină pe care o găsesc și apoi explorează fiecare link de pe fiecare pagină nouă și așa mai departe. Unii oameni ignoră link-urile care duc la grafice și fișiere de sunet, fișiere de animație; alții ignoră legăturile către resurse precum bazele de date WAIS; alții sunt instruiți să se uite mai întâi la cele mai populare pagini.

Google - cea mai mare rețea motoarele de căutare deținute de Google Inc.

Primul cel mai popular sistem, procesează 41 de miliarde 345 de milioane de solicitări pe lună, indexează peste 25 de miliarde de pagini web și poate găsi informații în 195 de limbi.

Interfața Google conține un limbaj de interogare destul de complex, care vă permite să vă limitați căutarea la anumite domenii, limbi, tipuri de fișiere etc.

Pentru rezultate cautare Google a oferit anterior capacitatea de a cerceta, ceea ce a permis căutarea mai detaliată. Pentru o căutare mai detaliată, utilizatorii au trebuit să precizeze Opțiuni suplimentare, în funcție de care au fost selectate rezultatele, ceea ce a făcut posibilă afișarea imediată nu numai a interogării, ci și a contextului în care este aplicată. Această ocazie a simplificat procedura de căutare, eliminând necesitatea deschiderii fiecărui rezultat. Pe 22 septembrie 2010 compania s-a lansat căutare vocală in Rusia. Pentru a căuta, trebuie să apăsați butonul de lângă linia de căutare de pe telefon și să spuneți interogarea dvs., telefonul vă va trimite vocea către server, iar browserul va afișa o linie cu interogarea recunoscută și rezultatele căutării pentru aceasta.

Datorită popularității motorului de căutare, a apărut în engleză neologismul la google sau la Google, folosit pentru a se referi la căutarea de informații pe Internet cu folosind Google. Cu această definiție verbul este inclus în cele mai autorizate dicționare în limba engleză- Oxford English Dictionary și Merriam-Webster, deși alte surse, oferă exemple de utilizare a acestuia pentru a se referi la căutarea de orice pe Internet.

Yandex este o companie IT rusă care deține sistemul de căutare pe Internet și portalul de internet cu același nume. Motorul de căutare Yandex este al patrulea dintre motoarele de căutare din lume în ceea ce privește numărul de procesate interogări de căutare. Începând cu 8 februarie 2013, conform evaluării Alexa.com, site-ul web yandex.ru se află pe locul 20 în lume și pe locul 1 în Rusia în ceea ce privește popularitatea.

Motorul de căutare Yandex.ru a fost anunțat oficial pe 23 septembrie 1997 și a fost dezvoltat pentru prima dată în cadrul CompTek International. Yandex a fost înființată ca o companie separată în 2000. În mai 2011, Yandex a organizat o ofertă publică inițială, câștigând din aceasta mai mult decât orice companie de internet de la IPO a motorului de căutare Google în 2004.

ь Gestionarea indexării în motorul de căutare Yandex

Permisiunile și interdicțiile pentru indexare sunt preluate din fișierul robots.txt. Yandex acceptă eticheta robots META, eticheta NOINDEX și extensia non-standard robots.txt - directiva Host. Permisiunile și interdicțiile pentru indexare sunt preluate de toate motoarele de căutare din fișierul robots.txt aflat în directorul rădăcină al serverului. O interdicție privind indexarea unui număr de pagini poate apărea, de exemplu, din dorința de a nu indexa documente identice în codificări diferite. Cu cât serverul este mai mic, cu atât robotul îl va ocoli mai repede. Prin urmare, este indicat să dezactivați în fișierul robots.txt toate documentele care nu au sens să fie indexate.

ь Adăugarea de pagini în motorul de căutare Yandex

Yandex accesează cu crawlere sute de mii de pagini web în fiecare zi, căutând modificări sau link-uri noi. Proprietarii de resurse își pot adăuga în mod independent site-ul web completând formularul AddURL

Motorul de căutare Yandex este full-text, adică numai acele cuvinte care sunt scrise pe paginile site-ului sunt incluse în indexul său (și devin disponibile pentru căutare).

ь Indexarea în motorul de căutare Yandex

Când Yandex detectează o pagină nouă sau modificată, o indexează. În timpul acestui proces, pagina este împărțită în elemente, al căror conținut este introdus în index. Când Yandex detectează o pagină nouă sau modificată, o indexează. În timpul acestui proces, pagina este împărțită în elemente (text, titluri, legende imagini, link-uri etc.), al căror conținut este introdus în index. În acest caz, se iau în considerare pozițiile cuvintelor, adică poziția lor în document sau elementul acestuia. Documentul în sine nu este stocat în baza de date.

Yahoo! este o companie americană care deține al doilea cel mai popular motor de căutare din lume și oferă o serie de servicii unite de portalul de internet Yahoo! Director; portalul include un serviciu popular E-mail Yahoo.

Conform statisticilor Alexa Internet, în februarie-aprilie 2012 Yahoo! este al patrulea cel mai vizitat site de pe Internet, iar aproximativ 28% dintre vizite constau în vizualizarea unei singure pagini.

Poștă- un mare portal de comunicare al internetului rusesc, a cărui audiență lunară, în octombrie 2012, depășește 31,9 milioane de oameni.

Numărul de angajați este de 2800 de persoane.

Resursa aparține unui grup de investiții Poștă. Grupul Ru.

Serviciul cheie al portalului este serviciul de e-mail Pochta@Mail. Ru, a fost creat în 1998 în compania americană de software DataArt, fondată de emigranți ruși. Programatorii de la biroul DataArt din Sankt Petersburg au creat un nou software pentru un server de e-mail web, care mai târziu ar fi trebuit să fie vândut companiilor occidentale. Pentru a testa serviciul, acesta a fost postat temporar pe acces deschisîn noiembrie 1998 pentru utilizatori ruși, iar serviciul a început brusc să câștige rapid popularitate.

Potrivit vicepreședintelui și CTO al Mail. Ru Vladimir Gabrielyan, portalul are opt centre de date, numărul de servere este de 9000 de unități. În departamentul tehnic al Mail. Ru are peste șapte sute de specialiști.

Caută organizație

Formularul de căutare este un lucru foarte util și popular, mai ales când vine vorba de site-uri serioase, mari (din punct de vedere al numărului de pagini și al materialului prezentat) și bine parcurse. Găsirea informațiilor de care aveți nevoie pe un site ca acesta folosind doar un meniu de navigare și link-uri interne poate fi uneori o sarcină dificilă. Este mult mai ușor să tastați câteva cuvinte necesare în câmpul corespunzător, să faceți clic pe butonul „găsiți” și să ajungeți cu link-uri către pagini în care informațiile de interes pentru utilizator pot fi disponibile.

Căutarea poate fi implementată de obicei în două moduri:

1. căutare implementată folosind motorul site-ului (php sau alt limbaj de programare web) - dar aceasta este doar pentru programatori web serioși, pentru simpli muritori, metoda numărul 2 este de preferat;

2. formular de căutare care se adresează motorului de căutare. Această metodă este disponibilă oricărei persoane care a stăpânit elementele de bază ale HTML și este potrivită pentru orice site, chiar și pentru unul care constă dintr-un set de pagini HTML statice. Cu toate acestea, o astfel de căutare va fi efectuată numai pe acele pagini care se află în baza de date a motorului de căutare. Pentru ca toate paginile site-ului să fie indexate corect, trebuie respectate două reguli: 1) fiecare pagină a site-ului trebuie să aibă un link direct fără redirecționare; 2) site-ul nu trebuie să încalce licența de căutare a motorului de căutare utilizat.

Relevanţă

Relevanța în regăsirea informațiilor este corespondența semantică dintre interogarea de căutare și imaginea de căutare a documentului. Într-un sens mai general, una dintre calitățile cele mai apropiate de conceptul de „relevanță” este „adecvarea”, adică nu numai o evaluare a gradului de conformitate, ci și gradul de aplicabilitate practică a rezultatului, precum și gradul de aplicabilitate socială a unei soluții la o problemă.

Tipuri de relevanță

Conformitatea documentului cu solicitarea de informații, determinată informal

2. Relevanța formală

O potrivire determinată prin compararea imaginii unei interogări de căutare cu imaginea de căutare a unui document utilizând un algoritm specific.

Tehnologie pentru căutarea informațiilor pe Internet. Tipuri de instrumente de căutare

1. Introducere

2. Tehnologii de căutare

2.1 Instrumente de căutare

2.2 Motoare de căutare

2.3 Directoare

2.4 Link colecții

2.5 Baza de date cu adrese

2.6 Căutați în arhivele Gopher

2.7 Sistem de căutare de fișiere FTP (Căutare FTP)

2.8 Sistem de căutare în conferințele de știri Usenet

2.9 Metamotoare de căutare

2.10 Sisteme de căutare de oameni

3. Concluzie

Aplicație . Informații scurte despre motoarele de căutare

1. Introducere

În fiecare an, volumul Internetului crește semnificativ, astfel încât probabilitatea de a găsi informațiile necesare crește brusc.

Internetul conectează milioane de computere, multe rețele diferite, iar numărul utilizatorilor crește cu 15-80% anual. Și totuși, din ce în ce mai mult, la accesarea internetului, principala problemă Se dovedește că nu este vorba de absența informațiilor solicitate, ciocazia de a o găsi. De regulă, o persoană obișnuită, din cauza diverselor circumstanțe, nu poate sau nu vrea să petreacă mai mult de 15-20 de minute căutând răspunsul de care are nevoie. Prin urmare, este deosebit de important să înveți corect și competent un lucru aparent simplu - unde și cum să cauți pentru a obține răspunsurile DEZIRATE.

Pentru a găsi informațiile de care aveți nevoie, trebuie să găsiți adresa acesteia. În acest scop, există servere de căutare specializate (roboți de indexare (motoare de căutare), directoare tematice pe Internet, sisteme de meta-căutare, servicii de căutare de persoane etc.).

În continuare, sunt dezvăluite principalele tehnologii de căutare a informațiilor pe Internet, sunt furnizate caracteristicile generale ale instrumentelor de căutare și sunt luate în considerare structurile de interogări de căutare pentru cele mai populare motoare de căutare în limba rusă și în limba engleză.

2. Tehnologii de căutare

Tehnologia web World Wide Web (WWW) este considerată o tehnologie specială pentru pregătirea și postarea documentelor pe Internet. WWW include pagini web, biblioteci electronice, cataloage și chiar muzee virtuale! Cu o astfel de abundență de informații, apare întrebarea: „Cum să navighezi într-o astfel de uriașă și la scară largă spațiu informațional? Ajută la rezolvarea acestei probleme instrumente de căutare.

2.1 Instrumente de căutare

Instrumentele de căutare sunt software speciale al căror scop principal este de a oferi utilizatorilor de Internet cea mai optimă și de înaltă calitate de căutare a informațiilor. Instrumentele de căutare sunt găzduite pe servere web speciale, fiecare dintre ele îndeplinește o funcție specifică:

1. Analiza paginilor web și introducerea rezultatelor analizei la unul sau altul nivel al bazei de date a serverului de căutare.

2. Căutarea informațiilor pe baza solicitării utilizatorului.

3. Furnizarea unei interfețe convenabile pentru ca utilizatorul să caute informații și să vizualizeze rezultatele căutării.

Tehnicile de lucru folosite atunci când lucrați cu unul sau altul instrument de căutare sunt aproape aceleași.

Să luăm mai întâi în considerare următoarele concepte:

1. Interfața instrumentului de căutare este prezentată sub forma unei pagini cu hyperlinkuri, o linie de interogare (linie de căutare) și instrumente de activare a interogărilor.

2. Indexul motorului de căutare este o bază de informații care conține rezultatul analizei paginilor web, întocmit după anumite reguli.

3. O interogare este un cuvânt cheie sau o expresie pe care utilizatorul o introduce în bara de căutare. Pentru a forma diverse interogări, sunt folosite simboluri speciale ("", ~) și simboluri matematice (*, +, ?).

Schema de căutare a informațiilor este simplă. Utilizatorul introduce o frază cheie și activează căutarea, primind astfel o selecție de documente pe baza cererii formulate. Această listă de documente este clasificată în funcție de anumite criterii, astfel încât în ​​fruntea listei se află acele documente care se potrivesc cel mai bine cu solicitarea utilizatorului. Fiecare dintre instrumentele de căutare utilizează criterii diferite pentru clasarea documentelor, atât la analizarea rezultatelor căutării, cât și la crearea unui index (popularea unei baze de date indexate a paginilor web).

Astfel, dacă specificați o interogare cu același design în bara de căutare pentru fiecare instrument de căutare, puteți obține rezultate de căutare diferite. Este de mare importanță pentru utilizator ce documente vor apărea în primele două până la trei duzini de documente din rezultatele căutării și cât de bine corespund aceste documente așteptărilor utilizatorului.

Majoritatea instrumentelor de căutare oferă două metode de căutare - căutare simplă și căutare avansată, cu sau fără un formular special de interogare. Să luăm în considerare ambele tipuri de căutare folosind exemplul unui motor de căutare în limba engleză.

De exemplu, AltaVista este convenabil de utilizat pentru interogări arbitrare, " Ceva despre diplomele online în tehnologia informației„, în timp ce instrumentul de căutare Yahoo vă permite să obțineți știri mondiale, cursuri de schimb sau prognoze meteo.

Stăpânirea criteriilor de rafinare a interogărilor și a tehnicilor avansate de căutare vă permite să creșteți eficiența căutării și să găsiți rapid informațiile necesare. În primul rând, puteți crește eficiența căutării dvs. utilizând operatori logici (operații) Sau , Și , Aproape , Nu , simboluri matematice și speciale în interogările dvs. Folosind operatori și/sau simboluri, utilizatorul asociază cuvinte cheie în secvența necesară pentru a obține rezultatul de căutare cel mai potrivit pentru interogare. Formulare de solicitare in limba engleza. sunt prezentate în tabelul 1.

tabelul 1

Cerere simplă

Interogare avansată

Avansat

folosind matematica

personaje

cont de comerciant pe internet și

Internet+ comerciant+ cont

cont de comerciant

internet ~ comerciant ~ guvern*

cont de comerciant pe internet

comerciant pe internet lângă guvern*

internet ~ comerciant ~ guvernator

"cont de comerciant"

comerciant de internet lângă educație

Internet ~ comerciant ~ (guvernator

"cont de comerciant pe internet"

O simplă solicitare oferă un anumit număr de link-uri către documente, deoarece... lista include documente care conțin unul dintre cuvintele introduse în timpul cererii, sau o simplă frază (vezi Tabelul 1). Operatorul și vă permite să indicați că toate cuvintele cheie trebuie incluse în conținutul documentului. Cu toate acestea, numărul documentelor poate fi încă mare și revizuirea acestora va dura destul de mult. Prin urmare, în unele cazuri este mult mai convenabil să folosiți operatorul de context lângă , indicând faptul că cuvintele ar trebui să fie amplasate într-o apropiere suficientă în document. Utilizarea aproape reduce semnificativ numărul de documente găsite. Prezența caracterului „*” în șirul de interogare înseamnă că cuvântul va fi căutat după masca acestuia. De exemplu, vom obține o listă de documente care conțin cuvinte care încep cu „gov” dacă scriem „gov*” în șirul de interogare. Acestea ar putea fi cuvintele guvern, guvernator etc.

Cel mai dezvoltat serviciu de căutare pentru informații în limba rusă este oferit de serverul de căutare Yandex.

În Yandex, puteți scrie pur și simplu o frază în rusă care descrie ceea ce doriți să găsiți, iar sistemul vă va analiza și procesa solicitarea, apoi va încerca să găsească tot ce se referă la subiectul dat.

Folosind operatori speciali, puteți crea un șir care explică motorului de căutare care ar trebui să fie cerințele dvs. pentru informațiile care vă interesează. Unii dintre operatorii de limbaj de interogare Yandex pot fi vizualizați aici: http://help.yandex.ru/search/?id=481939

Motorul de căutare la fel de popular Rambler păstrează statistici privind traficul de linkuri din propria bază de date; aceiași operatori logici ȘI, SAU, NU, metasimbolul * (similar cu caracterul * din AltaVista care extinde intervalul de interogări), simbolurile coeficienților + și - sunt susținută pentru a crește sau a micșora cuvintele de semnificație introduse în cerere.

Să ne uităm la cele mai populare tehnologii pentru căutarea informațiilor pe Internet.

2.2 Motoare de căutare

Motoarele de căutare web sunt servere cu o bază de date uriașă de URL-uri care accesează automat paginile WWW la toate aceste adrese, examinează conținutul acestor pagini, formează și scriu cuvinte cheie din pagini în baza lor de date (indexează paginile).

Mai mult, roboții motoarelor de căutare urmăresc linkurile găsite pe pagini și le reindexează. Din aproape orice Pagina WWW are multe link-uri către alte pagini, apoi cu o astfel de muncă, motorul de căutare poate, teoretic, să acceseze cu crawlere toate site-urile de pe Internet ca rezultat final.

Acest tip de instrumente de căutare este cel mai faimos și popular printre toți utilizatorii de internet. Toată lumea a auzit numele unor motoare de căutare web celebre (motoare de căutare) - Yandex,

Rambler, Aport.

Pentru a utiliza acest tip de instrument de căutare, trebuie să accesați el și să introduceți cuvântul cheie care vă interesează în bara de căutare.

Pentru cea mai eficientă căutare, Vă rugăm să rețineți următoarele puncte în avans:

decide asupra obiectului cererii. Ce anume vrei să găsești până la urmă?

acordați atenție limbii, gramaticii, folosirii diferitelor caractere fără litere, morfologiei . De asemenea, este important să formulați și să introduceți corect cuvintele cheie. Fiecare motor de căutare are propria sa formă de construcție a interogărilor - principiul este același, dar simbolurile sau operatorii utilizați pot diferi. Formularele de solicitare necesare variază, de asemenea, în funcție de complexitate software motoarele de căutare și serviciile pe care le oferă. Într-un fel sau altul, fiecare motor de căutare are o secțiune „ Ajutor „ („Ajutor”), unde toate regulile de sintaxă, precum și recomandările și sfaturile de căutare, sunt explicate clar (captură de ecran a paginilor motorului de căutare).

utilizați capacitățile diferitelor motoare de căutare . Dacă nu îl găsiți pe Yandex, încercați pe Google. Utilizați servicii de căutare avansată.

Pentru a exclude documentele care conțin anumiți termeni, utilizați semnul „-”. înaintea fiecărui astfel de cuvânt. De exemplu, dacă aveți nevoie de informații despre operele lui Shakespeare, cu excepția lui Hamlet, atunci introduceți o interogare sub forma: „Shakespeare-Hamlet”. Pentru a vă asigura că anumite link-uri sunt incluse în rezultatele căutării, utilizați simbolul "+ „: link-uri despre vânzarea de mașini în mod specific - interogarea „vânzare + mașină”.

Fiecare link din lista rezultatelor căutării conține un fragment - mai multe rânduri din documentul găsit, printre care apar cuvintele dvs. cheie. Înainte de a face clic pe link, evaluați relevanța fragmentului pentru subiectul solicitării. După ce ați urmat un link către un anumit site, priviți cu atenție pagina principală. De regulă, prima pagină este suficientă pentru a înțelege dacă ați ajuns la adresa potrivită sau nu. Dacă da, atunci efectuați căutări suplimentare pentru informațiile necesare pe site-ul selectat (în secțiunile site-ului); dacă nu, reveniți la rezultatele căutării și încercați următorul link.

Rețineți că motoarele de căutare nu produc propriile informații (cu excepția explicațiilor despre ei înșiși). Sistem de căutare

este doar un intermediar între proprietarul informațiilor (site-ul) și dumneavoastră. Bazele de date sunt actualizate în mod constant, li se adaugă noi adrese, dar decalajul din spatele informațiilor care există de fapt în lume rămâne încă. Acest lucru se întâmplă pur și simplu pentru că motoarele de căutare nu funcționează cu viteza luminii.

Cele mai cunoscute motoare de căutare web includ Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Dintre cei vorbitori de limbă rusă se pot evidenția Yandex, Rambler, Aport.

Motoarele de căutare sunt cele mai mari și mai valoroase, dar departe de singurele surse de informații de pe Internet.

Cele mai populare motoare de căutare în rândul utilizatorilor vorbitori de limbă rusă sunt Google, Yandex și Rambler.

Căutarea informațiilor ca proces

Căutarea de informații este procesul de identificare într-un anumit set de documente (texte) a tuturor celor care sunt consacrate unui subiect (subiect) specificat, satisfac o condiție de căutare predeterminată (interogare) sau care conțin (corespunzător nevoilor de informații) necesare fapte, informații, date.

Procesul de căutare include o secvență de operațiuni care vizează colectarea, prelucrarea și furnizarea de informații.

În general, căutarea informațiilor constă în patru etape:

  • determinarea (clarificarea) nevoilor de informații și formularea cererilor de informații;
  • determinarea totalității posibililor deținători de matrice (surse) informaționale;
  • extragerea de informații din matrice de informații identificate;
  • familiarizarea cu informațiile primite și evaluarea rezultatelor căutării.

Tipuri de căutare

Metode de căutare

Căutare adrese

Procesul de căutare a documentelor pe baza caracteristicilor pur formale specificate în cerere.
Următoarele condiții sunt necesare pentru implementare:

  1. Documentul are o adresă exactă
  2. Asigurarea unei ordini stricte in aranjarea documentelor intr-un dispozitiv de stocare sau sistem de stocare.

Adresele documentelor pot fi adrese ale serverelor web și ale paginilor web, elemente ale înregistrărilor bibliografice și adrese pentru stocarea documentelor într-un depozit.

Căutare semantică

Procesul de căutare a documentelor după conținutul lor.

  • Traducerea conținutului documentelor și interogărilor din limbajul natural în limbajul de regăsire a informațiilor și compilarea imaginilor de căutare ale documentului și interogării.
  • Compilare descrierea căutării, care indică condiție suplimentară căutare.

Diferența fundamentală dintre căutările prin adresă și căutările semantice constă în aceea că, prin căutarea prin adresă, documentul este considerat ca obiect din punct de vedere al formei, iar cu căutarea semantică - din punct de vedere al conținutului.

Căutarea semantică găsește multe documente fără a specifica adrese.

Aceasta este diferența fundamentală dintre cataloage și fișiere card.

Căutarea informațiilor este procesul de identificare a înregistrărilor dintr-o serie de informații care satisfac o condiție de căutare sau o interogare predeterminată.

IP are în vedere căutarea de informații în documente, căutarea documentelor în sine, extragerea metadatelor din documente, căutarea de text, imagini, video și sunet în baze de date relaționale locale, în baze de date hipertext precum Internetul și sistemele intranet locale.

Există o oarecare confuzie în jurul conceptelor de regăsire a datelor, regăsire documente, regăsire informații și regăsire text. Cu toate acestea, fiecare dintre aceste domenii de cercetare are propriile sale metode, experiență practică și literatură.

În prezent, IP este un domeniu al științei în dezvoltare rapidă, a cărui popularitate se datorează creșterii exponențiale a volumelor de informații, în special pe Internet. Literatură extinsă și multe conferințe sunt dedicate PI. Una dintre cele mai cunoscute este TREC, organizată în 1992 de Departamentul Apărării al SUA în colaborare cu Institutul de Standarde și Tehnologie (NIST) cu scopul de a consolida comunitatea de cercetare și de a dezvolta metode de evaluare a calității IP.

Cerere și obiect de cerere

Când vorbesc despre sisteme IP, ei folosesc termenii cerereȘi obiect de cerere.

Cerere este o modalitate formalizată de exprimare a nevoilor de informații ale utilizatorului sistemului. Un limbaj de interogare de căutare este folosit pentru a exprima o nevoie de informații, sintaxa variind de la sistem la sistem. Pe lângă un limbaj special de interogare, motoarele de căutare moderne vă permit să introduceți o interogare în limbaj natural.

Solicitare obiect este o entitate informațională care este stocată în baza de date a unui sistem automat de căutare. Deși cel mai frecvent obiect de cerere este Document text, nu există restricții fundamentale. În special, este posibil să căutați imagini, muzică și alte informații multimedia. Procesul de introducere a obiectelor de căutare în IRS se numește indexare. IPS nu stochează întotdeauna copie exactă obiect, adesea este stocat un surogat.

Sarcini de recuperare a informațiilor

Sarcina centrală a IP-ului este de a ajuta utilizatorul să-și satisfacă nevoia de informații. Deoarece este dificil din punct de vedere tehnic de a descrie nevoile de informații ale utilizatorului, acestea sunt formulate ca o anumită cerere, care este un set Cuvinte cheie, care caracterizează ceea ce caută utilizatorul.

Problema clasică a UI care a început dezvoltarea acestui câmp este căutarea documentelor care satisfac o interogare într-o colecție statică de documente. Dar lista de sarcini IP se extinde constant și include acum:

  • Probleme de modelare;
  • filtrarea documentelor;
  • Proiectarea arhitecturii motoarelor de căutare și a interfețelor utilizator;
  • Obținerea de informații, în special adnotarea și extragerea documentelor;

De asemenea, motoarele UI sunt însărcinate cu unele sarcini în procesarea limbajului natural, care include analiza morfologică, rezoluția dezambiguerii lexicale și așa mai departe.

Evaluări de performanță

Există multe modalități de a evalua cât de bine documentele găsite de IRS se potrivesc cu cererea. Din păcate, conceptul de grad de potrivire a unei interogări, sau cu alte cuvinte de relevanță, este un concept subiectiv, iar gradul de relevanță depinde de persoana individuală care evaluează rezultatele interogării.

Precizie

În această figură, punctele relevante (rel) sunt în stânga liniei, iar punctele găsite de motorul de căutare (retr) sunt în oval. Zonele roșii reprezintă erori ale motorului de căutare. Zona roșie din stânga este puncte relevante negăsite de sistem (eveniment lipsă), zona roșie din dreapta este găsită dar puncte irelevante (alarma falsă). Precizie- aceasta este proporția zonei verzi din stânga în raport cu ovalul (săgeată orizontală). Completitudine- aceasta este proporția dintre zona verde din stânga și zona din stânga liniei drepte (săgeata diagonală).

Este definit ca raportul dintre numărul de documente relevante găsite de IRS și numărul total de documente găsite:

,

unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem. Pe baza rezultatelor cercetării unei companii care evaluează relevanța indicatorilor principalelor motoare de căutare rusești și străine.

Completitudine (rechemare)

Raportul numeric găsite documente relevante, la numărul total de documente relevante din baza de date:

,

unde este setul de documente relevante din baza de date și este setul de documente găsite de sistem.

Cade afară

Abandonul caracterizează probabilitatea de a găsi o resursă irelevante și este definită ca raportul dintre numărul de documente irelevante găsite și numărul total de documente irelevante din baza de date:

,

unde este setul Nu documentele relevante din baza de date și reprezintă setul de documente găsite de sistem.

Măsura F (măsura Van Risbergen)

Uneori este util să combinați precizia și amintirea într-o singură medie. În acest scop, media aritmetică nu este potrivită, deoarece, de exemplu, un sistem de căutare trebuie doar să returneze toate documentele pentru a asigura completitatea egală cu unul cu precizie aproape de zero, iar media aritmetică a acurateței și completității va fi nu. mai putin de 1/2. Media armonică nu are acest dezavantaj, deoarece cu o diferență mare a valorilor medii se apropie de minimul acestora.

Prin urmare, o măsură bună pentru evaluarea în comun a preciziei și a reamintirii este F-măsura, care este definită ca media armonică ponderată a preciziei Pși completitudine R:

De obicei F-masura se scrie sub forma

Când fie F- măsura acordă o greutate egală acurateței și completității și se numește echilibrat sau - măsura(se obișnuiește să se indice valoarea în indice), expresia pentru aceasta este simplificată

Folosind un echilibrat F-masurile nu sunt obligatorii: cu preferinta se da acuratetea, iar cu o greutate mai mare se da completitudine.

Vezi si

  • Atelier rusesc privind evaluarea metodelor de regăsire a informațiilor (ROMIP)

Note

Legături

Literatură

  • Baeza-Yates R., Ribeiro-Neto B. Găsirea modernă a informațiilor. - Addison-Wesley, 1999. - ISBN 0-201-39829-X
  • Manning C., Raghavan P., Schütze H. Introducere în regăsirea informațiilor. - Cambridge University Press, 2008. - ISBN 0-521-86571-9
  • Manning K., Raghavan P., Schütze H. Introducere în regăsirea informațiilor. - Williams, 2011. - ISBN 978-5-8459-1623-5
  • Lande D. V., Snarsky A. A., Bezsudnov I. V. Internetics: Navigare în rețele complexe: modele și algoritmi. - M.: Librocom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8

Fundația Wikimedia. 2010.