Piața rusă a tehnologiei informației: tendințe și previziuni. Interogări de căutare - perspective de dezvoltare

18.09.2020 Sfat

Pe vremea când dezvoltarea Internetului abia începea, cantitatea de informații disponibile era relativ mică și utilizatorii de internet erau puțini. În fazele inițiale ale dezvoltării rețelei, aceasta a fost folosită de angajații universităților și laboratoarelor de cercetare pentru a face schimb de informații între instituții. La acea vreme, căutarea de informații pe internet nu era relevantă, spre deosebire de astăzi.

Prima modalitate de organizare și sistematizare a accesului la resursele informaționale a fost crearea directoarelor site-urilor web. Au început să grupeze legăturile în funcție de subiecte specifice.

Pionierul în zonă a fost Yahoo, care a apărut în aprilie 1994. De-a lungul timpului, numărul de site-uri a crescut și Yahoo a adăugat o opțiune de căutare în director. Nu a fost un motor de căutare în sensul cel mai adevărat, deoarece domeniul de căutare era limitat la resursele directoarelor.

Ulterior, cataloagele s-au răspândit și au început să fie folosite peste tot, dar internetul nu a stat pe loc, ci a continuat să se dezvolte. Odată cu acesta s-au dezvoltat și metode de căutare. Pe acest moment directoarele aproape și-au pierdut popularitatea, acest lucru se explică prin faptul că un director modern, chiar dacă conține o cantitate uriașă de resurse, va putea oferi doar acces la o mică parte din informațiile conținute în rețea.

În zilele noastre, cel mai mare director de pe web este Open Directory Project, sau DMOZ, care conține informații despre 5 milioane de resurse, dar acesta este relativ mic în comparație, de exemplu, cu motorul de căutare Google, care conține aproximativ 8 miliarde de documente.

Un sistem de căutare cu drepturi depline a fost lansat abia în 1994, a devenit sistemul de căutare WebCrawler.

Un an mai târziu, în 1995, au apărut proiecte motoare de căutare AltaVista și Lycos. Unul dintre ei, AltaVista, în special, a deținut o poziție de lider în domeniul căutării timp de mulți ani.

Doi ani mai târziu, în 1997, studenții de la Universitatea Stanford, Sergey Brin și Larry Page, au dezvoltat motorul de căutare Google, care este liderul în căutarea astăzi.

Anul acesta a fost și anul în care a fost anunțată oficial crearea motorului de căutare rus Yandex, care este încă lider în segmentul în limba rusă al rețelei.

În momentul de față, există doar 3 motoare de căutare care au ajuns la nivel internațional: MSN Search, Yahoo și Google. Aceste sisteme au propriile baze de date și algoritmi de căutare. Majoritatea celorlalte motoare de căutare își folosesc rezultatele. Deci Mail.ru folosește baza de date Yandex, search.aol.com folosește Google, iar Lycos, AltaVista și AllTheWeb folosesc Yahoo.

Liderul de căutare pe internetul rus în acest moment este Yandex, urmat de Rambler, urmat de Google, Mail.ru, A port și KM.ru.

Motoarele de căutare au diferiți algoritmi de operare, iar pentru a ocupa o poziție bună în rezultatele căutării și pentru a atrage vizitatori vizați, trebuie să cunoașteți caracteristicile optimizării SEO pentru diferite motoare de căutare. De exemplu

Pentru a căuta în index, utilizatorul trebuie să formuleze o interogare și să o trimită motorului de căutare. Solicitarea poate fi foarte simplă, cel puțin ar trebui să fie compusă dintr-un cuvânt. Pentru a crea o interogare mai complexă, trebuie să utilizați operatori booleeni care vă permit să rafinați și să extindeți termenii de căutare.

Cei mai des utilizați operatori booleeni sunt:

  • AND - toate expresiile conectate de operatorul „ȘI” trebuie să fie prezente pe paginile sau documentele căutate. Unele motoare de căutare folosesc operatorul „+” în locul cuvântului ȘI.
  • SAU - cel puțin una dintre expresiile legate de operatorul „SAU” trebuie să fie prezentă în paginile sau documentele căutate.
  • NOT - expresia sau expresiile care urmează operatorului „NU” nu trebuie să apară pe paginile sau documentele căutate. Unele motoare de căutare folosesc operatorul „-” în loc de cuvântul NU.
  • URMAT DE - una dintre expresii trebuie să o urmeze imediat pe cealaltă.
  • NEAR - una dintre expresii trebuie să fie la o distanță de cealaltă nu mai mare decât numărul specificat de cuvinte.
  • Ghilimele - cuvintele cuprinse între ghilimele sunt tratate ca o expresie care poate fi găsită în document sau fișier.

Perspective pentru dezvoltarea motoarelor de căutare

Căutarea specificată de operatorii booleeni este literală - mașina caută cuvinte sau expresii exact așa cum au fost introduse. Acest lucru poate cauza probleme atunci când cuvintele introduse sunt ambigue. De exemplu, cuvântul englezesc „Bed” poate însemna un pat, un pat de flori, un loc în care peștii depun icre și multe altele. Dacă utilizatorul este interesat doar de unul dintre aceste sensuri, nu are nevoie de pagini cu un cuvânt care are alte semnificații. Este posibil să construiți o interogare de căutare literală menită să elimine valorile nedorite, dar ar fi bine dacă motorul de căutare însuși ar putea oferi asistență adecvată.

Una dintre opțiunile pentru modul în care funcționează un motor de căutare este căutarea conceptuală. O parte a acestei căutări implică utilizarea analize statistice pagini care conțin cuvinte sau expresii introduse de utilizator, pentru a găsi alte pagini care ar putea fi de interes pentru utilizatorul respectiv. Este clar că căutarea conceptuală necesită stocarea mai multor informații despre fiecare pagină, iar fiecare interogare de căutare va necesita mai multe calcule. În prezent, multe echipe de dezvoltare lucrează la îmbunătățirea eficienței și performanței acestor tipuri de motoare de căutare. Alți cercetători s-au concentrat pe o zonă diferită numită interogări în limbaj natural.

Ideea din spatele interogărilor în limbaj natural este ca utilizatorul să formuleze o interogare în același mod în care ar întreba persoana care stă lângă el, fără a fi nevoit să țină evidența operatorilor booleeni sau a structurilor complexe de interogare. Cel mai popular site modern cu interogări de căutare în limbaj natural este AskJeeves.com, care analizează interogarea pentru a identifica Cuvinte cheie, care sunt apoi folosite pentru a căuta în indexul site-ului construit de motorul de căutare. Site-ul menționat funcționează doar cu interogări simple de căutare, dar dezvoltatorii, într-un mediu extrem de competitiv, dezvoltă un motor de căutare în limbaj natural care poate gestiona interogări foarte complexe.

ACADEMIA TEHNOLOGICĂ DE STAT KOVROV

Informații și referințe analitice despre informatică

pe tema: „Motoare de căutare moderne, tendințe de dezvoltare ale unuia dintre liderii pieței Yandex”.

Completat de: student anul I

3 grupe academice

Makarov Ivan

Introducere. 3

Parte principală. 4

Concluzie. unsprezece

Introducere.

Yandex este o companie IT rusă care deține sistemul de căutare pe internet cu același nume și un portal de internet. Motorul de căutare Yandex este al optulea cel mai mare site de căutare din lume în ceea ce privește numărul de interogări de căutare procesate (1,290 miliarde, statistici pentru august 2009) și al doilea cel mai mare motor de căutare non-englez după chinezul Baidu.

Site-ul companiei a fost deschis pe 23 septembrie 1997. 2000 este anul înființării companiei Yandex. Fondatorul Yandex este CompTek (compania care a dezvoltat motorul de căutare Yandex și i-a oferit sprijinul). Compania a ajuns la autosuficiență în 2002, cifra de afaceri pentru 2006 a fost de 72,6 milioane de dolari, profitul net - 29,9 milioane, pentru 2005 - 35,6 milioane de dolari, profitul net - 13,6 milioane de dolari.

Direcția principală și prioritară a companiei este dezvoltarea unui motor de căutare, dar de-a lungul anilor, Yandex a devenit un multi-portal. În 2009, Yandex a inclus peste 30 de servicii. Cele mai populare sunt: ​​Yandex.News, Yandex.Photos, Yandex.Toys și altele.

Sediul principal al companiei este situat în Moscova. Compania are birouri în Sankt Petersburg, Ekaterinburg, Odesa, Simferopol și Kiev. La mijlocul lunii iunie 2008, compania a anunțat deschiderea Yandex Labs, un birou în SUA, California.

Parte principală.

Istoria înființării companiei.

Motorul de căutare Yandex.Ru a fost anunțat oficial pe 23 septembrie 1997 la expoziția Softool. Principalele caracteristici distinctive ale Yandex.Ru la acea vreme erau verificarea unicității documentelor (cu excepția copiilor în diferite codificări), precum și proprietățile cheie ale motorului de căutare Yandex, și anume: luarea în considerare a morfologiei limbii ruse (inclusiv căutarea după forma exactă a cuvântului), căutarea luând în considerare distanțe (inclusiv în cadrul unui paragraf, fraza exactă) și un algoritm atent dezvoltat pentru evaluarea relevanței (respectarea răspunsului la interogare), luând în considerare nu numai numărul de interogări cuvintele găsite în text, dar și „contrastul” cuvântului (frecvența lui relativă pentru un document dat), distanța dintre cuvinte și poziția cuvântului în document.

Puțin mai târziu, în secțiunea „Basme” (observații despre conținutul internetului rusesc), a apărut primul basm Runet - „Web - umanism sau chernukha?” Și în secțiunea „Numere” există prima estimare a volumului Runetului, 5 mii de servere și 4 GB de texte.

Două luni mai târziu, în noiembrie 1997, a fost implementată interogarea în limbaj natural. De acum înainte, puteți pur și simplu să accesați Yandex.Ru „în rusă”, să adresați interogări lungi, de exemplu: „de unde să cumpărați un computer”, „produse modificate genetic” sau „internațional comunicare telefonică» și primiți răspunsuri corecte. Lungimea medie a unei interogări în Yandex.Ru este acum de 2,7 cuvinte. În 1997, era de 1,2 cuvinte, apoi utilizatorii motoarelor de căutare s-au obișnuit cu stilul telegraf.

În 1998, Yandex.Ru a introdus capacitatea de a „găsi un document similar”, o listă de servere găsite, de a căuta într-un anumit interval de date și de a sorta rezultatele căutării în funcție de timp ultima schimbare. În acest an, „volumul” internetului rusesc s-a dublat, ceea ce a condus la necesitatea de a optimiza motoarele de căutare. Atât atunci, cât și acum (cu un volum de 200 GB), viteza de căutare pe Yandex.Ru este o fracțiune de secundă.

Pe parcursul anului 1999, Runet a crescut cu un ordin de mărime, atât în ​​volumul de texte, cât și în numărul de utilizatori. Acesta a fost un an de dezvoltare rapidă pentru Yandex.Ru. Noul robot de căutare a făcut posibilă optimizarea și accelerarea accesării cu crawlere a site-urilor Runet. Astăzi, baza de căutare a Yandex.Ru este de două ori mai mare decât cea a concurenților săi cei mai apropiați.

Noul robot a făcut posibilă oferirea utilizatorilor noi oportunități - căutare în diferite zone de text (titluri, linkuri, adnotări, adrese, subtitrări pentru imagini), limitând căutarea la un grup de site-uri, căutarea după linkuri și imagini și, de asemenea, evidenţierea documentelor în limba rusă. A apărut o căutare pe categorii de catalog și pentru prima dată în Runet a fost introdus conceptul de „index de citare” - numărul de resurse care fac referire la una dată.

Pe parcursul anului s-au continuat lucrările privind analiza cantitativă și calitativă a Runetului. A fost deschis indicele NINI (indicele „Inconstanța intereselor populației de internet”), care arată dinamica schimbărilor în interesele utilizatorilor de internet. S-a deschis Forumul de căutare și un nou serviciu - solicitați abonament, adică puteți lăsa solicitarea pe Yandex.Ru și puteți primi periodic informații prin e-mail despre apariția documentelor noi și/sau modificate care corespund acestei solicitări. Până la începutul anului școlar, „Familia Yandex” a fost deschisă, eliminând rezultatele căutării din obscenități și pornografie.

Originea cuvântului "Yandex".

Astăzi, „Yandex” este un cuvânt din viața de zi cu zi a unui utilizator de internet. Pe internet vezi adesea „Ce, Yandex a fost deja anulat?”, „Singurătatea este atunci când Yandex este primul care te felicită de ziua ta”, „Toate întrebările către Yandex”. Mulți oameni cred deja că așa a fost întotdeauna. Într-un fel, acest lucru este adevărat - Yandex a apărut într-adevăr simultan cu internetul în masă, când accesul la rețea a încetat să fie lotul specialiștilor tehnici selectați. Dar cuvântul „Yandex” în sine este artificial, are proprii săi autori și propria sa istorie.

În 1993, Arkady Volozh, viitorul director general al viitoarei companii Yandex, și Ilya Segalovich, viitorul director de tehnologie al companiei, au dezvoltat, după cum s-a dovedit mai târziu, principala tehnologie - căutarea informațiilor nestructurate ținând cont de rusă. limba.

Dezvoltarea trebuia să se numească ceva. Ilya își amintește cum a scris într-o coloană diferite derivate ale cuvintelor care descriau sensul tehnologiei. Destul de repede a devenit clar că căutarea („căutare”) în rusă sună prea disonantă și nu poți face o combinație de succes pe baza ei. Cuvântul index era mai potrivit. Deci yandex a apărut în lista de nume - încă un indexator („un alt indexator” sau index de limbă). Atât Ilya, cât și Arkady le-a plăcut opțiunea - ușor de pronunțat, ușor de scris. În plus, Arkady a sugerat ca litera „I” din nume - în special rusă - ar trebui lăsată în limba rusă pentru claritate. Așa a fost inventat cuvântul „Yandex”. Și fișierul de program, în consecință, a fost numit yandex.exe.

În 1996, când pentru prima dată căutarea a fost oferită publicului larg ca tehnologie, și nu ca parte a unui produs de conținut (înainte de a exista Clasificarea Internațională a Invențiilor și Bible Computer Reference), linia de programe a fost numită Yandex și acest nume a fost explicat ca Language iNDEX. Primele programe din linie au fost Yandex.Site (căutați pe unul dintre propriile site-uri - acest produs se numește acum Yandex.Server) și Yandex.Dict (un prefix morfologic pentru AltaVista, singurul motor de căutare care în acel moment putea să funcționeze cumva). cu alfabetul chirilic) .

Dar, desigur, cuvântul „Yandex” a devenit larg răspândit din septembrie 1997, după lansarea motorului de căutare www.yandex.ru. De atunci, utilizatorii sistemului ne oferă interpretările lor. De exemplu, Tyoma Lebedev, pregătindu-se să deseneze prima versiune pagina principala Site-ul web Yandex a spus: „Oh, am înțeles, dacă primul „eu” din cuvântul index este tradus în rusă, va fi „eu”, adică se va dovedi a fi „Yandex”. Autorii au recunoscut sincer că nu s-au gândit la asta, dar este o interpretare bună și este acceptată. Apoi cineva de pe Internet a sugerat o altă opțiune, după ce a văzut două părți ale Internetului, INDEX și YANDEX. Acest cuvânt a dobândit deja derivate; de ​​exemplu, angajații Yandex sunt adesea numiți „Yandexoizi” și mai rar „oameni Yandex”.

Căutați „Yandex”.

Căutarea Yandex vă permite să căutați pe Runet, Uanet și Kaznet (din 14 octombrie 2009) documente în rusă, ucraineană, belarusă, română, engleză, germană și franceză, ținând cont de morfologia rusă și limbi englezeși apropierea cuvintelor dintr-o propoziție. De la începutul anului 2006, căutarea Yandex a fost instalată pe portalul Mail.ru.

Pe lângă paginile web în format HTML, Yandex indexează documentele în PDF (Adobe Acrobat), Rich Text Format (RTF), formate binare Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (bloguri și forumuri).

O caracteristică distinctivă a Yandex este capacitatea de a regla fin interogarea de căutare. Acest lucru se realizează printr-un limbaj de interogare flexibil. Deci, de exemplu, pentru o operație de excludere puteți specifica domeniul de aplicare: interogarea A ~~ B va găsi documente (pagini) în care A este prezent, dar B nu este prezent, iar interogarea A ~ B va găsi documente în care cuvântul B nu este prezent cu cuvântul A într-o propoziție. În mod similar, operatorul & caută combinații de cuvinte cheie într-o propoziție, în timp ce operatorul && caută întregul document.

Operator! vă permite să dezactivați morfologia pentru un anumit cuvânt, eh!! vă permite să specificați forma normală, ceea ce evită unele probleme asociate cu omonimia. De exemplu, interogarea!!Ivanov va găsi Ivanov și Ivanovs, dar nu Ivan.

În mod implicit, Yandex afișează 10 link-uri pe fiecare pagină de rezultate; în setările rezultatelor căutării, puteți crește dimensiunea paginii la 20, 30 sau 50 de documente găsite. Uneori, ordinea site-urilor de pe aceste pagini poate diferi, deoarece bazele de date pentru aceste rezultate nu sunt actualizate în același timp.

Dacă o interogare găsește o mulțime de link-uri, pagina de rezultate oferă limitarea intervalului de căutare - după regiune (adică după intervalul IP) sau după dată. Dacă nu se găsește nimic pentru un cuvânt sau cuvinte, se propune înlocuirea lui/le cu altele similare (întrucât opțiunile propuse depind de frecvența de a găsi cuvinte similare, uneori apar situații amuzante). De asemenea, se propune corectarea cuvintelor tastate cu tastatura greșită.

Din când în când, algoritmii Yandex responsabili de relevanța rezultatelor căutării se modifică, ceea ce duce la modificări ale rezultatelor interogărilor de căutare. Ultimele modificări anunțate oficial au avut loc în martie 2004, aprilie 2005 și ianuarie 2007; conform informațiilor neoficiale, sunt mult mai multe (de exemplu, ultima din august-septembrie 2007).

În special, aceste modificări sunt îndreptate împotriva spam-ului de căutare, ceea ce duce la rezultate irelevante pentru unele interogări (mai rar, pentru familii întregi de interogări). Moderarea semi-automată și manuală a rezultatelor căutării (folosind așa-numitele „optimizatoare de pălărie albă”), precum și refuzul direct de a indexa site-urile „răuțioase”, sunt folosite împotriva spam-ului de căutare care nu este eliminat automat.

Proprietari, management și indicatori de performanță.

Peste 30% din companie, conform datelor proprii, aparține fondurilor de investiții ru-Net Holdings și Baring Vostok Capital Partners, 15% fondului Tiger Technologies, aproximativ 30% fondatorilor companiei și 20% managerilor și managerilor. alți acționari minoritari.

La mijlocul lunii septembrie 2009, a devenit cunoscut faptul că compania-mamă a Yandex, compania olandeză Yandex N.V., a emis o acțiune prioritară, care a fost transferată către Sberbank pentru un euro simbolic. Singurul drept pe care îl oferă acțiunea este de a se opune vânzării a peste 25% din acțiunile companiei.

Management: Rkady Volozh - director general, Ilya Segalovich - director tehnic, Elena Kolmanovskaya - redactor-șef, Alexey Tretyakov - director comercial, Svetlana Kondrashova - director de publicitate.

Toate serviciile Yandex.

Preluare informatii:

Caută și ya.ru

Director - director de site-uri web sortate după index de citare. Este completat manual de editorii de catalog și există posibilitatea de înregistrare plătită.

Știri - Cele mai importante articole ale zilei, provenite de la instituțiile media principale găsite pe internet. Este posibil să căutați după știri, precum și să vă abonați la știri pentru o anumită interogare de căutare.

Yandex.XML - folosind acest serviciu puteți face interogări de căutare automate către Yandex în format xml.

Căutați bloguri și forumuri - căutați prin resurse care au reprezentare RSS, precum și evaluări ale interogărilor curente, categorii populare și știri.

Piata - cautare oferte de vanzare de bunuri si servicii, selectie de modele.

Căutarea „meditativă” este singurul serviciu de căutare din lume care are un buton „Găsiți”, dar fără bară de căutare.

Dicționare - enciclopedii, cărți de referință, dicționare-traducători.

Imagini - căutare de imagini.

Video - căutare video.

Hărți - hărți ale Europei și Rusiei, hărți ale marilor orașe ale Federației Ruse (exacte la casă), căutare pe hartă, precum și capacitatea de a „rătăci” pe străzile unor orașe. [sursa?]

Adrese - căutare informații de contact după numele companiilor și organizațiilor.

Poster - informații despre evenimentele disponibile: cinema, teatru, concerte, sport, cluburi etc.

Vremea - prognoza meteo.

Program TV - programe centrale, regionale și canale prin satelit TELEVIZOR.

Orare - orare trenuri și avioane.

Personalizat:

Yandex.Video - găzduire video și căutare video.

Mail - email.

Ya.ru este un serviciu de blogging.

Yandex.Photos - gazduire foto.

Apărare împotriva spamului - filtrarea spamului.

Oameni - găzduire gratuită pentru pagini personale de Internet, precum și un serviciu de stocare a fișierelor.

bani Yandex - sistem de plata, permițându-vă să plătiți pentru bunuri și servicii online.

Bookmarks este un sistem de stocare a marcajelor integrat cu Yandex. Bar."

Abonamente - abonament la știri.

Lenta - cititor RSS online

Yandex.Direct este un sistem de plasare a reclamelor contextuale cu plata prin clicuri.

Cup - competiții obișnuite de căutare pe Internet.

Orașe - indexuri de internet ale orașelor rusești.

Tarif - căutare după tarifele furnizorilor de internet.

Cărți poștale

Primavara - generare automata de eseuri filosofice.

Internet - măsoară viteza conexiunii la Internet.

Mirror - Oglindă a principalelor distribuții de sistem de operare Linux, precum și FreeBSD și alte proiecte.

Yandex. Rețea locală - oferă posibilitatea de a utiliza toate serviciile Yandex nu la nivel federal, ci la tariful local.

Metrics - vă permite să măsurați traficul, să analizați comportamentul utilizatorilor și să evaluați eficacitatea campaniilor de publicitate.

Produse software:

Filtru de spam Apărare împotriva spamului pentru uz corporativ (plătit).

Un program pentru căutarea fișierelor Yandex Desktop Search pe un computer.

Ya.Online program de mesagerie instantanee bazat pe Jabber. Vă permite să primiți și notificări despre noile e-mailuri de la Yandex. E-mail despre evenimente noi de pe site-urile Odnoklassniki.ru și VKontakte.

Programul Punto Switcher este un comutator automat de layout.

Widgeturi pentru săli de operație sisteme Mac OS X și Windows Vista, și, de asemenea, pentru browser Opera: Căutare, Trafic, Ceas, Știri.

Yandex ICQ este o versiune specială a clientului ICQ cu simboluri și integrarea unor servicii de la Yandex.

Fapte interesante.

1) Lungimea medie a unei cereri în Yandex.Ru este acum de 2,7 cuvinte. În 1997, era de 1,2 cuvinte, apoi utilizatorii motoarelor de căutare s-au obișnuit cu stilul telegraf.

2) Yandex a apărut înaintea www.yandex.ru. Cuvântul Yandex a fost inventat în 1993 și a fost pronunțat public în 1996 și atunci nu a însemnat o companie sau un motor de căutare, ci o tehnologie de căutare pe propriul server și un prefix morfologic al motorului de căutare Altavista.com.

3) www.yandex.ru a fost lansat pentru a demonstra capacitățile tehnologiei Yandex; nimeni nu s-a gândit să câștige bani din publicitate.

4) Sloganul „Totul poate fi găsit” a fost inventat în 2000. În același an, Yandex a lansat prima reclamă pentru un site de internet la televiziunea rusă.

5) Potrivit Yandex însuși, aproximativ 80% din audiența sa este din Rusia, aproximativ 3% din Europa și puțin peste 1% din SUA.

6) Unii dintre angajații de asistență tehnică Yandex operează sub pseudonimul colectiv „Platon Shchukin”.

Concluzie.

Deci acum avem informatii complete despre Yandex. Știm cine îl conduce, cum funcționează din interior, care este istoria dezvoltării companiei și multe altele. Acum putem înțelege cu ușurință de ce Yandex este lider pe piețele rusești și globale. Cred că principalul motiv pentru succesul Yandex este că motorul de căutare face față bine complexității limbii ruse. Acesta este motivul pentru care motoarele de căutare care au fost dezvoltate pentru limba engleză nu pot indexa și clasifica și documentele în limba rusă. Al doilea avantaj pe care îl văd sunt sloganurile creative, prietenoase, vesele cu care Yandex atrage utilizatorii să folosească serviciile sale. Imaginile tematice pe care Yandex le plasează lângă bara de căutare sunt mult mai accesibile utilizatorului rus.

, tendinţă Creșterea numărului de propuneri va continua. Cei prezenti azi piaţă plata electronica sisteme... Mai mult unu eveniment de referință: Paycash a încheiat un acord cu cel mai mare motor de căutare sistem ...
  • Districtul Federal Volga: modern starea si perspectivele dezvoltare(folosind exemplul Republicii Tatarstan)

    Lucrări de curs >> Economie

    ... tendinte mai departe dezvoltare. ... lider. ... dezvoltare unu din cel mai important... complex motor de căutare si acrobatica... piaţă. Dezvoltare ... modern tehnologii, echipamente de înaltă performanță, modern...supertoxicante; - dezvoltare sisteme monitorizarea terenului...

  • Modern probleme sociologice ale culturii fizice şi sportului

    Rezumat >> Sociologie

    Pentru a populariza politica lideri, partide, ... subiect-obiect agregat sistem socio-pedagogice... creative motor de căutare Activități... piaţă si statul. Piaţă ... Tendințe dezvoltare modern Mișcarea olimpică Rusia este unu din ...

  • Tendințe dezvoltare industria petrolului în economia globală

    Rezumat >> Economie

    Lume piaţă ulei: tendinte dezvoltareși... deja efectuate căutare-lucrari de explorare, ... Evaluare preliminara. Liderîn consumul mondial... este unu din elemente esentiale modern economic mondial... economic global sistem, pe parcursul...

  • Cu abordarea tradițională a organizării, atunci când funcțiile specializate sunt introduse una după alta, ca într-o cursă de ștafetă, eficiența ridicată este de neatins. Reacția la schimbările externe necesită o cooperare constantă între diferitele departamente și servicii specializate. Prin comunicarea și schimbul constant de informații, aceștia pot acționa rapid, consecvent și simultan într-o varietate de direcții. Tehnologia de informație extrem de util în cazul unui astfel de proces coordonat.


    Orez. 3.2.

    Utilizarea IT vă permite să schimbați radical stilul de management și procesele de afaceri în sine și să îmbunătățiți semnificativ indicatorii cheie de performanță ai companiei (Fig. 3.2). Vechile reguli de a face afaceri devin rapid depășite. Companiile care nu „văd” semnificația acestor schimbări riscă să rămână cu mult în urmă (Tabelul 3.2).

    Tabelul 3.2. Tehnologiile informației schimbă modul în care operează companiile
    Regula anterioară Regulă nouă Tehnologie
    Informațiile pot apărea într-un singur loc, la un moment dat Informațiile pot apărea și pot fi solicitate oriunde, în orice moment - atunci când este nevoie Baze de date distribuite și depozite de date, motoare de căutare, tehnologii pentru căutarea datelor specificate
    Munca complexă de evaluare a situațiilor poate fi realizată doar de experți Munca unui expert poate fi efectuată de un specialist generalist Sistem expert
    Este necesar să alegeți între centralizare și descentralizare Puteți beneficia simultan de o combinație a două forme de organizare a managementului și producției Munca distribuită în grupuri, telecomunicatiiși rețele
    Toate deciziile sunt luate numai de manageri superiori și manageri responsabili Luarea deciziilor devine parte a muncii fiecărui angajat responsabil de domeniul său de activitate Instrumente de sprijin pentru decizii, acces la baze de cunoștințe și depozite, sisteme de cunoștințe
    Pentru a căuta, primi, analiza, stoca și transmite informații, sunt necesare spații special echipate Experții pot trimite și primi informații de oriunde s-ar afla Tehnologii Internet/Intranet, fibra optica si sisteme prin satelit comunicații, sisteme mobile
    Cel mai bun contact cu cumpărătorul este contactul personal Contact mai bun cu un potențial cumpărător - studiu eficient al caracteristicilor cumpărătorului Interacțiune interactivă, baze de date, sondaje și sisteme de preferințe
    Pentru a găsi o anumită entitate, trebuie să știi unde se află Entitățile vă spun unde sunt Sisteme de căutare. Sisteme de agent mobil
    Planurile realizate nu sunt revizuite sau sunt revizuite sub presiunea forței majore Planurile sunt revizuite și ajustate prompt, după cum este necesar și adecvat cerințelor consumatorilor. Sistem expert, sisteme flexibile de planificare și management al riscului, calculatoare de înaltă performanță

    Departamentele IT din companii și corporații a început să preia roluri principale. Acest lucru a fost facilitat de trei factori care au apărut pe deplin în anii 1990:

    • nevoile afacerii au început să pună o presiune tot mai mare asupra departamentelor analitice și IT pentru a-și spori contribuția la performanța generală a companiei;
    • Paradigma informatică a muncii de calcul, axată pe calculatoare mari și centre de calcul puternice cu personal imens, devine învechită și este înlocuită de o nouă paradigmă - calcul distribuit(rețele și clustere), care, la rândul său, duce la crearea de noi IT;
    • reorientarea de la tehnologie la consumator a dus la necesitatea unei restructurari psihologice a managerului si la formarea unei noi discipline - planificarea strategica pentru dezvoltarea IT-ului corporatist care sa combine strategia de business cu strategia informatica.

    Ca urmare a acestui fapt, componentele afacerii în sine s-au schimbat (Tabelul 3.3):

    Tabelul 3.3.
    Dinamica dezvoltării afacerii S-a accelerat
    Planificare strategicași obiective tactice Raza mărită și exactitatea prognozei
    Spațiu operațional Domeniul de aplicare s-a extins
    Managementul riscurilor Modelarea si optimizarea situatiei
    Flexibilitatea managementului Manevrarea rapidă a resurselor
    Competitivitate Extinderea excelenței existente în întreaga afacere

    Această atitudine față de IT și rolul său în afaceri ne obligă să reconsiderăm răspunsul tradițional la întrebarea „Care este scopul principal al tehnologiei informației?” Răspunsul anterior, care a îndeplinit cerințele anilor 1980-1990, - „Creșterea productivității muncii, economisirea finanțelor, căutarea de noi forme de interacțiune” - se referă în prezent la modalități de a realiza operațional și tactic beneficii.

    Rolul strategic al IT V lumea modernă- să contribuie la management, să răspundă în mod adecvat la dinamica pieței, să creeze, să mențină și să aprofundeze avantajul competitiv (Competitive Advantage) pentru a extrage beneficii maxime!

    Starea actuală a IT poate fi caracterizată prin următoarele prevederi:

    • prezența unui număr mare de sisteme și platforme software și hardware pentru management eficientși suport pentru producție, baze de date funcționale industrial și depozite de cunoștințe pe scară largă care conțin informații despre toate domeniile de activitate ale companiei;
    • prezența tehnologiilor care oferă acces interactiv la informații și resurse pentru orice utilizator - baza tehnică pentru aceasta este deschisă (gratuit) și sisteme corporative cautare de informatii(Sisteme de recuperare a informațiilor - IRS), sisteme de comunicații guvernamentale și comerciale, rețele de informații și computere globale (Global Network Systems), naționale (NNS) și regionale (RNS); acorduri internaționale, standarde și protocoale de schimb date;
    • extinderea funcționalității IT care asigură funcționarea distribuită a bazelor de date și a depozitelor de date cu date de diverse structuri și conținuturi, documente multi-obiect, hypermedia; crearea de sisteme informatice locale și integrate orientate către probleme pentru diverse scopuri, bazate pe servere puternice și rețele locale;
    • includerea în IS a interfețelor de utilizator specializate pentru interacțiunea cu sistem expert(Expert System - ES), sisteme de sprijinire a deciziei (Decision Support System - DSS), sisteme de sprijinire a execuției (Executive Support System - ESS), sisteme traducere automată(Translating Computer System - TCS) și alte tehnologii și instrumente.

    Există cinci tendințe principale în dezvoltarea IT.

    1. Globalizarea. Companiile pot folosi IT pentru a desfășura afaceri pe piața globală, oriunde, primind imediat informații complete. Se întâmplă internaţionalizare softwareși piața produselor informaționale. Obținerea de beneficii prin răspândirea continuă a costurilor cu informațiile pe o regiune geografică mai extinsă devine un element esențial al strategiei.
    2. Convergenţă. Diferențele dintre produsele și serviciile industriale, produsele informaționale și mijloacele de obținere a acestora, precum și utilizarea lor profesională și de zi cu zi sunt șterse. Transmisia și recepția semnalelor digitale, audio și video sunt combinate în aceleași dispozitive și sisteme.
    3. Creșterea complexității produselor și serviciilor informaționale. Produsul informațional sub formă de software și hardware, baze de date și depozite de date, servicii de operare și suport de experți tinde să se dezvolte constant și să devină mai complex. În același timp, interfața IT, în ciuda complexității sarcinilor în curs de rezolvare, este în mod constant simplificată, făcând interacțiunea interactivă dintre utilizator și sistem din ce în ce mai confortabilă.
    4. Interoperabilitate(Interoperabilitate). Problemele de schimb optim de date între sistemele informatice informatice, între sistem și utilizatori, problemele de prelucrare și transmitere a datelor și de formare a informațiilor necesare au dobândit statutul de probleme tehnologice de vârf. Software și hardware modern și protocoale de schimb datele fac posibilă rezolvarea lor într-o manieră din ce în ce mai completă.
    5. Eliminarea legăturilor intermediare(Dezintermediere). Dezvoltarea capacității de a interacționa duce în mod clar la simplificarea livrării unui produs de informare către consumator. Lanțul de intermediari devine inutil dacă este posibil să plasați comenzi și să primiți ceea ce este necesar direct cu ajutorul IT.

    În ceea ce privește afacerile, aceasta înseamnă următoarele:

    • implementarea procesării distribuite a datelor, atunci când la locul de muncă există suficiente resurse pentru obținerea și analiza informațiilor;
    • crearea de sisteme de comunicații dezvoltate, când locurile de muncă sunt combinate cât mai rapid posibil redirecționarea mesajelor;
    • eliminarea interferențelor în sistemul de integrare „organizație – mediu extern”, acces direct la global fluxurile de informații;
    • crearea si dezvoltarea sistemelor electronice de comanda si tranzactionare;
    • suport pentru rețelele sociale.

    Modificările cerinţelor pentru grupurile de interese din IT şi cultura informaţiei companiile sunt determinate de dinamica dezvoltării întreprinderilor și a mediului extern și conduc la schimbări funcționale în sistemul de management. Aspecte cheie această dezvoltare și impactul lor asupra rolului IT în managementul întreprinderilor sunt următoarele [Müller-Stevens G., Aschwanden S. Problems of management theory and practice, No. 1, 1998].

    De la prelucrarea datelor la managementul cunoștințelor

    Nu mai este necesar să se considere IT-ul doar ca mijloc de prelucrare a datelor. Cu ajutorul tehnologiei, este necesară extragerea informațiilor din date pentru nevoile utilizatorului, iar problema „supraîncărcării informaționale” care apare în acest sens necesită mijloace moderne, de mare viteză de selectare, prelucrare ulterioară și actualizare a informațiilor. În același timp, ar trebui să se ia în considerare problema interfețelor viabile din punct de vedere comercial și ușor de utilizat, precum și interacțiunii cunoștințelor partajate între unitățile organizaționale și partenerii de cooperare.

    Integrare rapidă în rețea sisteme locale cu structuri regionale și chiar internaționale duce la abandonarea domeniilor clasice de lucru ale informaticii și atragerea pe scară largă a fondurilor telecomunicatii. Din punct de vedere organizațional, acest lucru duce la o „încețoșare” a granițelor informaționale ale întreprinderii. Devine din ce în ce mai dificil să stabilim unde începe și unde se termină. Crearea și funcționarea unei structuri de comunicare adecvate pentru astfel de „întreprinderi virtuale” este o sarcină de management al informațiilor, la fel ca și funcția clasică de susținere a procesului de producție sau de dezvoltare a produselor și serviciilor bazate pe IT. Ideea aici nu este doar procesarea informațiilor, ci și în distribuirea şi utilizarea raţională a cunoştinţelor. Cunoașterea ar trebui să aducă profit și, dacă se poate, astăzi!

    În plus, angajații și managerii întreprinderii trebuie să țină cont la nivel profesional de toate aspectele noi și importante pentru IT. Un exemplu este problema semnificației tehnologice și economice a tehnologiilor Internet/Intranet. Este serviciul de tehnologie a informației care poartă responsabilitatea creării unei platforme pe care să fie posibil managementul corporativ, inclusiv pregătirea calificată (inclusiv psihologică) a personalului.

    Descentralizare și nevoi de informare în creștere

    Accentul pe proximitatea maximă față de client a impus întreprinderilor să treacă la structuri orizontale, descentralizate. Luarea deciziilor în condiții de descentralizare a dus la o creștere accentuată a nevoii de informații privind procesul de producere a bunurilor si serviciilor. Era nevoie de o cunoaștere mai detaliată a terțului cu starea de fapt în domeniile și sistemele economice relevante. implementarea calitatii produs. În noul mediu, furnizarea de informații în toate domeniile trebuie să funcționeze impecabil.

    Utilizarea IT este concepută pentru a nivela complexitatea organizațională a întreprinderii. Anterior, acest lucru se realiza prin bazarea pe calculatoare pentru calcule complexe și volume foarte mari de procesare a documentației. Acum vorbim despre modul în care complexitatea din ce în ce mai mare a modelelor orizontale și verticale de relații (ale căror structuri, la rândul lor, sunt în continuă schimbare) sunt îmbunătățite cu ajutorul noilor tehnologii de comunicare.

    Anterior, întreprinderile instalau centre de calcul puternice care pregăteau un număr mare de rapoarte digitale, pe baza cărora activitățile comerciale erau gestionate ulterior. Acum sarcina serviciilor IT ale companiei este să dezvolte o tehnologie cu care să fie posibil să ținem constant la curent cu evenimentele managerilor și partenerilor acestora care iau decizii într-un mediu descentralizat. Noile sisteme informatice ar trebui să ofere nu un sistem economic abstract, ci parteneri specifici care participă la procesul economic sub diferite forme.

    Integrarea sistemelor descentralizate

    Informațiile din întreprinderi sunt procesate într-o mare varietate de sisteme, adesea fără legătură între ele. Fă-le disponibile pe scară largă pentru toți angajații (precum și partenerii externi) și, prin urmare, facilitarea luării deciziilor creative poate fi factor critic de succes pentru multe afaceri. În același timp, integrarea verticală și orizontală a sistemelor de tehnologie a informației apărute în condiții de descentralizare pare aproape imposibilă. În orice caz, în domeniile IT clasice nu există experiență în acest sens. Cu toate acestea, integrarea trebuie să aibă loc.

    Stabilirea unui astfel de obiectiv este necesară pentru managementul de vârf pentru un management real al schimbării. O pârghie organizatorică în realizarea acestui lucru poate fi grupurile virtuale, de proiect și de lucru, unite de interese comune în realizarea proiectelor curente și rezolvarea problemelor pe termen lung. Poate că astfel de grupuri vor putea chiar să gestioneze eficient funcțiile departamentelor distribuite ale companiei și activitățile IT care le însoțesc. Scopul în acest caz ar putea fi o abordare de integrare a proceselor tehnologice, sociale, funcționale și economice interconectate ale companiei.

    Investiții și riscuri

    Investițiile IT astăzi au numeroase implicații. Pe de o parte, deschid anumite perspective, dar, pe de altă parte, pot priva întreprinderea de oportunități promițătoare în viitor din cauza dependențelor asociate cu schimbări tehnologice rapide și „blocare” la orice tehnologie sau un anumit furnizor. . Prin urmare, deciziile cu privire la investițiile IT nu ar trebui luate până când riscurile utilizării anumitor instrumente informatice și de telecomunicații nu au fost evaluate și nu au fost obținute sfaturi profesionale pe ce cale va urma următoarea generație de tehnologie. Atunci când planificați investițiile de capital în IT, este imperativ să „ține cont” de obiectivul final al achiziției și implementării acestora - cât de mult va contribui IT-ul la implementarea strategiei de afaceri a întreprinderii.

    Factorul psihologic și nivelurile de limbaj

    Desigur, noua tehnologie crește productivitatea și ajută compania să obțină rezultate mai bune în afaceri. Împreună cu aceasta, managerii trebuie să fie conștienți de modul în care oamenii folosesc tehnologie nouă. Firmele care fac acest lucru mai bine se pot aștepta la profituri mai mari ale investițiilor lor IT.

    Furnizorii IT și echipele de integrare trebuie să învețe să facă propuneri în mai mult decât termeni tehnici. În timpul negocierilor, partenerul va ridica probleme de importanță fundamentală pentru conducerea superioară a companiei sale. Este important aici ca ambele părți să ajungă la un nou nivel de negociere când părțile vor vorbi aceeași limbă. În acest caz, nu vorbim de calitatea echipamentelor, ci de calitatea serviciilor din domeniul IT. Tehnologia, desigur, trebuie să funcționeze bine, să fie nivel inalt. În același timp, producătorul său trebuie să se simtă în pielea unui manager care, cu ajutorul IT-ului, se străduiește să obțină avantaje competitive. „Vânzătorul pur” din sistemul de vânzări IT devine un lucru al trecutului. O situație similară ar trebui să apară la întreprindere însăși, mai ales când vine vorba de producția multi-industrială sau de furnizarea unei varietăți de servicii. Capacitatea unui manager IT de a găsi un limbaj comun cu managerii de departamente ar trebui să înceteze să mai fie o artă solitară, ci să devină o practică de zi cu zi.

    Schimbul de informații în societate se realizează în principal sub formă de text. Prin urmare, nu este o coincidență că o proporție foarte semnificativă resurse informaționale Sistemele informaționale moderne constau din informații textuale. A început să se acorde multă atenție dezvoltării tehnologiilor eficiente pentru stocarea, procesarea și preluarea informațiilor text deja în stadiile incipiente ale dezvoltării sistemelor informaționale. Cercetarea activă și dezvoltarea practică în acest domeniu au început încă din anii 50 ai secolului trecut, de pe vremea când tehnologia computerelor oferea capacitatea de a introduce și scoate informații text.

    Dintre sistemele informatice care se ocupă de informații text, cele mai comune sunt sistemele de căutare text. Sarcina lor este să găsească în colecția stocată pe computer documente textîn limbaj natural astfel de documente care interesează utilizatorul.

    Dezvoltarea sistemelor de căutare a textului a fost stimulată în mare măsură de nevoile de suport informațional pentru cercetarea și educația științifică, precum și dezvoltarea sistemelor automatizate de bibliotecă. Cu toate acestea, în ultimii ani au fost folosite din ce în ce mai mult în managementul companiei și în multe alte domenii de activitate.Căutarea de informații cu ajutorul computerelor are o istorie de aproape jumătate de secol. Primele sisteme informatice automatizate au început să fie dezvoltate încă din anii 50 ai secolului trecut, iar funcția lor principală a fost tocmai căutarea informațiilor. Prin urmare, acestea au fost numite sisteme de recuperare a informațiilor (IRS).

    În funcție de natura resurselor informaționale suportate, aceste sisteme au fost de obicei împărțite în două categorii: faptice și documentare. IPS factual a funcționat cu fapte prezentate sub formă de entități din lumea reală și proprietățile acestora și a făcut posibilă găsirea de entități care au proprietăți specificate de utilizator, precum și proprietăți ale entităților specificate. Când tehnologia bazelor de date a început să apară la începutul anilor 1960, a devenit clar că această categorie de sisteme informaționale era un caz special al unui sistem de baze de date. Ca urmare, această direcție în domeniul regăsirii informațiilor a fost treptat „absorbită” de tehnologiile de baze de date.

    Sistemele de informații documentare sunt concepute pentru stocarea și preluarea documentelor care conțin texte în limbi naturale. Astfel de IRS reprezintă sisteme timpurii de căutare a textului.

    Sistemele de căutare a textului dezvoltate în această perioadă au fost numite descriptor IRS. În astfel de sisteme, conținutul fiecărui document text și al interogărilor de căutare ale utilizatorului este descris prin seturi de cuvinte sau expresii numite descriptori. În procesul de căutare, sistemul de regăsire a informațiilor funcționează nu cu documentele text în sine, ci cu „înlocuitorii” acestora, care în majoritatea sistemelor sunt create manual de către autorii documentelor, experți în domeniul documentelor și alte persoane. Potrivirea seturi de descriptori reprezentând documente în sistem cu un set de descriptori reprezentând o solicitare a utilizatorului face posibilă găsirea documentelor solicitate de utilizator. Descriptor IPS-urile au mecanisme de căutare relativ simple, dar calitatea căutării este relativ scăzută.

    Una dintre cele mai comune aplicații ale sistemelor de descriptori a fost căutarea bibliografică. Astfel de sisteme stochează colecții de descrieri bibliografice ale documentelor, iar sistemul permite găsirea publicațiilor unui anumit autor, publicațiilor publicate de o editură specificată și/sau publicate într-un anumit an etc. Multe IRS-uri de descriptori bibliografici sunt încă utilizate astăzi.

    În procesul de dezvoltare a tehnologiei informatice, computerele au achiziționat dispozitive memorie externa acces direct la un volum suficient de mare, performanța procesorului a crescut semnificativ. Acest lucru a făcut posibilă crearea și utilizarea practic a unor tehnologii mai avansate în sistemele de regăsire a informațiilor documentare, numite tehnologii de căutare full-text.

    Datorită capacității de a stoca și procesa texte complete ale documentelor în astfel de sisteme, a fost posibilă automatizarea în mare măsură a proceselor de analiză lingvistică și de căutare a documentelor. Au fost dezvoltate abordări pentru a automatiza compilarea unui număr de dicționare și tezaure utilizate în acest proces. În tehnologiile de căutare full-text, metodele statistice de analiză a documentelor ocupă un loc important. Inițial, sistemele full-text au oferit în principal căutare contextuală, de exemplu. căutați documente ale căror texte conțin o apariție a contextului specificat în cererea utilizatorului. Mai târziu, a fost folosită căutarea booleană. Au fost dezvoltate și diverse modele de căutare mai subtile.

    De-a lungul istoriei sistemelor de căutare a textului, cercetarea științifică în acest domeniu a fost activă. Dezvoltarea sistemelor de căutare a textului a fost foarte influențată de proiectele de cercetare inovatoare și de dezvoltarea de prototipuri experimentale de sisteme de căutare full-text realizate în anii 60 ai secolului trecut. Această perioadă se caracterizează prin progrese semnificative în diverse aspecte ale organizării sistemelor de căutare a textului și a metodelor utilizate în acestea. În prezent, evoluțiile promițătoare din zona luată în considerare sunt concentrate în jurul autoritarului conferinta Internationala prin căutare de text TRES (Text Retrieval Conference), înființată în 1992 în SUA de către Institutul Național American de Standarde și Tehnologie (NIST).

    Dezvoltarea activă a tehnologiilor de căutare a textului și nevoile informaționale ale utilizatorilor au stimulat transformarea sistemelor informaționale din sisteme de căutare a textului în sisteme de o clasă mai generală care se ocupă nu numai de documente text, ci și de documente care conțin informații de altă natură. În astfel de sisteme (se numesc multimedia), conținutul obiectelor lor de căutare - documente - este o combinație de resurse informaționale prezentate în diverse medii - elemente de text, imagini statice, date audio (lucrări muzicale, text rostit prin voce etc.) , desene animate , clipuri video etc.

    Probabil, pentru a face distincția între sistemele de căutare text și sistemele de căutare care operează aceste alte tipuri de resurse informaționale, în ultimii ani, alături de termenul de sistem de regăsire a informațiilor (Information Retrieval System), termenul de sistem de căutare a textului (Text Search System sau Text). Retrieval System) a început să fie utilizat. .

    Deoarece utilizatorii impun cerințe destul de mari asupra sistemelor de căutare text, tehnologii moderne Căutarea text a devenit o zonă sintetică extrem de complexă de cercetare și dezvoltare. Această zonă acoperă o gamă largă de probleme - de la teoria regăsării informațiilor până la metodele de satisfacere a nevoilor utilizatorilor pentru colectarea, organizarea, stocarea, preluarea și distribuirea informațiilor. Include, de asemenea, problemele furnizării de interfețe între utilizatori și instrumente de gestionare a resurselor pentru informații nestructurate sau semistructurate suportate într-un mediu informatic. Atât abordările analitice, cât și cele empirice sunt utilizate în sistemele de căutare a textului.

    Un loc semnificativ în tehnologiile de căutare a textului este ocupat de procesarea limbajului natural, de exemplu. rezolvarea computerizată a problemelor legate de înțelegerea, analizarea, efectuarea diverselor operații asupra textelor în limbaj natural, precum și generarea acestora. Această clasă de sarcini aparține domeniului inteligenței artificiale.

    Tehnologiile moderne de căutare a textului folosesc nu numai aparatul lingvistic pentru analiza textului, ci și metode statistice, logica matematică și teoria probabilității, analiza cluster, metode de inteligență artificială și tehnologii de gestionare a datelor.

    Lucrările la autostrăzile informaționale, în special legate de crearea de biblioteci digitale, care s-au desfășurat în multe țări din lume la mijlocul anilor 1990, au reînviat în mod semnificativ interesul pentru problemele căutării de text. Au apărut direcții complet noi, cum ar fi descoperirea informațiilor la nivel global rețea de calculatoare, căutare text pe Web, căutare multilingvă.

    De-a lungul istoriei sale de o jumătate de secol, dezvoltarea tehnologiilor de căutare a textului a făcut un pas uriaș de la cele mai simple sisteme de recuperare a informațiilor de descriptor la sisteme sofisticate de căutare full-text, de la motoarele de căutare la sisteme cu funcționalități mai bogate. Resursele sistemelor de calcul moderne fac posibilă stocarea unor volume uriașe de resurse de informații în sistemele de căutare a textului, pentru a efectua nu numai proceduri tehnice, ci și algoritmice complexe pentru procesarea colecțiilor stocate de documente - clasificarea acestora, gruparea, analiza aprofundată a textului , traducerea documentelor dintr-o limbă în alta etc. .d.

    Sistemele de căutare text au avut o influență semnificativă asupra formării unei clase specifice de sisteme informatice numite sisteme de management al documentelor, care sunt acum utilizate pe scară largă în multe companii comerciale mari și alte organizații. În astfel de sisteme, un rol important este acordat nu numai metodelor de procesare a limbajului natural create pentru lucrul cu documente text, ci și organizării dezvoltării în grup a documentelor, stocării, distribuției acestora și, desigur, tehnologiilor de căutare a textului.

    Dezvoltarea tehnologiilor de căutare a textului a continuat destul de intens în ultimii ani datorită cercetării și dezvoltării active efectuate în multe țări. A apărut o industrie a software-ului comercial pentru sistemele de căutare a textului. Astfel de sisteme sunt dezvoltate și utilizate pe scară largă în țara noastră.

    După cum sa menționat, tehnologiile de căutare a textului tratează informațiile prezentate în limbi naturale. Varietatea de conținut a unor astfel de informații este destul de mare - pot fi articole publicate în ziare și reviste, diverse manuale tehnice, rapoarte, cărți, disertații, scrisori, acte legislative etc.

    Unitatea de bază a informațiilor în sistemele de căutare a textului se numește document. Un document nu este o entitate juridică, ci o unitate de informații cu conținut complet, identificabilă în mod unic, prezentată în orice limbă naturală. La începutul IPS, un document era considerat o unitate atomică (indivizibilă). Pentru sistem, a acționat ca o „cutie neagră”. În sistemele de căutare de text mai avansate, conținutul documentului este disponibil sistemului pentru procesare și analiză.

    Sistemele de căutare a textului integral funcționează documente electronice, adică documente stocate în memoria computerului și disponibile pentru prelucrare automată. Analiza lingvistică computerizată și prelucrarea documentelor text sunt posibile numai dacă sunt disponibile în software elemente individuale document text. Prin urmare, este complet insuficientă scanarea unui document text pe hârtie și salvarea facsimilului rezultat în memoria computerului sub forma fisier grafic orice format. Este necesar să aveți documentul în formă digitizată, i.e. într-un astfel de format încât fiecare caracter al textului acestui document să fie accesibil programatic. Sistemul poate opera astfel pe elementele de conținut ale documentului digitizat. O reprezentare digitalizată a unui document text poate fi creată, de exemplu, utilizând:

    Scanarea acestuia de pe hârtie și utilizarea unui program de recunoaștere simboluri optice(Optikal Character Recognition - OCR);

    Generarea de text în mod programatic utilizând dispozitive de recunoaștere a vocii sau alte mijloace.

    Totalitatea documentelor stocate în sistem este numită diferit în sisteme diferite(matrice de căutare, arhivă etc.). Recent, termenul „colecție de documente” a fost adesea folosit în acest scop. Fiecare motor de căutare text poate, în general, să accepte mai multe colecții de documente diferite.

    Documentele sunt stocate într-un sistem de căutare text pentru a satisface nevoile de informare ale utilizatorilor. Prezentarea nevoilor de informații ale utilizatorului într-o formă care poate fi percepută software sistemul de căutare text se numește interogare de utilizator (sau doar o interogare). Componentă necesară Conținutul solicitării utilizatorului este o descriere a proprietăților pe care le au documentele de interes pentru utilizator. Este firesc să numim această descriere criteriul de căutare.

    Trebuie subliniat faptul că unitatea de granularitate a căutării, i.e. în majoritatea sistemelor de căutare text, cea mai mică unitate de informație care poate fi returnată utilizatorului ca urmare a procesării interogării specificate de acesta este documentul și nu orice porțiune a acestuia. De regulă, ca urmare a procesării unei cereri de utilizator, sistemul produce un set de documente rezultate care îndeplinesc criteriul specificat în cerere.

    Criteriile de căutare în interogările utilizatorilor pot lua diferite forme. De exemplu, acesta ar putea fi un set de termeni (cuvinte sau expresii) conținute în documentele solicitate sau termeni legați prin simboluri ale operatorului boolean. În acest din urmă caz, operatorul boolean este interpretat ca o condiție de apariție simultană (operatorul „ȘI”) a cuvintelor pe care le conectează în document, o apariție alternativă (operatorul „SAU”) sau absența apariției (operatorul „NU”). a termenului următor. În cazuri mai complexe, criteriul de căutare poate fi o propoziție în limbaj natural sau chiar un exemplu de document care satisface nevoile de informare ale utilizatorului. Analizând un astfel de document, sistemul va evidenția termeni pentru a forma o viziune „internă” a acestei solicitări a utilizatorului.

    Documentele stocate în sistem care corespund unei interogări de utilizator sunt numite relevante.

    Relevanța unui document nu trebuie neapărat evaluată în termeni de logică binară („da-nu”). Unele sisteme dezvoltate folosesc estimări mai subtile, care sunt calculate ca valori ale unei funcții numerice special selectate (funcția de relevanță), luând valori în intervalul . În astfel de cazuri, este oportun să vorbim despre gradul de relevanță al documentului, înțelegându-l ca valoare a acestei funcții. Unele sisteme de căutare text oferă utilizatorului un set de documente obţinute în urma procesării interogărilor, ordonând documentele în ordinea descrescătoare a relevanţei. Această aranjare a documentelor găsite se numește clasare. Utilizatorul poate analiza mai eficient setul clasat de documente cu rezultatele interogării. Cu mare probabilitate, documentele cele mai interesante pentru el dintre cele găsite se află la începutul listei de documente afișate.

    Din diverse motive, asociate, în special, cu dificultățile de automatizare a înțelegerii limbajului natural, precum și cu inexactitatea afișării nevoilor de informații ale utilizatorului în cerere, ca urmare a procesării cererii utilizatorului, a documentelor care nu îndeplinesc cerințele pot fi găsite nevoile de informare ale utilizatorului. Acest fenomen se numește zgomot informațional.

    Caracteristicile importante ale calității căutării în sistemele de căutare text sunt completitatea și acuratețea căutării. Completitudinea căutării determină raportul dintre numărul de documente relevante returnate ca urmare a procesării cererilor utilizatorilor și numărul de documente relevante disponibile efectiv în sistem. Proporția documentelor relevante din setul de documente de interogare rezultate poate fi utilizată pentru a cuantifica acuratețea căutării.

    2. Principiile căutării textului

    Să luăm acum în considerare principiile de bază ale construirii sistemelor moderne de căutare a textului. Varietatea tehnologiilor utilizate aici este cauzată de diferențele în abordările utilizate pentru a reprezenta semnificația documentelor stocate în sistem în limbi naturale și nevoile de informații ale utilizatorilor, precum și varietatea de criterii pentru relevanța documentelor la interogările utilizatorilor.

    Surse de complexitate în sistemele moderne de căutare a textului. Spre deosebire de tehnologiile sistemelor timpurii de regăsire a informațiilor, tehnologiile moderne de căutare a textului dezvoltate oferă o căutare a documentelor de interes pentru utilizator pe baza conținutului lor informațional și nu numai pe seturi de descriptori sau pe valorile oricăror atribute asociate acestora. documente (anul publicării, autor, editor etc.). Aceste atribute, deși pot fi, în special identificatori unici documente, dar nu depind în niciun fel de conținutul acestora.

    Principalele probleme ale tehnologiilor de căutare a textului sunt asociate cu complexitatea interpretării automate fără ambiguitate a conținutului textelor documentelor și cu formularea nevoilor de informații ale utilizatorilor în limbaj natural. Afirmațiile din limbajul natural conțin adesea ambiguitate și redundanță. Este necesar să se țină seama de sinonimia și omonimia termenilor, de varietatea formelor gramaticale ale elementelor de limbaj. Legăturile semantice dintre cuvintele dintr-o propoziție sunt adesea prezentate sub formă implicită. Vocabularul limbilor naturale este dinamic; concepte și termeni noi apar destul de des în multe domenii.

    Aceste caracteristici duc la absența oricărei structuri regulate în documentele text în limbaj natural. Prin urmare, datele care reprezintă resurse informaționale de această natură se numesc nestructurate.

    Compararea semantică a conținutului documentelor stocate în sistem și a interogărilor utilizatorilor exprimate în limbaj natural este o sarcină destul de dificilă. Aceasta explică dificultatea de a decide dacă documentul în cauză satisface nevoile de informații ale utilizatorului în sisteme moderne căutare text.

    Pentru gestionarea datelor de această natură, este necesar să se utilizeze o tehnică diferită de management al datelor decât în ​​sistemele de baze de date, deși unele dintre elementele de management al datelor utilizate în sistemele de baze de date sunt aplicabile și sistemelor de căutare text.

    Depunerea documentelor. Colecțiile de documente stocate în sistemele de căutare text pot fi destul de mari. Textele conținute în documente pot fi și ele destul de mari. Prin urmare, este nerealist să ne așteptăm ca un sistem de căutare de text să poată analiza textele complete ale documentelor stocate în procesul de procesare a cererilor utilizatorilor, chiar dacă acest sistem se bazează pe un computer foarte puternic. Performanța unui astfel de sistem nu ar fi foarte mare.

    Ieșirea este să lucrezi nu cu documentele în sine, ci cu niște reprezentări structurate ale conținutului lor, care se numesc vederi ale documentelor (în unele publicații sunt numite și reprezentanți ai documentelor). Utilizarea unei vizualizări a documentului în locul documentului în sine vă permite să evitați procesul de revizuire și analiză a întregului conținut al documentului în timpul etapei de căutare, care necesită timp, profitând în același timp de prezentarea structurată pentru a îmbunătăți eficiența căutării.

    Sistemele moderne de căutare a textului folosesc abordări diferite la construirea reprezentărilor documentelor stocate. Calitatea căutării - acuratețea, completitudinea, performanța și alte caracteristici - depinde în mod semnificativ de natura reprezentărilor documentelor utilizate. Întrucât documentele text introduse în sistem rămân, de regulă, neschimbate pe toată durata existenței lor în sistem, construcția unei reprezentări a fiecărui document disponibil în sistem poate fi realizată o singură dată în etapa de intrare a acestuia în sistem. sistem.

    Indexarea documentelor. O reprezentare a unui document este de obicei construită pe baza unui set de proprietăți (atribute) acelui document. ÎN sisteme simple Căutare text, aceste atribute, așa cum sa indicat deja, nu sunt deloc componente ale conținutului documentului. Astfel de atribute pot fi orice caracteristică externă (în raport cu textul documentului) ale documentului și nu este deloc necesar ca acestea să îl identifice într-un mod unic. Puteți, de exemplu, să utilizați numărul de înregistrare al unui document în arhivă, data înregistrării acestuia, numele organizației care este destinatarul documentului, o indicație a locației stocării acestuia etc. clasificatorii de documente sau elementele de metadate ale Dublin Core pot fi, de asemenea, utilizate ca astfel de atribute externe ale documentelor.

    Dublin Core (DC) este un set de elemente de metadate, al căror sens este descris verbal și înregistrat în specificația standardului care îl definește. În ceea ce privește semnificațiile acestor elemente, este posibil să se descrie conținutul diferitelor tipuri de documente text și documente prezentate în alte medii. O astfel de descriere va fi înțeleasă clar de către întreaga comunitate care utilizează DC pentru a prezenta documente și solicitările utilizatorilor.

    Centrul Dublin a devenit din ce în ce mai răspândit în ultimii ani. Atractivitatea acestei abordări este asociată cu simplitatea ei, care, desigur, are ca rezultat limitările capacităților sale.

    Versiunea originală a Dublin Core, care includea 13 elemente, a fost propusă la un simpozion desfășurat la Dublin (SUA) în 1995, organizat de On-line Computer Library Center (OCLC) și National Center for Supercomputing Applications (NCSA) pentru descrie resursele informaționale ale sistemelor bibliotecii, în special resursele informaționale web etc. Dezvoltarea Dublin Core este susținută de o organizație special înființată în acest scop - Dublin Core Metadata Initiative (DCMI).

    Versiunea actuală a specificațiilor Dublin Core, DC 1.1, a fost adoptată ca standard DCMI în 1999. Include 15 elemente de metadate. Acestea includ:

    Titlu (numele resursei);

    Creator (persoană, organizație sau serviciu responsabilă cu pregătirea conținutului resursei);

    Subiect (temă discutată în conținutul resursei);

    Descriere (descrierea conținutului resursei în formă liberă);

    Editorul (persoana, organizația sau serviciul care oferă acces la resursă);

    Contributor (alți participanți la pregătirea conținutului resurselor în afară de cei specificati în Creator)",

    Data (data creării sau acordării accesului la resursă);

    Format (natura reprezentării resursei);

    Limba (limbaj de prezentare a resurselor);

    Acoperire (zona de spațiu, timp etc. căreia îi aparține conținutul resursei);

    Drepturi (drepturi de proprietate intelectuală asupra unei resurse etc.). Acordul la care sa ajuns asupra compoziției elementelor de metadate ale Dublin Core fixează compoziția elementelor care îi aparțin. Cu toate acestea, la nivel verbal este dificil să atribuim fără ambiguitate un sens precis fiecăruia dintre ei. De exemplu, elementul Date poate avea semnificații diferite în cazuri diferite - data publicării unei pagini pe Web, data Ultima actualizare această pagină etc.

    Din acest motiv, în anul 2000, conceptul de calificative a fost propus pentru DMCI Dublin Core și a fost publicată compoziția inițială a acestora.

    Calificatorii sunt clarificatori ai semanticii elementelor de metadate Dublin Core și a semnificațiilor acestora în diferite cazuri specifice de utilizare a acestora. De exemplu, pentru elementul Date, puteți specifica că vă referiți la momentul în care a fost creată resursa, la momentul în care a fost disponibilă sau la timpul în care conținutul său este valabil și așa mai departe. Valoarea elementului Relație poate fi specificată să fie în format URL.

    Dacă un calificativ specificat pentru un element de metadate Dublin Core este necunoscut aplicației web, acesta va fi ignorat.

    Setul de calificatori adoptat de DMCI în 2000 include două categorii de calificatori: calificatori care specifică semantica elementelor metadatelor nucleului și calificatorii care definesc modul în care semnificațiile elementelor sale sunt codificate astfel încât acestea să poată fi interpretate adecvat.

    În prezent, se lucrează pentru a clarifica atât compoziția dată a setului de elemente de metadate, cât și calificatorii acestora. Pe baza specificațiilor DC 1.1, standardul național american ANSI/NISO Z39.85-2001 a fost adoptat în 2001.

    În sistemele de căutare contextuală full-text, atributele de prezentare a documentului sunt termeni extrași din conținutul său - cuvinte, expresii etc., sau valorile oricăror funcții special selectate calculate pe baza acestor termeni extrași.

    În orice caz, atributele asociate unui document care identifică documentul și/sau caracterizează conținutul acestuia se numesc proprietăți de indexare. Pe baza proprietăților de indexare ale documentelor într-un sistem de căutare text, se construiește o structură de date auxiliare care permite, pe baza valorilor acestora sau a valorilor unei anumite funcții care le folosește ca argumente, să se realizeze eficient (fără a vizualiza complet conținutul). de documente și fără a le enumera complet) detectează un document sau document în documentele colecțiilor de sistem cărora le corespund aceste atribute și, dacă este necesar, efectuează acces rapid la aceste documente. Această structură de date suport se numește index, iar procesul de atribuire a atributelor specificate unui document se numește indexare a documentelor.

    Sistemele timpurii de căutare a textului foloseau o reprezentare simplă a documentului, care era foarte populară datorită simplității sale, deși nu putea oferi o căutare de înaltă calitate. O astfel de reprezentare a fost un set de cuvinte sau expresii din vocabularul domeniului de subiect al sistemului, care caracterizează conținutul acestui document. Aceste cuvinte și expresii se numesc descriptori. Reprezentarea unui document în sisteme de descriptori se numește o imagine de căutare a documentului.

    IPS care utilizează abordarea luată în considerare se numesc sisteme descriptori. Astfel de sisteme sunt încă în uz astăzi. Indexarea unui document în ele se reduce la alocarea unui set de descriptori.

    Documentele pot fi indexate în sistemele de căutare text pe baza titlurilor, adnotărilor sau text complet. Se poate face manual de către autorii documentelor, experți în domeniul sistemului care pregătesc documentele pentru intrarea în sistem, sau automat prin mecanisme de sistem bazate pe analiza documentelor.

    Metodele de prezentare și indexare a documentelor în sistemele moderne de căutare de text dezvoltate utilizează proceduri de calcul destul de intense, astfel încât acestea pot fi implementate numai automat.

    Prezentarea cererilor utilizatorilor. Formarea reprezentărilor structurate ale conținutului interogărilor utilizatorilor este o altă sarcină importantă a sistemelor de căutare a textului. Așa cum în timpul procesului de căutare, sistemul operează cu reprezentări structurate ale documentelor în locul documentelor în sine, el folosește în loc de o interogare specificată de utilizator reprezentarea sa structurată, care este construită în procesul de procesare a acestei interogări. Reprezentarea interogării este construită pe aceleași principii ca și reprezentările documentelor din acest sistem, deoarece altfel nu ar fi comparabile.

    De exemplu, în sistemele de căutare a textului de descriptor, un set de descriptori care caracterizează conținutul interogării este, de asemenea, utilizat ca reprezentare a interogării. În astfel de sisteme, reprezentarea unei interogări se numește imagine de interogare de căutare.

    Criterii de relevanță a documentului. În procesul de procesare a unei cereri de utilizator, sistemul trebuie să evalueze relevanța următorului document luat în considerare. Pentru a rezolva această problemă, reprezentarea ei trebuie comparată după un anumit criteriu de relevanță (criteriul de proximitate) cu reprezentarea interogării.

    Tipul criteriului de proximitate depinde de abordarea utilizată în sistem pentru a genera vizualizări ale documentelor și interogărilor. Sistemele de descriptori folosesc de obicei criterii teoretice de mulțimi. De exemplu, un document este considerat relevant dacă setul de descriptori de imagine de interogare este un subset al setului de descriptori de imagine de căutare a documentelor. Alte variante ale criteriului - seturile specificate de descriptori sunt egale sau intersecția lor nu este goală. Sistemele avansate de căutare a textului utilizează criterii de proximitate mai complexe.

    Principii generale ale căutării textului. Sistemele moderne de căutare a textului utilizează o gamă destul de largă de abordări pentru prezentarea și indexarea documentelor stocate, prezentarea interogărilor utilizatorilor și evaluarea relevanței documentelor. Cu toate acestea, atât sistemele simple, cât și cele avansate folosesc unele principii generale organizație de căutare. Aceste principii generale sunt după cum urmează.

    Atunci când un document este introdus în sistem, documentul este indexat și se construiește reprezentarea lui, care va acționa apoi ca un substitut pentru acest document în timpul funcționării sistemului la procesarea cererilor utilizatorilor. Întrucât prezentarea documentului este suficient de formalizată, este eliminată necesitatea analizării textului integral al acestuia de fiecare dată când procesează cereri. Prezentarea documentului rămâne neschimbată pe toată perioada de existență a documentului în sistem, deoarece conținutul documentului nu se modifică.

    În plus, pe baza proprietăților de indexare a documentelor specifice primite din afara sistemului sau identificate de sistemul însuși prin analiza conținutului documentelor, sistemul generează și menține un index pentru fiecare colecție de documente stocate în el. De asemenea, asigură că indexul este actualizat atunci când colecția este adăugată sau, ceea ce se întâmplă relativ rar, atunci când documentele sunt eliminate din colecție.

    Când o solicitare de utilizator intră în sistem, o reprezentare corespunzătoare este, de asemenea, construită pentru aceasta. Metoda de construire a acestuia este similară cu cea utilizată pentru construirea vizualizărilor documentului.

    În sfârșit, căutarea în sine constă în faptul că într-un fel eficient (nu prin enumerare directă, ci de obicei cu ajutorul unui index organizat rațional al documentelor din colecție), o comparație a reprezentării interogării cu reprezentările documentelor stocate în sistemul se realizează după criteriul de proximitate adoptat de sistem. În unele cazuri, este introdusă o metrică specială pentru aceste circuite. Rezultatele procesării interogărilor sunt prezentate sub forma unui set de documente relevante găsite (setul de documente rezultat).

    Deși în practică sunt utilizate diferite tipuri de reprezentări ale documentelor și interogări ale utilizatorilor, principiile generale specificate ale căutării textului sunt utilizate într-o mare varietate de sisteme.

    3. Instrumente de suport lingvistic

    Când procesați documente full-text în sistemele de căutare de text, trebuie să vă ocupați de instrumente de procesare a limbajului natural. Aceste instrumente reprezintă o componentă funcțională destul de complexă și importantă a unor astfel de sisteme.

    Instrumentele de procesare a limbajului natural din sistemele de căutare a textului fac posibilă izolarea termenilor (cuvinte, expresii sau expresii) care își poartă conținutul din documentele text analizate și din interogările utilizatorilor, identificarea dependențelor dintre acești termeni, luarea în considerare a conexiunilor lor conceptuale în contextul unei domeniu dat, construiți pe această bază pentru prezentarea documentelor, transformați interogările de căutare ale utilizatorilor într-un formular convenabil pentru căutare și extindeți interogările pentru a crește caracterul complet al căutării.

    Pentru a îndeplini aceste funcții, majoritatea sistemelor din clasa în cauză folosesc complexe de instrumente de suport lingvistic. Un astfel de complex poate include diverse dicționare, tezaure, specificații ontologice ale domeniului de subiect al sistemului.

    Dicționare de sistem. Sistemele de căutare a textului care se ocupă de procesarea limbajului natural pot suporta dicționare de vocabular general al limbii și vocabular specific domeniului. Astfel de dicționare servesc pentru analiza morfologică a textului, pentru a asigura identificarea cuvintelor în diverse forme gramaticale în timpul procesului de căutare, precum și pentru construirea anumitor tipuri de reprezentări și interogări documentare.

    Tezauri. Dicționarele speciale numite tezauri joacă un rol important în analiza și formarea unei reprezentări formalizate a documentelor text. Un tezaur este un dicționar al conceptelor de bază ale unei limbi, notate prin cuvinte sau expresii individuale, cu anumite conexiuni semantice între ele.

    Un tezaur poate fi o limbă generală (de exemplu, tezaurul limbii ruse) sau axat pe un anumit domeniu. Vocabularul tezaurului include multe cuvinte și/sau multe fraze. Tipurile de conexiuni semantice acceptate între ele pot fi dependente sau independente de un anumit domeniu. De obicei, astfel de conexiuni definesc sinonime, omonime, antonime ale conceptelor de limbă, susțin relații între ele precum „întreg - parte”, „gen - specie”, „utilizat pentru”, „funcționează în”, etc.

    În prezent, sunt utilizate două metode de creare a tezaurilor - manuală și automată. Un tezaur, creat manual, poate fi universal, independent de o anumită colecție de documente. Cu toate acestea, din păcate, dezvoltarea manuală a unui tezaur este o sarcină foarte costisitoare, minuțioasă și consumatoare de timp, care necesită timp considerabil. Prin urmare, în practică, crearea automată a tezaurilor este adesea folosită. Metodele de rezolvare a acestei probleme au început să fie dezvoltate la începutul anilor 60 ai secolului trecut. Crearea automată a tezaurilor se realizează de obicei pe baza unor colecții date de documente text, prin urmare astfel de tezaure sunt concepute pentru a funcționa în mod specific cu aceste colecții.

    În sistemele care utilizează un tezaur, acesta permite, de exemplu, la căutarea după cuvinte cheie, să extindă interogarea pentru a include sinonime ale cuvintelor cheie specificate inițial de utilizator, oferind astfel o căutare mai completă. Sinonimele din document și din interogare pot fi identificate. Tezaurile sunt adesea folosite și în procesul de indexare manuală sau automată a documentelor.

    Ontologii. Pentru interpretarea adecvată de către utilizator și/sau sistem a conținutului documentelor text și a interogărilor de căutare prezentate în limbaj natural, sistemul trebuie să aibă un context care să definească conceptele de bază ale domeniului de studiu și diferitele tipuri de conexiuni semantice între acestea. Această descriere este independentă de documentele specifice conținute în colecțiile de sistem și reprezintă o specificație a conceptualizării domeniului de subiect al sistemului. Această specificație explicită se numește ontologie de domeniu. Ontologiile au devenit larg răspândite în ultimii ani într-o varietate de sisteme de informare bazate pe cunoștințe, în ingineria cunoașterii, în rezolvarea problemelor de integrare semantică a resurselor informaționale etc.

    Ontologia domeniului poate fi susținută într-un sistem cu diferite grade de formalizare. În cel mai simplu caz, se prezintă sub forma unei descrieri verbale. Apoi este destinat uzului uman în etapa de indexare a documentelor și la formularea interogărilor. Într-un caz mai complex, ontologia este prezentată într-o formă formalizată în limbaje de reprezentare a cunoștințelor care permit inferența logică. Astfel de sisteme se numesc inteligente.

    Chiar și într-un stadiu incipient al dezvoltării sistemelor de căutare a textului, aceștia au început să utilizeze reprezentări ontologice sub formă de clasificatori ierarhici.Asemenea descrieri la fiecare nivel ierarhic susțin o relație de echivalență pe setul de entități clasificate, asigurând împărțirea acestuia în clase disjunse pe perechi. În acest caz, entitățile din nivelurile învecinate ale ierarhiei sunt de obicei într-o relație „întreg – parte” sau „gen – specie”.

    Un alt mod informal de a descrie o ontologie, care este destul de utilizat pe scară largă în sistemele de căutare a textului, este de a o prezenta sub forma unui tezaur al domeniului de studiu al sistemului.

    Pentru a descrie formal ontologia în sistemele dezvoltate, se folosesc limbaje logice de ordinul întâi. Ele permit posibilitatea deducerii logice. Limbajul categoriei specificate KIF (Knowledge Interchange Format), dezvoltat la începutul anilor 1990 la Knowledge Systems Laboratory (KSL) de la Universitatea Stanford, a devenit destul de răspândit pentru reprezentarea ontologiei.

    Una dintre cele mai recente dezvoltări dedicate creării de instrumente pentru descrierea formală a ontologiei este standardul limbajului de definire a ontologiei pentru resursele informaționale Web - Web Ontology Language. Lucrările la acest standard sunt efectuate de Grup de lucru ontologii pentru Consorțiul Web W3C. Acest limbaj va găsi, fără îndoială, aplicație în sistemele inteligente de căutare a resurselor informaționale în mediul Web de a doua generație.

    4. Caută modele

    Cele mai dezvoltate tehnologii de căutare a textului sunt furnizate în prezent de sistemele full-text. După cum sa arătat deja, există diferite abordări pentru construirea unor astfel de sisteme. Aceste diferențe sunt asociate nu numai cu varietatea formelor de nevoi de informații ale utilizatorilor, ci și, în principal, cu diferența dintre modalitățile de prezentare a documentelor full-text și interogările utilizatorilor în sistem.

    Conceptul de model de căutare. Conceptul cheie care caracterizează tehnologia de căutare într-un anumit sistem este modelul de căutare.Modelul de căutare este înțeles ca o combinație de: metoda de generare a reprezentărilor documentelor; metoda de formare a reprezentărilor interogărilor de căutare; criteriul de relevanță a tipului de document.

    Varietatea de funcționalități a diferitelor sisteme de căutare a textului este asociată tocmai cu diferența dintre modelele de căutare implementate în acestea.

    Cele mai simple modele de căutare. Multe sisteme folosesc modele simple de căutare. Acestea includ, de exemplu, modelele de căutare discutate mai sus pentru descriptor IPS și sisteme care utilizează nucleul Dublin.

    Un alt exemplu de modele de căutare cele mai simple sunt modelele bazate pe clasificatoare. Într-un model bazat pe clasificator, documentele sunt reprezentate prin identificatori de clasă în structura ierarhica clasificator, care include acest document. Reprezentarea cererii în cel mai simplu caz este și identificatorul clasei unui clasificator dat care interesează utilizatorul. Criteriul de relevanță a documentului este condiția ca clasa de document să se potrivească cu orice clasă din vizualizarea de interogare sau să fie o subclasă a acesteia.

    Într-un caz mai complex, modelele de căutare bazate pe clasificatori permit specificarea mai multor clase de clasificatori într-o interogare. În acest caz, documentele aparținând oricăreia dintre clasele specificate în cerere sau subclasa acesteia sunt considerate relevante. Acest model de căutare este apropiat de modelul boolean considerat mai jos.

    Modele de căutare contextuală. Modelele de căutare contextuală sunt ceva mai complexe. Utilizarea acestor modele a devenit posibilă atunci când procesoarele computerelor au atins performanțe suficient de ridicate și volumul memoriei lor externe cu acces direct a crescut. Modelele de căutare contextuală folosesc reprezentarea unui document ca o colecție a tuturor cuvintelor și expresiilor posibile găsite în textul său, fără a număra așa-numitele cuvinte stop. Cuvintele stop sunt cuvinte funcționale (prepoziții, conjuncții etc.) care se găsesc în aproape orice document. Căutarea documentelor care conțin astfel de cuvinte ar avea ca rezultat returnarea unei colecții complete de documente ca răspuns la interogare. Prin urmare, astfel de cuvinte nu pot fi folosite ca proprietăți de indexare ale documentelor.

    În sistemele clasei luate în considerare, un index este construit pe toate cuvintele și frazele găsite în documente, cu excepția cuvintelor oprite. În același timp, pentru a construi un index, cuvintele extrase din textul documentului sunt mai întâi reduse la „forma canonică” folosind dicționare și instrumente de analiză gramaticală suportate de sistem. Solicitarea utilizatorului este supusă și unei analize gramaticale, timp în care cuvintele și frazele găsite în textul său sunt izolate și de cerere. Un document este considerat relevant dacă orice cuvinte sau expresii din interogare se găsesc exact în formele gramaticale din textul documentului.

    Uneori se folosește un criteriu de relevanță mai strict - includerea în textul documentului a tuturor cuvintelor și frazelor menționate în cerere etc.

    Modele booleene de căutare. Modelele booleene de căutare sunt utilizate pe scară largă în sistemele de căutare text. Utilizatorul poate formula o interogare ca o expresie booleană folosind operatorii AND, OR, NO. Termenii unei expresii booleene pot fi diferiți în diferite variante ale modelelor de căutare booleene. Aceasta ar putea fi, de exemplu, o condiție pentru apariția unui anumit cuvânt sau expresie (până la forme gramaticale) în textul unui document în extensia booleană a modelului de căutare contextuală. În extensia booleană a modelului de căutare a clasificatorului, termenii de expresie pot fi condiții de apartenență la document această clasă clasificator. Într-un model de căutare boolean care utilizează nucleul Dublin, un termen poate fi o egalitate care descrie faptul că un element de metadate pentru documentul în cauză are valoarea specificată în interogare.

    Criteriul de relevanță a unui document dat pentru o interogare în modelele de căutare booleene este adevărul expresiei booleene specificate în interogare.

    Modele de căutare vectorială. Modelele de căutare vectorială sunt cele mai utilizate pe scară largă în sistemele dezvoltate de căutare a textului. Utilizarea unor astfel de modele necesită mult mai multe resurse de calcul în comparație cu alte modele, dar oferă mult mai multe calitate superioară căutare.

    Modelele vectoriale presupun că documentele și interogările sunt reprezentate de vectori. În cel mai simplu caz, coordonatele vectoriale corespund termenilor textului - cuvinte sau fraze aparținând dicționarului de sistem, care reprezintă vocabularul general al limbajului sau vocabularul materiilor. Fiecare termen dintr-un astfel de dicționar este asociat cu propria sa dimensiune în spațiul vectorial. Dimensiunea vectorilor care reprezintă documentele și interogările utilizatorului este exact egală cu numărul de dimensiuni din spațiul respectiv.

    Coordonatele vectoriale i se atribuie o singură valoare în cazul în care termenul corespunzător apare într-un document dat sau, în consecință, într-o interogare de utilizator. În caz contrar, coordonatei vectoriale i se atribuie o valoare zero. Deoarece dimensiunea dicționarului poate fi foarte mare, iar documentele sau textele de interogare conțin un număr semnificativ mai mic de termeni conținuti în el, astfel de vectori se dovedesc a fi foarte rari. Prin urmare, trebuie să utilizați o tehnică de comprimare a acestora.

    Pentru a evalua gradul de relevanță a unui document pentru o interogare (o măsură a proximității lor), modelele de căutare vectorială folosesc orice funcții vectoriale, ale căror argumente sunt vectorii care le reprezintă. De exemplu, puteți utiliza cosinusul unghiului dintre vectorul documentului și vectorul de interogare ca o astfel de măsură. Este important de remarcat faptul că, deoarece coordonatele diferite de zero ale acestor vectori corespund doar termenilor incluși în textul documentului și textul interogării, valoarea funcției - o măsură în ambele cazuri - este afectată doar de termenii comuni pentru documentul și interogarea.

    Pentru a face modelele de căutare vectorială mai ușor de gestionat, aceste modele sunt adesea făcute mai complexe. Sunt introduse ponderi ale termenilor care caracterizează semnificația acestora. Valorile acestor greutăți sunt utilizate ca coordonate ale vectorului documentului dacă textul acestuia include termeni corespunzători. Astfel, aparițiile unor termeni diferiți în textul unui document au efecte diferite asupra valorii funcției de proximitate dintre document și interogare. Există diferite abordări pentru alegerea acestor scale. Cel mai adesea, în acest scop, se utilizează produsul dintre frecvența de apariție a unui termen într-un document dat și frecvența de apariție a acestuia în toate documentele colecției în ansamblu. Termenii de interogare pot fi, de asemenea, ponderați.

    Diferențele dintre modelele specifice de căutare vectorială se reduc la în diverse moduri atribuirea ponderilor termenilor și selectarea măsurilor de proximitate. Modelele vectoriale vă permit să clasați setul rezultat de documente de interogare.

    5. Stadiul dezvoltării sistemelor de căutare a textului

    În ultimii ani, sistemele de căutare text au devenit utilizate activ într-o mare varietate de domenii. Deși au fost inițial dezvoltate în primul rând ca un instrument pentru biblioteconomie, acum și-au găsit utilizarea în diverse organizații pentru a-și gestiona resursele de informații bazate pe text. Tehnologiile de căutare a textului au început să se dezvolte deosebit de intens odată cu apariția globală spațiu informațional Web.

    Gamă de probleme în domeniul căutării textului. În prezent, problema căutării textului a devenit destul de extinsă. Acesta acoperă diverse domenii ale teoriei și dezvoltării sistemelor de căutare a textului, cum ar fi:

    Dezvoltarea unor modele de căutare specifice;

    Metodologie de realizare a experimentelor, testare și evaluare a sistemelor;

    Metode de implementare a căutării textului;

    Abordări ale integrării tehnologiilor de căutare de text și baze de date;

    Căutare în mediul Web;

    Metode de compresie a datelor;

    Evaluarea eficienței procesării cererilor;

    Procesarea limbajului natural;

    Metode de clasificare și grupare a documentelor text;

    Aplicații de regăsire a informațiilor în biblioteci digitale;

    Analiza aprofundată a textului;

    Tehnologii pentru indexarea si cautarea informatiilor multimedia;

    Interfețe om-calculator etc.

    Extinderea funcționalității sistemelor de text.

    Dezvoltatorii sistemelor de căutare a textului acordă o mare atenție nu numai îmbunătățirii mecanismelor de îndeplinire a funcțiilor lor de bază, ci și dezvoltării unui număr de caracteristici suplimentare, permițând creșterea semnificativă a eficienței căutării, îmbunătățirea controlabilității sistemului și asigurarea unor condiții de lucru mai confortabile pentru utilizator. Să enumerăm câteva dintre aceste posibilități.

    Acuratețe de căutare îmbunătățită. În formularea unei interogări de utilizator, nu toți termenii pot fi echivalenti. Unele motoare de căutare text permit utilizatorului să atribuie ponderi termenilor utilizați într-o interogare pentru a caracteriza importanța acestora în interogare. Aceste informații sunt utilizate pentru a calcula relevanța documentelor pentru nevoile de informații ale utilizatorului, crescând astfel în mod semnificativ acuratețea căutării.

    Clasificarea documentelor de interogare rezultate. Din motivele discutate anterior, sistemele de căutare text nu pot garanta satisfacerea strictă a nevoilor de informații ale utilizatorului ca urmare a executării interogărilor de căutare. Numărul documentelor rezultate este de obicei semnificativ. Prin urmare, este foarte important să organizați documentele pe care sistemul le furnizează utilizatorului în așa fel încât documentele care sunt susceptibile de a fi de cel mai mare interes pentru utilizator să fie la începutul listei. Acest tip de operație se numește clasificare a documentelor. Sistemele dezvoltate de căutare a textului au mecanisme care oferă această posibilitate. În funcție de modelul de căutare pe care îl implementează, acestea prevăd ordonarea setului de documente produse ca urmare a procesării unei cereri de utilizator, în funcție de unele aprecieri ale gradului de relevanță a acestora față de cerere sau probabilitatea de a satisface nevoile de informare ale utilizatorului. .

    Feedback-ul privind relevanța este o caracteristică importantă care vă permite să îmbunătățiți eficiența găsirii documentelor de care utilizatorul are nevoie. Faptul este că rezultatele procesării cererii pot să nu satisfacă utilizatorul. În astfel de cazuri, multe sisteme de căutare text oferă utilizatorului posibilitatea de a rafina interogarea. Pentru a face acest lucru, el poate evalua relevanța documentelor primite - indicați pe care dintre ele le consideră relevante sau irelevante.

    Deoarece numărul de documente rezultate poate fi destul de mare, utilizatorului i se cere să evalueze cel puțin primele documente din lista clasată, adică. acele documente cărora sistemul le-a atribuit cele mai mari scoruri de relevanță. Sistemul poate folosi termenii acestor documente pentru a forma o nouă interogare extinsă, care ar putea să exprime mai exact nevoile de informații ale utilizatorului.

    Acest proces iterativ de procesare a unei interogări și de modificare a acesteia prin analiza datelor obținute din feedback-ul utilizatorului către sistem poate fi repetat până când utilizatorul este mulțumit de rezultatele căutării. Feedback-ul privind relevanța este utilizat în sisteme bazate pe diverse modele de căutare.

    Extinderea automată a interogărilor utilizatorilor. Aceasta se referă la extinderea reprezentării interogărilor propuse inițial sistemului de către utilizator. Această caracteristică servește și la îmbunătățirea eficienței căutării.

    Vizualizarea interogării inițiale poate fi îmbogățită cu:

    Sinonime ale termenilor cuprinsi in interogare, daca sistemul are un tezaur care sustine relatia de sinonimie;

    Termenii care se află într-o altă relație semantică cu termenii de interogare, definiți de tezaurul domeniului, de exemplu, reprezintă o parte a unui concept care corespunde unui termen de interogare etc.;

    Termenii documentelor rezultate, evaluate de utilizator ca fiind relevanți sau irelevante, în sistemele care furnizează părere relevanţă;

    Greșeli de ortografie întâlnite frecvent ale unor termeni de interogare etc.

    Indexarea automată a documentelor. Studiile efectuate în stadiile incipiente ale dezvoltării sistemelor de căutare a textului au arătat că indexarea automată a documentelor nu este inferioară calitativ indexării manuale. Prin urmare, sistemele moderne dezvoltate folosesc indexarea automată.

    Căutare multilingvă. Unele motoare de căutare de text vă permit să căutați colecții care conțin documente în mai multe limbi naturale. Una dintre problemele dificile care se ridică în acest caz este identificarea limbii în care sunt prezentate documentul prelucrat sau fragmentele acestuia.

    Căutare în mai multe limbi. Există sisteme de căutare a textului în care sunt posibile situații în care nevoile de informații ale utilizatorului sunt definite într-o limbă, dar documentele din colecția de căutat sunt prezentate într-o altă limbă. Această sarcină este încă în mare măsură cercetare, deși este deja destul de des întâlnită în practică, de exemplu, în sistemele organizațiilor internaționale, companiilor transnaționale sau oricărei organizații dintr-o țară în care există mai multe limbi oficiale.

    Principala problemă a căutării în mai multe limbi este potrivirea unui document și a unei interogări de utilizator prezentate în diferite limbi. Pentru a rezolva această problemă, este necesar să utilizați traducerea documentului, traducerea interogării sau traducerea ambelor. În acest caz, sunt utilizate abordări diferite - traducerea cuvânt cu cuvânt folosind un dicționar bilingv, traducerea „manuală” cu suport computer, traducerea automată automată a unui document complet sau a unei părți a unui document.

    Căutare text în sistemele de baze de date. Integrarea resurselor bazei de date și a colecțiilor de documente text, precum și utilizarea instrumentelor sistemului de baze de date pentru implementarea sistemelor de căutare a textului, au fost de mult timp solicitate în practica dezvoltării sistemelor informaționale.

    Într-adevăr, documentele text pot avea diverse caracteristici structurate și, în astfel de cazuri, poate fi necesară nu numai căutarea tradițională după conținutul documentelor, ci și căutarea după valorile unor astfel de atribute externe asociate documentelor. Sprijinirea relațiilor dintre atributele asociate documentelor și documentele corespunzătoare acestora, precum și căutarea documentelor pe baza valorilor atributelor asociate acestora, se potrivește bine cu tehnologiile convenționale de baze de date. În plus, mecanismele mediului de stocare DBMS pot fi folosite pentru a stoca documentele în sine.

    În același timp, resursele informaționale pe care sistemele de baze de date le operează includ adesea, alături de datele structurate, și documente text asociate. Prin urmare, necesitatea căutării textului apare și în mediul sistemelor tradiționale de baze de date. În legătură cu aceste motive, SGBD-urile tradiționale au început să fie echipate cu mecanisme de căutare a textului pentru conținutul documentului.

    Tehnologiile de căutare text sunt suportate în prezent de multe servere de baze de date relaționale și obiect-relaționale, cum ar fi DB2 de la IBM, Oracle de la Oracle Corp. și SQL Server 7.0 și SQL Server 2000 de la Microsoft Corp. Trebuie remarcat, totuși, că în majoritatea acestor SGBD-uri motoarele de căutare text nu implementează modelele avansate de căutare discutate mai sus. Cel mai adesea, problema se limitează la sprijinirea modelului de căutare boolean, uneori cu extinderea interogărilor, mecanisme de indexare a textului integral și alte caracteristici suplimentare.

    Căutați resurse de text pe Web. Odată cu creșterea volumului de resurse informaționale de pe Web, problema utilizării tehnologiilor de căutare a textului în acest mediu devine din ce în ce mai relevantă. Accesul prin navigație la resursele informaționale Internetul nu oferă acces suficient de rapid la acestea.

    La implementarea tehnologiilor de căutare a textului pe Web, se ține cont de specificul Web-ului ca mediu de căutare, de caracteristicile resurselor informaționale suportate în acesta, precum și de comportamentul utilizatorului în interacțiunea cu Web-ul.

    Primele motoare de căutare Web, numite și motoare de căutare Web, au oferit căutarea contextuală de bază. Mai târziu, au început să apară implementări ale modelelor de căutare booleene. În ultimii ani, interesul pentru problemele căutării de text pe Web a crescut semnificativ. Diverse echipe efectuează numeroase și variate studii în acest domeniu. În prezent, există o gamă întreagă de sisteme de căutare text pentru Web. Printre acestea există sisteme care sunt universale și concentrate pe specific domeniile subiectului, sisteme de scară internațională și națională. Acestea includ cel mai mare motor de căutare multilingv AltaVista, Yahoo!, Google, un motor de căutare pentru paginile web rusești Yandex și multe altele. Ele diferă ca scop - compoziția serverelor web scanate, organizarea interfețelor cu utilizatorul și funcționalitatea motoarelor de căutare. Toți susțin versiuni diferite Model de căutare boolean. Unele sisteme oferă ierarhizarea setului de documente rezultat și susțin feedback privind relevanța. Sistemul AltaVista implementează capacitatea de a reduce treptat zona de căutare. După efectuarea unei căutări, utilizatorului i se oferă o histogramă care caracterizează statisticile setului de documente găsit pe clasă. Utilizatorul poate selecta clasele care îl interesează. În continuare, căutarea se repetă în cadrul subsetului de resurse informaționale disponibile sistemului identificat astfel.

    Realizări noi foarte serioase în dezvoltarea sistemelor de căutare a textului în mediul Web pot fi așteptate în legătură cu dezvoltarea intensivă a platformei XML - platforma tehnologică Web de următoarea generație. Este important de remarcat că sistemele de căutare de text pe Web bazate pe standardele platformei XML oferă o reducere a granularității căutării. Obiectele de căutare nu trebuie să fie neapărat documente complete. Motorul de căutare poate returna fragmente de documente care îi interesează pe baza solicitărilor utilizatorilor. În plus, reprezentarea resurselor de informații textuale pe Web folosind XML permite utilizarea diferitelor mijloace de descriere a semanticii acestora și, pe această bază, reducerea semnificativă a nivelului de zgomot informațional la procesarea cererilor utilizatorilor.

    Noi cerințe pentru sistemele de căutare text. Noile condiții de aplicare și nevoile tot mai mari ale utilizatorilor creează cerințe noi și mai mari pentru sistemele de căutare text. Le enumerăm pe cele principale:

    Asigurarea capacității sistemelor de căutare a textului de a lucra eficient cu colecții foarte mari de documente;

    Dezvoltarea metodelor de îmbunătățire semnificativă a prezentării semnificației documentelor și a interogărilor de căutare ale utilizatorilor;

    Oferirea de oportunități pentru prelucrarea în comun a documentelor text cu documente de altă natură - imagini statice, audio, video etc.;

    Dezvoltare metode eficiente căutați nu numai în colecții statice, ci și în fluxuri de documente;

    Crearea unei metodologii pentru evaluarea sistemelor de căutare a textului, construirea colecțiilor de texte, efectuarea experimentelor.

    Întrebări de control

    2. Ce sisteme au fost numite sisteme de regăsire a informațiilor faptice?

    3. Ce sisteme se numesc sisteme de regăsire a informațiilor documentare?

    4. Pe ce principii se bazează descriptorul IPS?

    5. Ce condiții au fost necesare pentru crearea tehnologiilor de căutare full-text?

    6. Ce noi capabilități sunt oferite de sistemele de căutare full-text?

    7. Cum te-ai transformat? funcţionalitate sisteme de regăsire a informațiilor documentare influențate de dezvoltarea sistemelor de căutare a textului și de nevoile de informații ale utilizatorilor?

    8. În legătură cu ce, împreună cu termenul „sistem de recuperare a informațiilor”, termenul „sistem de căutare a textului” a început să fie folosit?

    9. Ce probleme aparțin domeniului prelucrării limbajului natural?

    10. Ce instrumente sunt folosite în sistemele moderne de căutare a textului?

    Răspunsurile la întrebări trebuie trimise prin e-mail