Російський ринок інформаційних технологій: тенденції та прогнози. Пошукові запити – перспективи розвитку

18.09.2020 Поради

За часів, коли тільки починався розвиток інтернету, обсяг доступної інформації був порівняно малий, і користувачів мережі було небагато. На початкових стадіях розвитку мережі її використовували співробітники університетів та дослідницьких лабораторій для обміну інформацією між установами. На той час пошук інформації в Інтернеті був не актуальним, на відміну від нинішніх днів.

Першим способом організації та систематизації доступу до інформаційних ресурсів стало створення каталогів сайтів. У них почали групувати посилання згідно з певною тематикою.

Першопрохідником області став Yahoo, який з'явився у квітні 1994 року. З часом кількість сайтів зростала, і Yahoo додав опцію пошуку за каталогами. Це була пошукова система у сенсі, оскільки область пошуку обмежувалася ресурсами каталогу.

Згодом каталоги поширилися і почали використовуватися повсюдно, але й інтернет не стояв дома, а продовжував розвиватися. Разом із ним розвивалися й методи пошуку. На даний момент каталоги майже втратили популярність, це пояснюється тим, що сучасний каталог, навіть якщо він містить величезну кількість ресурсів, зможе забезпечити доступ лише до малої частини інформації, що міститься в мережі.

У наші дні найбільшим каталогом мережі є Open Directory Project або DMOZ, що включає інформацію про 5 мільйонів ресурсів, але це відносно мало, якщо порівнювати його, наприклад, з пошуковою системою Google, яка містить близько 8 мільярдів документів.

Повноцінна ж пошукова система побачила світ тільки в 1994 році, їй стала система пошуку WebCrawler.

Через рік, в 1995 році з'явилися проекти пошукових систем AltaVista і Lycos. Одна з них, зокрема AltaVista, утримувала лідируючі позиції у сфері пошуку протягом довгих років.

Через два роки, в 1997 році, студенти Стендфордського університету Сергій Брін і Ларрі Пейдж розробили пошукову систему Google, яка є лідером в області пошуку на сьогоднішній день.

Цей рік став роком, коли було офіційно анонсовано про створення Російської пошукової системи Яндекс, яка і нині лідирує в російськомовному сегменті мережі.

На даний момент існує лише 3 пошукові системи, які вийшли на міжнародний рівень, це MSN Search, Yahoo та Google. Ці системи мають свої бази та пошукові алгоритми. Більшість інших пошукових систем використовують їх результати. Так Mail.ru використовує базу Yandex, search.aol.com - Google, а Lycos, AltaVista і AllTheWeb - Yahoo.

Лідером пошуку на російських просторах інтернету зараз є Яндекс, за ним - Rambler, далі йдуть Google, Mail.ru, A port і KM.ru.

У пошукових систем різні алгоритми роботи, і щоб зайняти хорошу позицію в пошуковій видачі та залучити цільових відвідувачів, потрібно знати особливості SEO оптимізації для різних пошукових систем. Наприклад

Для пошуку в покажчику користувач повинен сформулювати запит та надіслати його до пошукової машини. Запит може бути дуже простим, як мінімум, він повинен складатися з одного слова. Для побудови складнішого запиту потрібно використовувати булеві оператори, що дозволяють уточнювати та розширювати умови пошуку.

Найчастіше використовуються такі булеві оператори:

  • AND - всі вирази, з'єднані оператором «AND», повинні бути присутніми на сторінках, що шукаються, або в документах. У деяких пошукових машинах замість слова AND використовується оператор +.
  • OR - принаймні один з виразів, з'єднаних оператором «OR», повинен бути присутнім на сторінках, що шукаються, або в документах.
  • NOT - вираз або вирази, що йдуть за оператором «NOT» не повинно (не повинні) з'являтися на сторінках, що шукаються, або в документах. У деяких пошукових машинах замість слова NOT використовується оператор "-".
  • FOLLOWED BY - один із виразів має слідувати безпосередньо за іншим.
  • NEAR - один із виразів має знаходитися на відстані від іншого, не більшого, ніж задана кількість слів.
  • Лапки - укладені в лапки слова розглядаються як фраза, яку слід знайти в документі чи файлі.

Перспективи розвитку пошукових систем

Пошук, що задається булевими операторами, є буквальним - машина здійснює пошук слів або фраз точно в такому вигляді, в якому їх ввели. Це може викликати проблеми, коли введені слова багатозначні. Наприклад, англійське слово «Bed» може означати ліжко, клумбу, місце, де риба метає ікру, та багато іншого. Якщо користувача цікавить лише одне з цих значень, йому не потрібні сторінки зі словом, яке має інші значення. Можна побудувати буквальний пошуковий запит, націлений на відсікання небажаних значень, але було б непогано, якби сама пошукова машина могла надавати відповідну допомогу.

Один із варіантів роботи пошукової машини – концептуальний пошук. Частина такого пошуку передбачає використання статистичного аналізусторінок, які містять введені користувачем слова або фрази, для знаходження інших сторінок, які могли б зацікавити цього користувача. Зрозуміло, що для концептуального пошуку потрібно зберігати більше інформації про кожну сторінку, і кожен пошуковий запит вимагатиме більшої кількості обчислень. В даний час багато груп розробників займаються підвищенням результативності та продуктивності пошукових машин такого типу. Інші дослідники сфокусувалися на іншій області, яку називають природно-мовними запитами (natural-language queries).

Ідея природно-мовних запитів полягає в тому, щоб користувач формулював запит так само, як він питав би у людини, що сидить поруч - при цьому не потрібно відстежувати булеві оператори або складні структури запитів. Найбільш популярним сучасним сайтом із природно-мовними пошуковими запитами є AskJeeves.com, що аналізує запит з метою виявлення ключових слів, які потім використовуються для пошуку в побудованому цією пошуковою машиною покажчика сайтів. Згаданий сайт працює тільки з простими пошуковими запитами, проте розробники в умовах жорсткої конкуренції займаються розробкою машини з природно-мовними запитами, здатною обробляти дуже складні запити.

КІМСЬКА ДЕРЖАВНА ТЕХНОЛОГІЧНА АКАДЕМІЯ

Інформаційно-аналітична довідка з інформатики

на тему: «Сучасні пошукові системи, тенденції розвитку одного з лідерів ринку Яndех».

Виконав: студент 1-го курсу

3 академічні групи

Макарів Іван

Вступ. 3

Основна частина. 4

Висновок. 11

Вступ.

Яндекс - російська ІТ-компанія, що володіє однойменною системою пошуку в Мережі та інтернет-порталом. Пошукова система «Яндекс» є восьмою серед найбільших пошукових сайтів світу за кількістю опрацьованих пошукових запитів (1,290 млрд, статистика за серпень 2009 р.) та другим найбільшим неангломовним пошуковим сервером після китайського Baidu.

Сайт компанії було відкрито 23 вересня 1997 року. 2000 рік – рік утворення компанії «Яндекс». Засновником Яндекса є CompTek (фірма, що розробила пошукову систему Yandex та здійснювала його підтримку). Компанія вийшла на самоокупність у 2002 році, оборот за 2006 рік – 72,6 млн доларів, чистий прибуток – 29,9 млн., за 2005 рік – 35,6 млн доларів, чистий прибуток – 13,6 млн.

Основним та пріоритетним напрямком компанії є розробка пошукового механізму, але за роки роботи Яндекс став мульти-порталом. У 2009 році у скарбничці Яндекса – понад 30 сервісів. Найпопулярнішими є: Яндекс.Новини, Яндекс.Фотки, Яндекс.Іграшки та інші.

Головний офіс компанії знаходиться у Москві. Компанія має офіси в Санкт-Петербурзі, Єкатеринбурзі, Одесі, Сімферополі та Києві. У середині червня 2008 року компанія оголосила про відкриття Yandex Labs – офісу в США, штат Каліфорнія.

Основна частина.

Історія створення компанії.

Офіційно пошукова машина Yandex.Ru була анонсована 23 вересня 1997 на виставці Softool. Основними відмінними рисами Yandex.Ru на той момент були перевірка унікальності документів (виключення копій у різних кодуваннях), а також ключові властивості пошукового ядра Яndex, а саме: облік морфології російської мови (у тому числі пошук за точною словоформою), пошук з урахуванням відстані (у тому числі в межах абзацу, точне словосполучення), та ретельно розроблений алгоритм оцінки релевантності (відповідності відповіді запиту), що враховує не лише кількість слів запиту, знайдених у тексті, а й «контрастність» слова (його відносну частоту для цього документа) , відстань між словами, та положення слова у документі.

Трохи згодом у розділі «Казки» (спостереження змістом російського Інтернету) з'явилася перша казка Рунета - «Web - гуманізм чи чорнуха?». А в розділі «Числа» – перша оцінка обсягу Рунету, 5 тисяч серверів та 4 Гб текстів.

Через два місяці, у листопаді 1997 року, було реалізовано природно-мовний запит. Відтепер до Yandex.Ru можна звертатися просто «російською», ставити довгі запити, наприклад: «де купити комп'ютер», «генетично модифіковані продукти» або «міжнародні коди». телефонного зв'язку» та отримувати точні відповіді. Середня довжина запиту в Yandex.Ru зараз - 2,7 слова. 1997 року вона становила 1,2 слова, тоді користувачі пошукових машин були привчені до телеграфного стилю.

У 1998 році на Yandex.Ru з'явилася можливість «знайти схожий документ», список знайдених серверів, пошук у заданому діапазоні дат та сортування результатів пошуку за часом останньої зміни. За цей рік «обсяг» російського Інтернету подвоївся, що призвело до необхідності оптимізації пошукових механізмів. І тоді, і зараз (при об'ємі 200 Гб) швидкість пошуку на Yandex.Ru - частки секунди.

За 1999 Рунет виріс на порядок, як в обсягах текстів, так і в кількості користувачів. Це був рік бурхливого розвитку для Yandex.Ru. Новий пошуковий робот дозволив оптимізувати та прискорити обхід сайтів Рунету. Сьогодні пошукова база Yandex.Ru вдвічі більша, ніж у найближчих конкурентів.

Новий робот дозволив надати користувачам нові можливості - пошук за різними зонами тексту (заголовками, посиланнями, анотаціями, адресами, підписами до картинок), обмеження пошуку на групу сайтів, пошук за посиланнями та зображеннями, а також виділяти документи російською мовою. З'явився пошук у категоріях каталогу і вперше в Рунеті було запроваджено поняття «індекс цитування» - кількість ресурсів, що посилаються на цей.

Протягом усього року тривала робота з кількісного та якісного аналізу Рунету. Було відкрито НІНІ-індекс (індекс «Зміни інтересів Населення Інтернет»), що показує динаміку зміни інтересів користувачів Інтернету. Відкрився пошуковий Форум та новий сервіс - підписка на запит, тобто можна залишити свій запит на Yandex.Ru та регулярно отримувати електронною поштою інформацію про появу нових та/або змінених документів, що відповідають цьому запиту. До початку навчального року було відкрито «Сімейний Яndex», фільтрацію результатів пошуку від мату та порнографії.

Походження слова "Яндекс".

Сьогодні «Яндекс» - слово із повсякденного побуту користувача інтернету. У Мережі часто зустрічається «А що, Яндекс уже скасували?», «Самотність – це коли з днем ​​народження першим вітає Яндекс», «Всі питання до Яндексу». Багатьом здається, що так було завжди. До певної міри це правда - Яндекс дійсно з'явився одночасно з масовим інтернетомколи доступ до мережі перестав бути долею обраних технічних фахівців. Але саме слово «Яндекс» – штучне, має своїх авторів та свою історію.

1993 Аркадій Волож, майбутній генеральний директор майбутньої компанії «Яндекс», і Ілля Сегалович, майбутній директор з технологій компанії, розробляли, як потім з'ясувалося, головну технологію - пошук неструктурованої інформації з урахуванням російської мови.

Розробку треба було якось назвати. Ілля пам'ятає, як виписував стовпчиком різні похідні від слів, що описують зміст технології. Досить швидко стало зрозуміло, що search («пошук») російською мовою звучить надто неблагозвучно і вдалої комбінації на його основі не зробиш. Слово index підходило більше. Так у списку назв з'явився yandex - yet another indexer ("ще один індексатор" або Мовний індекс). Варіант сподобався і Іллі, і Аркадію – легко вимовляється, легко пишеться. Крім цього, Аркадій запропонував букву «Я» в назві – специфічно російську – російську та залишити, для наочності. Так було винайдено слово "Яndex". А файл програми відповідно називався yandex.exe.

У 1996 році, коли вперше широкому загалу був запропонований пошук як технологія, а не як частина контентного продукту (до цього були Міжнародний класифікатор винаходів та Біблійний комп'ютерний довідник), лінійку програм назвали Яndex і пояснювали цю назву як Мовний iNDEX. Першими програмами в лінійці стали Яndex.Site (пошук по одному власному сайту - цей продукт зараз називається Яndex.Server) та Яndex.Dict (морфологічна приставка до AltaVista, єдиної пошукової системи, яка в той час вміла хоч якось працювати з кирилицею) .

Але, звичайно, широке поширення слово «Яндекс» набуло з вересня 1997 року, після запуску пошукової системи www.yandex.ru. З того часу користувачі системи пропонують нам свої трактування. Наприклад, Тема Лебедєв, готуючись до малювання першої версії головної сторінкисайту Яндекса, сказав: «А, я зрозумів, якщо в слові index перше „I“ перекласти російською, це буде „Я“, тобто так і вийде „Яндекс“». Автори чесно зізналися, що про це не думали, але - хороше трактування, приймається. Потім хтось у Мережі запропонував інший варіант, побачивши дві сторони інтернету, ІНЬдекс та ЯНдекс. У цього слова вже з'явилися похідні, так, співробітників Яндекса часто називають "яндексоїди" і рідше - "яндексівці".

Пошук "Яндекса".

Пошук Яндекса дозволяє шукати по Рунету, Уанету та Казнету (з 14 жовтня 2009 року) документи російською, українською, білоруською, румунською, англійською, німецькою та французькою мовами з урахуванням морфології російської та англійської мовта близькості слів у реченні. З початку 2006 року пошук Яндекса встановлений на порталі Mail.ru.

Крім веб-сторінок у форматі HTML, Яндекс індексує документи у форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двійкових форматах Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (блоги та форуми).

Відмінна риса Яндекса - можливість точного настроювання пошукового запиту. Це реалізовано рахунок гнучкого мови запитів. Так, наприклад, для операції виключення можна вказати область дії: запит A ~ ~ B знайде документи (сторінки), в яких присутній А, але не присутній В, а запит А ~ Б - документи, де слово Б не присутній зі словом А в одному реченні. Аналогічно, оператор & шукає поєднання ключових слів у реченні, а && - у всьому документі.

Оператор! дозволяє відключити морфологію для конкретного слова, а!! дозволяє вказати нормальну форму, що дозволяє обійти деякі проблеми, пов'язані з омонімією. Наприклад запит!! Іванів буде знаходити Іванова та Іванових, але не Івана.

За замовчуванням Яндекс виводить по 10 посилань на кожній сторінці видачі результатів, у налаштуваннях результатів пошуку можна збільшити розмір сторінки до 20, 30 або 50 знайдених документів. Іноді порядок сайтів на цих сторінках може відрізнятись, оскільки оновлення баз для цих результатів відбувається не одночасно.

Якщо за запитом знайдено багато посилань, сторінка результатів пропонує обмежити діапазон пошуку - по регіону (тобто по діапазону IP) або за датою. Якщо за будь-яким словом або словами нічого не знайдено, пропонується замінити його на схожі (оскільки запропоновані варіанти залежать від частоти знаходження схожих слів, іноді виникають забавні ситуації). Також пропонується виправити слова, набрані не в тій розкладці клавіатури.

Іноді алгоритми Яндекса, відповідальні за релевантність видачі, змінюються, що призводить до змін у результатах пошукових запитів. Останні офіційно оголошені зміни відбулися у березні 2004 р., квітні 2005 р. та січні 2007 р.; за неофіційними даними, їх значно більше (наприклад, останнє у серпні-вересні 2007 р.).

Зокрема, ці зміни спрямовані проти пошукового спаму, що призводить до нерелевантних результатів за деякими запитами (рідше – за цілими сімействами запитів). Проти пошукового спаму, що не відсівається автоматично, застосовується напівавтоматична та ручна модерація видачі (за допомогою так званих «білих оптимізаторів»), а також пряма відмова від індексації «зловмисних» сайтів.

Власники, керівництво та показники діяльності.

Більше 30% компанії, за власними даними, належить фондам інвестицій ru-Net Holdings та Baring Vostok Capital Partners, 15% - фонду Tiger Technologies, близько 30% - засновникам компанії та 20% - менеджерам та іншим міноритарним акціонерам.

У середині вересня 2009 року стало відомо, що материнська компанія «Яндекса» - голландська компанія Yandex NV випустила пріоритетну акцію, яка була передана Ощадбанку за символічний 1 євро. Єдине право, яке дає акція – накладати вето на продаж понад 25 % акцій компанії.

Керівництво: ркадій Волож – генеральний директор, Ілля Сегалович – технічний директор, Олена Колмановська – головний редактор, Олексій Третьяков – комерційний директор, Світлана Кондрашова – директор з реклами.

Усі сервіси «Яндекса».

Інформаційно-пошукові:

Пошук та ya.ru

Каталог - каталог веб-сайтів із сортуванням за індексом цитування. Поповнюється вручну редакторами каталогу, є можливість платної реєстрації.

Новини - головні новини дня, отримані з основних ЗМІ, які представлені в Інтернеті. Є можливість пошуку за новинами, а також передплати новин за заданим пошуковим запитом.

Яндекс.XML – за допомогою цього сервісу можна робити автоматичні пошукові запити до Яндекса у форматі xml.

Пошук за блогами та форумами - пошук за ресурсами, що мають RSS-представлення, а також рейтинг актуальних запитів, популярних категорій та новин.

Маркет - пошук пропозицій з продажу товарів та послуг, підбір моделей.

"Медитативний" пошук - єдиний у світі пошуковий сервіс, в якому є кнопка "Знайти", але немає пошукового рядка.

Словники – енциклопедії, довідники, словники-перекладачі.

Зображення - пошук зображень.

Відео – пошук відео.

Карти - карти Європи та Росії, карти великих міст РФ (з точністю до дому), пошук по карті, а також можливість "поблукати" по вулицях деяких міст.

Адреси - пошук контактної інформаціїза назвами фірм та організацій.

Афіша – інформація про доступні заходи: кіно, театр, концерти, спорт, клуби тощо.

Погода – прогноз погоди.

Телепрограма - програми центральних, регіональних та супутникових каналівТБ.

Розклад - розклад поїздів та літаків.

Персоналізовані:

Яндекс.Відео - відеохостинг та пошук по відео.

Пошта – електронна пошта.

Я.ру – блоговий сервіс.

Яндекс.Фотки - фото-хостинг.

Спамооборона – фільтрація спаму.

Народ – безкоштовний хостинг для персональних інтернет-сторінок, а також служба зберігання файлів.

Яндекс гроші - платіжна системадозволяє оплачувати товари та послуги в Інтернеті.

Закладки – система зберігання закладок, інтегрована з «Яндекс. Баром».

Передплати - передплата на новини.

Стрічка - онлайновий RSS-рідер

Яндекс.Директ – система розміщення контекстної реклами з оплатою за кліками.

Кубок – регулярні змагання з пошуку в Інтернеті.

Міста – Інтернет-індекси міст Росії.

Тариф – пошук за тарифами інтернет-провайдерів.

Листівки

Весна – автоматична генерація філософських есе.

Інтернет – вимірює швидкість інтернет з'єднання.

Mirror – Дзеркало основних дистрибутивів ОС Linux, а також FreeBSD та інших проектів.

Яндекс. Локальна мережа – надає можливість користуватися всіма сервісами Яндекса не за федеральним, а за локальним тарифом.

Метрика – дозволяє вимірювати трафік, аналізувати поведінку користувачів та оцінювати ефективність рекламних кампаній.

Програмні продукти:

Спам-фільтр Спамоборона для корпоративного користування (платний).

Програма пошуку файлів Yandex Desktop Search на комп'ютері.

Програма миттєвого обміну повідомленнями Я. Онлайн на основі Jabber. Дозволяє також отримувати повідомлення про нові листи з Яндекс. Пошти, про нові події з сайтів Одноклассники.ru та ВКонтакте.

Програма Punto Switcher – автоматичний перемикач розкладки.

Віджети для операційних систем Mac OS X та Windows Vista, а також для браузера Opera: Пошук, Пробки, Годинники, Новини.

Яндекс ICQ – спеціальна версія клієнта ICQ з символікою та інтеграцією деяких сервісів від Яндекса.

Цікаві факти.

1)Середня довжина запиту в Yandex.Ru зараз - 2,7 слова. 1997 року вона становила 1,2 слова, тоді користувачі пошукових машин були привчені до телеграфного стилю.

2)Яндекс з'явився до www.yandex.ru. Слово Яндекс вигадали в 1993 році, а публічно воно було вимовлено в 1996 році і означало тоді не компанію і не пошукову машину, а технологію пошуку за власним сервером та морфологічну приставку до пошукової системи Altavista.com.

3) www.yandex.ru запустили для демонстрації можливостей технології Яндекс, про заробітки на рекламі ніхто не думав.

4)Слоган «Знайдеться все» вигадали в 2000 році. У цьому року Яндекс запустив першу рекламу інтернет-сайту на російському телебаченні.

5) За даними самого «Яндекса», близько 80 відсотків його аудиторії – з Росії, близько 3 відсотків – з Європи, трохи більше 1 відсотка – із США.

6) Частина співробітників технічної підтримки Яндекса діє під колективним псевдонімом «Платон Щукін».

Висновок.

Отже, тепер ми маємо повну інформаціюпро «Яндекс». Знаємо, хто керує ним, як він працює зсередини, що є історія розвитку компанії та багато іншого. Тепер ми легко можемо зрозуміти, чому «Яндекс» є лідером на російському і світовому ринку. Головною причиною успіху «Яндекса» я вважаю те, що пошуковик чудово справляється зі складнощами російської мови. Саме тому пошукові системи, які були розроблені під англійську мову, не можуть так само добре індексувати та ранжувати російськомовні документи. Другою перевагою я бачу креативні, доброзичливі, веселі слогани, якими «Яндекс» залучає користувачів до використання своїх сервісів, Тематичні картинки, які розміщує «Яндекс» біля свого рядка, набагато доступніше для російського користувача.

, тенденціязростання кількості пропозицій збережеться. Присутні сьогодні на ринкуелектронні платіжні системи... ще однезнакова подія: компанією Paycash було укладено угоду із найбільшою пошуковий системою ...
  • Приволзький федеральний округ: сучаснестан та перспективи розвитку(На прикладі Республіки Татарстан)

    Курсова робота >> Економіка

    ... тенденціямиподальшого розвитку. ... лідером. ... розвиток одного знайважливіших... комплексом пошуковогота пілотажно... ринок. Розвиток ... сучаснихтехнологій, високопродуктивного обладнання, сучасних… супертоксикантами; - розвиток системимоніторингу земель...

  • Сучаснісоціологічні проблеми фізичної культури та спорту

    Реферат >> Соціологія

    Для популяризації політичних лідерів, партій, ... сукупна суб'єкт-об'єктна системасоціально-педагогічних... творчої пошуковийдіяльності... ринокта держава. Ринок ... Тенденції розвитку сучасногоолімпійського руху Росія є однієї з ...

  • Тенденції розвиткунафтової промисловості у світовій економіці

    Реферат Економіка

    Світовий ринокнафти: тенденції розвиткуі... вже проведених пошуково-розвідувальних робіт, ... Попередня оцінка. Лідерому світовому споживанні... є одним знайважливіших елементів сучаснихсвітогосподарських... світової економічної системі, за часів...

  • При традиційному підході до організації, коли спеціалізовані функції входять у справу одна одною, як і естафеті, висока ефективність недосяжна. Швидкість реагування на зовнішні зміни потребує постійного співробітництва між різними спеціалізованими відділами та службами. Постійно спілкуючись і обмінюючись інформацією, вони можуть діяти швидко, узгоджено і одночасно в різних напрямках. Інформаційні технологіївинятково корисні у разі такого координованого процесу.


    Рис. 3.2.

    Застосування ІТ дозволяє радикально змінити стиль управління та самі бізнес-процеси та значно покращити основні показники діяльності компанії (рис. 3.2). Колишні правила ведення бізнесу швидко застарівають. Компанії, які неспроможні " побачити " значимість цих змін, ризикують сильно відстати (табл. 3.2).

    Таблиця 3.2. Інформаційні технології, що змінюють правила роботи компаній
    Колишнє правило Нове правило Технологія
    Інформація може з'являтися в одному місці, одночасно Інформація може з'являтися та бути затребуваною у будь-якому місці, у будь-який час – коли це необхідно Розподілені бази та сховища даних, пошукові системи, технології пошуку заданих даних
    Складну роботу з оцінки ситуацій можуть виконувати лише експерти Роботу експерта може виконувати спеціаліст загального профілю Експертні системи
    Необхідно вибирати між централізацією та децентралізацією Можна одночасно отримувати переваги від поєднання двох форм організації управління та виробництва Розподілена робота у групах, телекомунікаціїта мережі
    Усі рішення приймають лише вищі керівники та відповідальні менеджери Прийняття рішень стає частиною роботи кожного співробітника, який відповідає за свою ділянку роботи Засоби підтримки прийняття рішень, доступ до баз та сховищ знань, системи знання
    Для пошуку, отримання, аналізу, зберігання та передачі інформації потрібні спеціально обладнані приміщення Фахівці можуть надсилати та отримувати інформацію з того місця, де вони знаходяться Інтернет/ Інтранет -технології, оптоволоконні та супутникові системизв'язки, мобільні системи
    Найкращий контакт з покупцем - особистий контакт Найкращий контакт з потенційним покупцем – ефективне вивчення особливостей покупця Інтерактивна взаємодія, бази даних, системи опитування та виявлення переваг
    Для того, щоб знайти якусь сутність, потрібно знати, де вона знаходиться Сутності самі кажуть вам, де вони знаходяться Системи пошуку. Мобільні агентні системи
    Зверстані плани не переглядаються або переглядаються під тиском форс-мажору Плани переглядаються та коригуються оперативно, при необхідності та адекватно вимогам споживача Експертні системи, системи гнучкого планування та управління ризиками, високопродуктивні ЕОМ

    ІТ-відділи у фірмах та корпораціях стали висуватися перші ролі. Цьому сприяли три фактори, які повною мірою виявилися в 1990-ті роки:

    • потреби бізнесу стали чинити все більший тиск на аналітичні відділи та відділи ІТ з метою збільшення їхнього вкладу в загальний результат діяльності компанії;
    • комп'ютерна парадигма обчислювальних робіт, орієнтована великі ЕОМ і потужні обчислювальні центри з великим персоналом, зживає себе і замінюється нової парадигмою - розподіленими обчисленнями(мережі та кластери), що, у свою чергу, призводить до створення нових ІТ;
    • Переорієнтація з технології на споживача призвела до необхідності психологічної перебудови менеджера та формування нової дисципліни – стратегічного планування розвитку корпоративних ІТ для поєднання стратегії бізнесу та інформаційної стратегії.

    Внаслідок цього змінилися самі складові бізнесу (табл. 3.3):

    Таблиця 3.3.
    Динаміка розвитку бізнесу Прискорилася
    Стратегічне плануваннята тактичні цілі Збільшилася дальність і точність прогнозу
    Оперативний простір Розширилася сфера застосування
    Управління ризиками Моделювання та оптимізація ситуації
    Гнучкість управління Швидке маневрування ресурсами
    Конкурентоспроможність Поширення наявної переваги на весь бізнес

    Таке ставлення до ІТ та їхньої ролі в бізнесі змушує переглянути традиційну відповідь на питання "У чому основна мета інформаційних технологій?". Колишня відповідь, що задовольняла вимоги 1980-1990-х років, - "Підвищення продуктивності праці, економія фінансів, пошук нових форм взаємодії" - відноситься в даний час до способів досягнення оперативних та тактичнихпереваг.

    Стратегічна роль ІТв сучасному світі- сприяти менеджменту, адекватно реагувати на динаміку ринку, створювати, підтримувати та поглиблювати конкурентну перевагу (Сompetitive Advantage) з метою отримання максимальної вигоди!

    Сучасний стан ІТ можна охарактеризувати такими положеннями:

    • наявність великої кількості програмно-апаратних комплексів та платформ для ефективного управліннята супроводження виробництва, що промислово функціонують баз даних та сховищ знань великого обсягу, що містять інформацію за всіма напрямками діяльності товариства;
    • наявність технологій, що забезпечують інтерактивний доступ будь-якого користувача до інформації та ресурсів - технічною основою для цього є відкриті (Free) і корпоративні системи пошуку інформації(Information Retrieval Systems - IRS), державні та комерційні системи зв'язку, глобальні (Global Network Systems), національні (NNS) та регіональні (RNS) інформаційно-обчислювальні мережі; міжнародні угоди, стандарти та протоколи обмінуданими;
    • розширення функціональних можливостей ІТ, що забезпечують розподілену роботу баз та сховищ даних з даними різноманітної структури та змісту, мультиоб'єктних документів, гіперсередовищ; створення локальних та інтегрованих проблемно-орієнтованих ІС різного призначення на основі потужних серверів та локально-обчислювальних мереж;
    • включення до ІС спеціалізованих інтерфейсів користувача для взаємодії з експертними системами(Expert System - ES), систем підтримки прийняття рішення (Decision Support System - DSS), системи підтримки виконання (Executive Support System - ESS), системи машинного перекладу(Translating Computer System - TCS) та інші технології та засоби.

    У розвитку ІТ можна назвати п'ять основних тенденцій.

    1. Глобалізація. Компанії можуть за допомогою ІТ вести справи на світовому ринку, де завгодно, негайно отримуючи вичерпну інформацію. Відбувається інтернаціоналізація програмних засобівта ринку інформаційного продукту. Одержання переваг з допомогою постійного розподілу інформаційних витрат ширший географічний регіон стає необхідним елементом стратегії.
    2. Конвергенція. Стираються відмінності між промисловими виробами та послугами, інформаційним продуктом та засобами його отримання, їх професійним та побутовим використанням. Передача та прийом цифрових, звукових та відеосигналів поєднуються в одних пристроях та системах.
    3. Ускладнення інформаційних продуктів та послуг. Інформаційний продукт у вигляді програмно-апаратних засобів, баз та сховищ даних, служб експлуатації та експертного забезпечення має тенденцію до постійного розвитку та ускладнення. У той же час інтерфейсна частина ІТ при всій складності завдань постійно спрощується, роблячи все більш комфортною інтерактивну взаємодію користувача і системи.
    4. Здатність до взаємодії(Interoperability). Проблеми оптимального обміну даними між комп'ютерними інформаційними системами, між системою та користувачами, проблеми обробки та передачі даних та формування необхідної інформації набули статусу провідних технологічних проблем. Сучасні програмно-апаратні засоби та протоколи обмінуданими дозволяють вирішувати їх у все більш повному обсязі.
    5. Ліквідація проміжних ланок(Disintermediation). Розвиток здатності взаємодії однозначно веде до спрощення доставки інформаційного продукту до споживача. Стає непотрібним ланцюжок посередників, якщо є можливість розміщувати замовлення та отримувати необхідне безпосередньо за допомогою ІТ.

    Щодо бізнесу це означає таке:

    • здійснення розподіленої обробки даних, коли на робочому місці достатньо ресурсів для отримання та аналізу інформації;
    • створення розвинених систем комунікації, коли робочі місця об'єднані для максимально швидкого пересилання повідомлень;
    • усунення перешкод у системі інтеграції "організація - зовнішнє середовище", прямий доступ до світових інформаційні потоки;
    • створення та розвиток систем електронних замовлень та торгівлі;
    • підтримка соціальних мереж.

    Розглянуті вище зміни вимог до груп інтересів у сфері ІТ та інформаційної культуриПідприємства зумовлені динамікою розвитку підприємств та довкілля і призводять до функціональних змін у системі управління. Основні аспектицього розвитку та їх впливом геть роль ІТ під управлінням підприємством полягають у наступному [Мюллер-Штевенс Р., Ашванден З. Проблеми теорії та практики управління, № 1, 1998].

    Від обробки даних – до управління знаннями

    Вже давно відпала необхідність розглядати ІТ лише як засіб обробки даних. За допомогою технологій з даних треба витягувати інформацію для потреб користувача, а проблема "інформаційних перевантажень", що виникає в цьому зв'язку, вимагає сучасних швидкодіючих засобів відбору, подальшої обробки та оновлення інформації. При цьому слід продумати питання про комерційно вигідні та зручні інтерфейси, а також про взаємодію спільно використовуваних знань між організаційними підрозділами та партнерами по кооперації.

    Швидка інтеграція мереж локальних систем з регіональними і навіть міжнародними структурами призводить до відмови від класичних робочих полів інформатики та широкого залучення коштів телекомунікацій. Організаційно це веде до "розмивання" інформаційних кордонів підприємства. Дедалі важче стає визначити, де воно починається і де закінчується. Створення та експлуатація відповідної комунікаційної структури для подібних "віртуальних підприємств" належать до завдань інформаційного менеджменту, так само як і класична функція забезпечення виробничого процесу чи розробки товарів та послуг на базі ІТ. Справа при цьому полягає не тільки в обробці інформації, а й у раціональному розподілі та використанні знань. Знання повинні давати прибуток і, якщо можна, сьогодні ж!

    Крім того, працівники та керівники підприємства повинні враховувати на професійному рівні все нові та важливі для ІТ аспекти. Прикладом може бути питання технологічному і господарському значенні технологій Internet/ Intranet. Саме на інформаційно-технологічній службі лежить відповідальність за створення платформи, на якій стане можливим корпоративний менеджмент, включаючи кваліфіковану підготовку (у тому числі психологічну) персоналу.

    Децентралізація та зростання інформаційних потреб

    Орієнтація на максимальне зближення із клієнтом зажадала від підприємств початку горизонтальним, децентралізованим структурам. Прийняття рішень в умовах децентралізації призвело до різкого зростання потреб інформації щодо процесу виробництва товарів та послуг. Виникла потреба у більш детальному ознайомленні третьої сторони зі станом справ у відповідних господарських галузях та системами реалізації якостіпродукту. У новій обстановці забезпечення інформацією з усіх напрямків має функціонувати бездоганно.

    Використання ІТ покликане нівелювати організаційну складність підприємства. Раніше це досягалося завдяки покладенню на комп'ютери складних обчислень та обробки документації у великих обсягах. Зараз йдеться про те, щоб горизонтальні і вертикальні моделі взаємозв'язків, що безперервно ускладнюються (структури яких, у свою чергу, постійно змінюються) удосконалювалися за допомогою нової комунікаційної технології.

    Раніше на підприємствах встановлювалися потужні обчислювальні центри, які готували безліч цифрових звітів, з урахуванням яких у подальшому здійснювалося управління господарської деятельностью. Зараз завдання ІТ-служб компанії полягає в тому, щоб розробити таку технологію, за допомогою якої можна було б постійно тримати в курсі подій менеджерів та їхніх партнерів, які ухвалюють рішення в умовах децентралізації. Нові інформаційно-технологічні системи мають забезпечувати не якусь абстрактну господарську систему, а конкретних партнерів, які у різноманітних формах беруть участь у господарському процесі.

    Інтеграція децентралізованих систем

    Інформація на підприємствах обробляється в рамках найрізноманітніших систем, які часто не пов'язані один з одним. Забезпечення їх широкої доступності для всіх співробітників (а також зовнішніх партнерів) та полегшення тим самим ухвалення творчих рішень може стати критично важливим фактором успіхудля багатьох підприємств. Водночас об'єднання по вертикалі та горизонталі інформаційно-технологічних систем, що виникли в умовах децентралізації, видається майже неможливим. У всякому разі, в класичних областях ІТ досвід із цього приводу відсутній. Проте інтеграція має відбутися.

    Постановка подібної мети необхідна вищому менеджменту для реального управління змінами. Організаційним важелем у її досягненні можуть стати віртуальні, проектні та робочі групи, об'єднані загальними інтересами виконання поточних проектів та вирішення довгострокових завдань. Можливо, такі групи зможуть навіть ефективно управляти функціями розподілених відділів компанії та ІТ, що їх супроводжують. Метою в цьому випадку міг би стати інтеграційний підхід до взаємопов'язаних технологічних, соціальних, функціональних та господарських процесів компанії.

    Капіталовкладення та ризики

    Капіталовкладення в ІТ сьогодні спричиняють численні наслідки. З одного боку, вони відкривають певні перспективи, а з іншого - можуть позбавити підприємство перспективних можливостей у майбутньому через залежність, пов'язані з швидкими технологічними змінами та "прив'язки" до будь-якої однієї технології чи певного постачальника. Тому рішення про капіталовкладення в ІТ не повинні прийматися, доки не будуть оцінені ризики застосування тих чи інших комп'ютерних та телекомунікаційних засобів і не буде отримана професійна консультація, яким шляхом піде розвиток наступного покоління технології. При плануванні капіталовкладень у ІТ необхідно в обов'язковому порядку "тримати в думці" кінцеву мету їх придбання та розгортання - наскільки ІТ сприятимуть реалізації бізнес-стратегії підприємства.

    Психологічний фактор та мовні рівні

    Природно, що нова технологія підвищує продуктивність, допомагає фірмі досягти кращих господарських результатів. Поряд із цим менеджери повинні знати про те, як мислять і як працюють люди, які використовують нову технологію. Фірми, яким це вдається краще, можуть сподіватися велику віддачу від коштів, вкладених у ІТ.

    Виробники інформаційної техніки та інтеграційні команди повинні навчитися робити пропозиції не лише у вузькоспеціальних термінах. На переговорах партнер ставитиме питання, що мають принципове значення для вищого менеджменту в його компанії. Тут важливо, щоб обидві сторони вийшли на новий переговорний рівень, коли сторони розмовляли б однією мовою. У цьому випадку йдеться скоріше не про якість техніки, а про якість послуг у сфері ІТ. Техніка, зрозуміло, має добре працювати, бути на високому рівні. Водночас її виробник повинен відчути себе на місці менеджера, який за допомогою ІТ прагне досягти конкурентних переваг. "Чистий продавець" у системі збуту ІТ відходить у минуле. Аналогічна ситуація повинна складатися і на самому підприємстві, особливо коли йдеться про багатопрофільне виробництво або різноманітні послуги. Вміння ІТ-менеджера знаходити спільну мову з менеджерами підрозділів має перестати бути мистецтвом одинаків, а перетворитися на повсякденну практику.

    Обмін інформацією суспільстві здійснюється головним чином текстової формі. Тому не випадково, що дуже значну частку інформаційних ресурсівсучасних інформаційних систем складає текстова інформація. Розробкам ефективних технологій зберігання, обробки та пошуку текстової інформації стало приділятись велика увага вже на ранніх стадіях розвитку інформаційних систем. Активні дослідження та практичні розробки в цій галузі почалися ще в 50-х роках минулого століття, з того часу, коли засоби обчислювальної техніки забезпечили можливість введення-виведення текстової інформації.

    p align="justify"> Серед інформаційних систем, що мають справу з текстовою інформацією, найбільш поширеними є системи текстового пошуку. Їх завдання полягає в тому, щоб знаходити в колекції, що зберігається в комп'ютері. текстових документівприродною мовою такі документи, які цікавлять користувача.

    Розвиток систем текстового пошуку стимулювався значною мірою потребами інформаційної підтримки наукових досліджень та освіти, розробками автоматизованих бібліотечних систем. Проте в останні роки вони все активніше використовуються також в управлінні компаніями та в багатьох інших сферах діяльності. Пошук інформації за допомогою комп'ютерів має вже майже піввікову історію. Перші автоматизовані інформаційні системи почали розроблятися ще в 50-х роках минулого століття, і головною їхньою функцією був саме пошук інформації. Тому їх назвали інформаційно-пошуковими системами (ІПС).

    Залежно від характеру підтримуваних інформаційних ресурсів ці системи було прийнято розділяти на дві категорії: фактографічні та документальні. Фактографічні ІПС оперували фактами, представленими у вигляді сутностей реального світу та їх властивостей, і дозволяли знаходити сутності, що володіють заданими користувачем властивостями, а також властивості заданих сутностей. Коли на початку 1960-х років почали зароджуватися технології баз даних, стало ясно, що інформаційна система цієї категорії є окремим випадком системи бази даних. В результаті цей напрямок у галузі інформаційного пошуку поступово було «поглинено» технологіями баз даних.

    Документальні ІПС призначені для зберігання та пошуку документів, що містять тексти природними мовами. Такі ІПС і є ранні системи текстового пошуку.

    Системи текстового пошуку, що розроблялися в цей період, називалися дескрипторними ІПС. У таких системах зміст кожного текстового документа та пошукових запитів описується наборами слів або словосполучень, званих дескрипторами. У процесі пошуку ІПС оперує не самими текстовими документами, а такими їх «заступниками», які у більшості систем формуються авторами документів, експертами в предметній галузі документів та іншими особами. Зіставлення наборів дескрипторів, що представляють в системі документи, з набором дескрипторів, що представляє запит користувача, дозволяє знаходити необхідні користувачеві документи. Дескрипторні ІПС мають відносно нескладні механізми пошуку, але якість пошуку є порівняно невисокою.

    Однією з найпоширеніших сфер застосування дескрипторних систем був бібліографічний пошук. У таких системах зберігаються колекції бібліографічних описів документів, і система дозволяє знаходити публікації заданого автора, публікації, випущені вказаним видавництвом та/або, що вийшли у деякому році тощо. Багато бібліографічних дескрипторних ІПС використовуються до теперішнього часу.

    У процесі розвитку засобів обчислювальної техніки комп'ютери знайшли пристрої зовнішньої пам'ятіпрямого доступу досить великого обсягу, значно підвищилася продуктивність процесорів. Це дозволило створити і практично використовувати в документальних ІПС більш досконалі технології, які називаються технологіями повнотекстового пошуку.

    Завдяки можливості зберігання та обробки в таких системах повних текстів документів вдалося значною мірою автоматизувати процеси лінгвістичного аналізу та пошуку документів. Були розроблені підходи до автоматизації складання ряду словників і тезаурусів, що використовуються при цьому. У технологіях повнотекстового пошуку важливе місце посідають статистичні методи аналізу документів. Спочатку повнотекстових системах забезпечувався головним чином контекстний пошук, тобто. пошук документів, тексти яких містять входження заданого в запиті контексту. Пізніше почав використовуватися пошук за булевським критерієм. Були розроблені також різні тонші моделі пошуку.

    Протягом усієї історії систем текстового пошуку активно проводилися наукові дослідження у цій галузі. Великий вплив на розвиток систем текстового пошуку зробили новаторські дослідні проекти та розробки експериментальних прототипів повнотекстових пошукових систем, виконані у 60-х роках минулого століття. Цей період характеризується значними поступами у різних аспектах організації систем текстового пошуку та використовуваних у них методів. В даний час перспективні розробки в області, що розглядається, концентруються навколо авторитетної міжнародної конференції з текстового пошуку ТРЕС (Техt Retrieval Соnfегеnсе), заснованої в 1992 р. в США Американським національним інститутом по стандартах і технологіям (NIST).

    Активний розвиток технологій текстового пошуку та інформаційних потреб користувачів стимулювали трансформацію ІПС із систем текстового пошуку в системи більш загального класу, які мають справу не лише з текстовими документами, а й із документами, що містять інформацію іншої природи. У таких системах (їх називають мультимедійними) зміст їх об'єктів пошуку - документів - складає поєднання інформаційних ресурсів, представлених у різних середовищах, - текстових елементів, статичних зображень, аудіоданих (музичні твори, текст, сказаний голосом тощо), мультфільмів , відеокліпів і т.п.

    Ймовірно, щоб розрізняти системи текстового пошуку та пошукові системи, оперують цими іншими видами інформаційних ресурсів, останніми роками поруч із терміном інформаційно-пошукова система (Information Retrieval System) став використовуватися термін система текстового пошуку (Техt Search System чи Техt Retrieval System) .

    Оскільки користувачі пред'являють до систем текстового пошуку досить високі вимоги, сучасні технологіїтекстового пошуку стали дуже складною синтетичною областю досліджень та розробок. Ця область охоплює великий спектр проблем - від теорії інформаційного пошуку до методів задоволення потреб користувачів у зборі, організації, зберіганні, пошуку та розповсюдженні інформації. До неї належать також проблеми забезпечення інтерфейсів між користувачами та засобами управління ресурсами неструктурованої або слабоструктурованої інформації, що підтримується у комп'ютерному середовищі. У системах текстового пошуку знаходять застосування як аналітичні, і емпіричні підходи.

    Значне місце у технологіях текстового пошуку займає обробка природної мови, тобто. комп'ютерне вирішення завдань, пов'язаних з розумінням, аналізом, виконанням різних операцій над текстами природною мовою, а також з їх генерацією. Цей клас завдань відносять до галузі штучного інтелекту.

    У сучасних технологіях текстового пошуку використовується як апарат лінгвістики для аналізу текстів, а й статистичні методи, математична логіка і теорія ймовірностей, кластерний аналіз, методи штучного інтелекту, і навіть технології управління даними.

    Роботи з інформаційної супермагістралі, зокрема пов'язані зі створенням електронних бібліотек, що розгорнулися в багатьох країнах світу в середині 1990-х років, значною мірою пожвавили інтерес до проблем текстового пошуку. Виникли такі абсолютно нові напрямки, як виявлення інформації у глобальній комп'ютерної мережі, текстовий пошук у Веб, мультимовний пошук.

    За свою піввікову історію розвитку технології текстового пошуку зробили величезний крок від найпростіших дескрипторних інформаційно-пошукових систем до витончених систем повнотекстового пошуку, від пошукових систем до систем з більш багатою функціональністю. Ресурси сучасних обчислювальних систем дозволяють зберігати величезні обсяги інформаційних ресурсів у системах текстового пошуку, здійснювати в них не тільки технічні, а й алгоритмічно складні процедури обробки колекцій документів, що зберігаються - їх класифікацію, кластеризацію, глибинний аналіз текстів, переклад документів з однієї мови на іншу і т.д. .д.

    Системи текстового пошуку вплинули на формування специфічного класу інформаційних систем, які називаються системами управління документами, які широко використовуються в даний час у багатьох великих комерційних компаніях та інших організаціях. У таких системах важлива роль відводиться не тільки методам обробки природної мови, створеним для роботи з текстовими документами, а й організації групової розробки документів, їх зберігання, розповсюдження та, звичайно ж, технологіям текстового пошуку.

    Розвиток технологій текстового пошуку в останні роки досить інтенсивно продовжується завдяки активним дослідженням та розробкам, що проводяться у багатьох країнах. Сформувалася промисловість комерційного програмного забезпечення для систем текстового пошуку. Такі системи розробляються і широко використовуються в нашій країні.

    Як зазначалося, технології текстового пошуку мають справу з інформацією, представленою природними мовами. Змістовна різноманітність такої інформації досить велика - це можуть бути статті, опубліковані в газетах та журналах, різноманітні технічні посібники, звіти, книги, дисертації, листи, законодавчі акти та ін.

    Основна одиниця інформації у системах текстового пошуку називається документом. Документ - це не юридична сутність, а змістовно закінчена одиниця інформації, що ідентифікується унікальним чином, представлена ​​якою-небудь природною мовою. У ранніх ІПС документ розглядався як атомарна (неподільна) одиниця. Для системи він виступав як «чорний ящик». У більш розвинених системах текстового пошуку зміст документа доступний системі обробки та аналізу.

    Повнотекстові системи текстового пошуку оперують електронними документами, тобто. документи, що зберігаються в пам'яті комп'ютерів і доступні для автоматизованої обробки. Комп'ютерний лінгвістичний аналіз та обробка текстових документів можливі лише у випадку, якщо програмно доступні окремі елементитекстовий документ. Тому зовсім недостатньо просканувати текстовий документ на паперовому носії та зберегти отримане його факсиміле у пам'яті комп'ютера у вигляді графічного файлубудь-якого формату. Необхідно мати документ оцифрованому вигляді, тобто. у такому форматі, що кожна літера тексту цього документа є програмно-доступною. Система може таким чином оперувати елементами змісту оцифрованого документа. Подання текстового документа в оцифрованому вигляді може бути створене, наприклад, за допомогою:

    Сканування його з паперового носія та використання програми розпізнавання оптичних символів(Optikal Character Recognition – OCR);

    Генерація тексту програмним шляхом розпізнавателями голосу або будь-якими іншими способами.

    Сукупність документів, що зберігаються в системі, по-різному називається в різних системах(Пошуковий масив, архів тощо). Останнім часом для цього часто використовується термін «колекція документів». Кожна система текстового пошуку може підтримувати кілька різних колекцій документів.

    Документи зберігаються у системі текстового пошуку у тому, щоб задовольняти інформаційні потреби користувачів. Подання інформаційних потреб користувача у формі, що сприймається програмним забезпеченнямсистеми текстового пошуку, називається запитом користувача (або просто запитом). Необхідним компонентомзмісту запиту користувача є опис тих властивостей, якими володіють документи, що цікавлять користувача. Цей опис природно називати критерієм пошуку.

    Слід наголосити, що одиницею гранулярності пошуку, тобто. найменшою одиницею інформації, яка може видаватися користувачеві в результаті обробки заданого ним запиту, у більшості систем текстового пошуку є саме документ, а не його порція. Як правило, в результаті обробки запиту користувача система видає безліч результуючих документів, що задовольняють заданому в запиті критерію.

    Критерії пошуку в запитах користувача можуть мати різну форму. Наприклад, це може бути набір термів (слів або словосполучень), що містяться в необхідних документах, або термів, з'єднаних символами булевських операторів. В останньому випадку булевський оператор інтерпретується як умова одночасного (оператор «І») входження слів, що їм зв'язуються в документ, альтернативного входження (оператор «АБО») або відсутності входження (оператор «НЕ») наступного за ним терму. У більш складних випадках роль критерію пошуку може виконувати пропозицію природною мовою або навіть приклад документа, що задовольняє потреби користувача. Аналізуючи такий документ, система виділить терми для формування деякого «внутрішнього» виду цього запиту користувача.

    Зберігаються в системі документи, які відповідають запиту користувача, називаються релевантними.

    Релевантність документа необов'язково має оцінюватися у термінах двозначної логіки («так - ні»). У деяких розвинених системах використовуються тонші оцінки, які обчислюються як значення спеціально підібраної числової функції (функції релевантності), що приймає значення в інтервалі. У разі доречно говорити про ступінь релевантності документа, розуміючи її як значення цієї функції. Деякі системи текстового пошуку видають користувачеві безлічі документів, отриманих в результаті обробки запитів, упорядковуючи документи зі спадання ступеня релевантності. Таке впорядкування знайдених документів називають їх ранжуванням. Користувач ефективніше може аналізувати ранжированное безліч результуючих документів запиту. З великою ймовірністю найбільш цікаві документи з числа знайдених знаходяться на початку списку документів.

    В силу різних причин, пов'язаних, зокрема, з труднощами автоматизації розуміння природної мови, а також з неточністю відображення інформаційних потреб користувача в запиті, в результаті обробки запиту користувача можуть бути знайдені документи, що не відповідають інформаційним потребам користувача. Таке явище називається інформаційним шумом.

    Важливими характеристиками якості пошуку у системах текстового пошуку є повнота та точність пошуку. Повнота пошуку визначає відношення кількості релевантних документів, що видаються в результаті обробки запитів, до кількості фактично наявних в системі релевантних документів. Для кількісної оцінки точності пошуку може бути частка релевантних документів у багатьох результуючих документів запиту.

    2. Принципи текстового пошуку

    Розглянемо тепер основні засади побудови сучасних систем текстового пошуку. Різноманітність технологій, що використовуються тут, викликана відмінностями підходів, що використовуються для представлення сенсу документів, що зберігаються в системі, природними мовами та інформаційних потреб користувачів, різноманіттям критеріїв релевантності документів користувальницьким запитам.

    Джерела складності сучасних систем текстового пошуку. На відміну від технологій ранніх інформаційно-пошукових систем розвинені сучасні технології текстового пошуку забезпечують пошук документів, що цікавлять користувача, на основі їх інформаційного змісту, а не тільки за наборами дескрипторів або значеннями будь-яких атрибутів, асоційованих з цими документами (рік видання, автор, видавництво та т.п.). Ці атрибути, хоч і можуть, зокрема, бути унікальними ідентифікаторамидокументів, але не залежать від їх змісту.

    Основні проблеми технологій текстового пошуку пов'язані зі складністю однозначної автоматичної інтерпретації змісту текстів документів та формулювань інформаційних потреб користувачів природною мовою. Висловлювання природною мовою часто мають двозначність і надмірність. Необхідно враховувати синонімію та омонімію термінів, різноманіття граматичних форм елементів мови. Смислові зв'язки між словами у реченні часто подаються у неявній формі. Динамічна лексика природних мов, досить часто у багатьох предметних галузях з'являються нові поняття та терміни.

    Зазначені особливості призводять до відсутності будь-якої регулярної структури у текстових документів природною мовою. Тому дані, які мають інформаційні ресурси такої природи, називають неструктурованими.

    Смислове зіставлення змісту збережених у системі документів і виражених природною мовою запитів користувача є досить важким завданням. Саме цим і пояснюються складності вирішення питання про те, чи відповідає документ, що розглядається, інформаційним потребам користувача в сучасних системахтекстовий пошук.

    Для керування даними такої природи необхідно використовувати іншу, ніж у системах баз даних, техніку керування даними, хоча деякі елементи керування даними, що використовуються в системах баз даних, застосовні і для систем текстового пошуку.

    Подання документів. Колекції документів, які у системах текстового пошуку, може бути досить великими. Досить великий обсяг можуть мати тексти, що містяться в документах. Тому неможливо розраховувати на те, що система текстового пошуку зможе аналізувати повні тексти документів, що зберігаються в процесі обробки користувальницьких запитів, навіть якщо ця система базується на дуже потужному комп'ютері. Продуктивність такої системи була б не надто високою.

    Вихід із положення полягає в тому, щоб у процесі обробки запиту користувача працювати не з самими документами, а з деякими структурованими уявленнями їх змісту, які називають поданнями документів (у деяких публікаціях їх називають також представниками документа). Використання подання документа замість безпосередньо самого документа дозволяє уникнути трудомісткого процесу перегляду та аналізу повного його змісту на стадії пошуку і водночас використовувати переваги структурованого подання підвищення ефективності пошуку.

    У сучасних системах текстового пошуку використовуються різні підходидо побудови уявлень документів, що зберігаються. Від характеру використовуваних уявлень документів значно залежить якість пошуку - його точність, повнота, продуктивність та інші характеристики. Оскільки введені в систему текстові документи залишаються, як правило, незмінними протягом усього часу їх існування в системі, побудова представлення кожного документа, що є в системі, можна здійснювати одноразово на етапі його введення в систему.

    Індексування документів. Подання документа зазвичай конструюється з урахуванням безлічі властивостей (атрибутів) цього документа. У простих системахтекстового пошуку ці атрибути, як зазначалося, взагалі є якісь компонентами змісту документа. Як такі атрибути можуть використовуватися будь-які зовнішні (стосовно тексту документа) його характеристики, і зовсім не обов'язково, щоб вони ідентифікували його унікальним чином. Можна, наприклад, використовувати реєстраційний номер документа в архіві, дату його реєстрації, назву організації - одержувача документа, вказівку місця його зберігання тощо. Як такі зовнішні атрибути документів можуть також використовуватися рубрики класифікаторів документів або елементи метаданих Дублінського ядра.

    Дублінське ядро ​​(Dublin Core - DC) - це набір елементів метаданих, зміст яких описаний вербально і зафіксований у специфікації його стандарту. У термінах значень цих елементів можна описувати зміст різноманітних текстових документів і документів, які у інших середовищах. Такий опис буде однозначно розумітися всім співтовариством, що використовує DC для подання документів та запитів користувача.

    Дублінське ядро ​​знаходить дедалі ширше поширення останніми роками. Привабливість такого підходу пов'язана з його простотою, що звичайно обертається обмеженістю його можливостей.

    Початкова версія Дублінського ядра, яка включала 13 елементів, була запропонована на симпозіумі, що відбувся в 1995 р. у Дубліні (США), організованому On-line Computer Library Center (OCLC) та National Center for Supercomputing Applications (NCSA) для опису інформаційних ресурсів , зокрема інформаційних ресурсів Веб тощо. Розвиток Дублінського ядра підтримується спеціально заснованою з цією метою організацією - Ініціативою метаданим Дублінського ядра (Dublin Core Metadata Initiative - DCMI).

    Поточна версія специфікацій Дублінського ядра DC 1.1 була прийнята як стандарт DCMI в 1999 р. Вона включає 15 елементів метаданих. До них відносяться:

    Title (назва ресурсу);

    Creator (особа, організація чи служба, відповідальні за підготовку змісту ресурсу);

    Subject (тема, що обговорюється у змісті ресурсу);

    Description (опис змісту ресурсу у вільній формі);

    Publisher (обличчя, організація або служба, що забезпечують доступ до ресурсу);

    Contributor (інші учасники підготовки змісту ресурсу крім зазначеного у Creator)",

    Date (дата створення чи надання доступу до ресурсу);

    Format (характер подання ресурсу);

    Language (мова подання ресурсу);

    Coverage (область простору, часу тощо, до якої належить зміст ресурсу);

    Rights (права інтелектуальної власності на ресурс тощо). Досягнута угода про склад елементів метаданих Дублінського ядра фіксує склад його елементів. Однак на вербальному рівні важко однозначно приписати кожному з них точний зміст. Наприклад, елемент Date у різних випадках може мати різний зміст - дата публікації сторінки у Веб, дата останнього оновленняцієї сторінки і т.д.

    З цієї причини у 2000 р. для Дублінського ядра DMCI було запропоновано концепцію кваліфікаторів та опубліковано їх початковий склад.

    Кваліфікатори - це уточнювачі семантики елементів метаданих Дублінського ядра та їх значень у різних випадках їх застосування. Наприклад, для елемента Date можна вказати, що мають на увазі час створення ресурсу, час його доступності чи час, протягом якого його зміст має чинність, тощо. Для значення елемента Relation можна вказати, що його представлено у форматі URL.

    Якщо кваліфікатор, вказаний для деякого елемента метаданих Дублінського ядра, виявився невідомим для програми Веб, він повинен ігноруватися.

    Прийнятий DMCI у 2000 р. набір кваліфікаторів включає кваліфікатори двох категорій: кваліфікатори, які уточнюють семантику елементів метаданих ядра, та кваліфікатори, що визначають спосіб кодування значень його елементів, що дозволяє адекватно їх інтерпретувати.

    В даний час ведеться робота щодо уточнення як наведеного складу набору елементів метаданих, так і їх кваліфікаторів. На основі специфікацій DC 1.1 у 2001 р. було прийнято національний американський стандарт ANSI/NISO Z39.85-2001.

    У системах контекстного повнотекстового пошуку атрибути подання документа - це терми, витягнуті з його змісту, - слова, словосполучення тощо, чи значення якихось спеціально підібраних функцій, обчислені з урахуванням цих витягнутих термів.

    У будь-якому разі асоційовані з документом атрибути, що ідентифікують документ та/або характеризують його зміст, називаються його властивостями, що індексують. На основі індексуючих властивостей документів у системі текстового пошуку будується допоміжна структура даних, що дозволяє за їх значеннями або за значеннями деякої функції, що використовує їх як аргументи, ефективним чином (без повного перегляду змісту документів і без їх перебору) виявляти в системних колекціях документ або документи, яким ці атрибути відповідають, та за необхідності здійснювати швидкий доступдо цих документів. Така допоміжна структура даних називається індексом, а призначення документу зазначених атрибутів - індексуванням документа.

    У ранніх системах текстового пошуку використовувалося найпростіше уявлення документів, яке мало велику популярність завдяки його простоті, хоча й не могло забезпечити високої якості пошуку. Як таке уявлення служила сукупність слів чи словосполучень лексики предметної області системи, характеризує зміст цього документа. Ці слова та словосполучення називаються дескрипторами. Подання документа в дескрипторних системах називається пошуковим чином документа.

    ІПС, у яких використовується підхід, називаються дескрипторними системами. Такі системи використовуються до теперішнього часу. Індексування документа у яких зводиться до призначення йому сукупності дескрипторів.

    Індексування документів у системах текстового пошуку може здійснюватися на основі їх назв, анотацій або повного тексту. Воно може проводитися вручну авторами документів, експертами в предметній галузі системи, які готують документи до введення в систему, або автоматично системними механізмами на основі аналізу документів.

    Методи подання та індексування документів у сучасних розвинених системах текстового пошуку використовують досить трудомісткі обчислювальні процедури, тому вони можуть бути реалізовані лише автоматично.

    Подання запитів користувача. Формування структурованих уявлень змісту запитів користувача є іншим важливим завданням систем текстового пошуку. Точно так, як у процесі пошуку система оперує структурованими уявленнями документів замість самих документів, вона використовує замість заданого користувачем запиту його структуроване уявлення, яке конструюється в процесі обробки цього запиту. Подання запиту будується з урахуванням тих самих принципів, як і подання документів у цій системі, оскільки інакше їх було б зіставляти.

    Наприклад, у дескрипторних системах текстового пошуку як подання запиту також використовується сукупність дескрипторів, що характеризують зміст запиту. У таких системах подання запиту називається пошуковим чином запиту.

    Критерії релевантності документів. У процесі обробки запиту системі необхідно оцінювати релевантність чергового аналізованого документа. Для вирішення цього питання його подання має зіставлятися за деяким критерієм релевантності (критерію близькості) з поданням запиту.

    Вигляд критерію близькості залежить від підходу, що використовується у системі для формування уявлень документів та запитів. У дескрипторних системах зазвичай використовуються теоретико-множинні критерії. Наприклад, документ визнається релевантним, якщо безліч дескрипторів пошукового образу запиту є підмножиною безлічі дескрипторів пошукового образу документа. Інші варіанти критерію - зазначені множини дескрипторів рівні або їх перетин не порожньо. У розвинених системах текстового пошуку використовуються складніші критерії близькості.

    Загальні засади текстового пошуку. Сучасні системи текстового пошуку використовують досить широкий спектр підходів до подання та індексування збережених документів, до подання запитів користувача, до оцінки релевантності документів. Однак як у простих, так і в просунутих системах використовуються деякі загальні принципиорганізації пошуку. Ці загальні принципи полягають у наступному.

    При введенні документа в систему здійснюється індексування документа і будується його подання, яке далі виступатиме заступником цього документа в процесі функціонування системи при обробці запитів користувача. Оскільки подання документа достатньо формалізоване, виключається необхідність аналізу його повного тексту щоразу при обробці запитів. Подання документа залишається незмінним протягом період існування документа у системі, оскільки зміст документа не змінюється.

    Далі, на основі індексуючих властивостей конкретних документів, отриманих ззовні системи або виявлених самою системою шляхом аналізу змісту документів, система формує та підтримує індекс для кожної колекції документів, що зберігаються в ній. Вона також забезпечує актуалізацію індексу при поповненні колекції або, що трапляється порівняно рідко, за винятком документів з колекції.

    При надходженні в систему запиту користувача для нього також будується відповідне подання. Метод його побудови аналогічний для побудови уявлень документів.

    Нарешті, власне пошук полягає в тому, що будь-яким ефективним чином (не прямим перебором, а зазвичай за допомогою раціонально організованого індексу документів колекції) здійснюється зіставлення подання запиту з уявленнями документів, що зберігаються в системі, за прийнятим і системою критерію близькості. У деяких випадках для цих кіл вводиться спеціальна метрика. Результати обробки запитів подаються у вигляді множини знайдених релевантних документів (результуючої множини документів).

    Хоча на практиці використовуються різного роду поданні документів і запитів користувача, зазначені загальні принципи текстового пошуку використовуються в різних системах.

    3. Засоби лінгвістичної підтримки

    Під час обробки повнотекстових документів у системах текстового пошуку доводиться мати справу із засобами обробки природної мови. Ці засоби є досить складним і важливим функціональним компонентом таких систем.

    Засоби обробки природної мови в системах текстового пошуку дозволяють виділяти з аналізованих текстових документів і запитів терми (слова, словосполучення або фрази) - носії їх змісту, виявляти залежності між цими термами, брати до уваги їх концептуальні зв'язки в контексті даної предметної області, будувати на на цій основі представлення документів, трансформувати пошукові запити користувачів у зручну для реалізації пошуку форму, здійснювати розширення запитів на підвищення повноти пошуку.

    Для виконання зазначених функцій у більшості систем класу, що розглядається, використовуються комплекси засобів лінгвістичної підтримки. Такий комплекс може містити різні словники, тезауруси, онтологічні специфікації предметної галузі системи.

    Системні словники. У системах текстового пошуку, що мають справу з обробкою природної мови, можуть підтримуватись словники загальномовної лексики та лексики предметної галузі. Такі словники служать для морфологічного аналізу тексту, забезпечення ототожнення слів у різних граматичних формах у процесі пошуку, і навіть для побудови деяких видів уявлень документів і запитів.

    Тезаурус. Важливу роль аналізі та формуванні формалізованого подання текстових документів грають спеціальні словники, звані тезаурусами. Тезаурус – це словник основних понять мови, що позначаються окремими словами чи словосполученнями, з певними семантичними зв'язками між ними.

    Тезаурус може бути загальномовним (наприклад, тезаурус російської) або орієнтованим на будь-яку предметну область. Лексика тезаурус включає безліч слів і/або безліч фраз. Види підтримуваних семантичних зв'язків з-поміж них можуть бути залежними чи незалежними від конкретної предметної області. Зазвичай такі зв'язки визначають синоніми, омоніми, антоніми понять мови, підтримують між ними відносини виду "ціле - частина", "рід - вид", "використовується для", "працює в" і т.д.

    В даний час застосовуються два способи створення тезаурусів – ручний та автоматичний. Тезаурус, створений вручну може бути універсальним, незалежним від конкретної колекції документів. Однак, на жаль, розробка тезаурусу вручну є дуже дорогою, копіткою і трудомісткою справою, яка потребує значного часу. Тому практично часто використовують автоматичне створення тезаурусов. Методи вирішення цього завдання почали розроблятись ще на початку 60-х років минулого століття. Автоматичне створення тезаурусів здійснюється зазвичай на основі заданих колекцій текстових документів, тому такі тезауруси призначені для роботи саме з цими колекціями.

    У системах, що використовують тезаурус, він дозволяє, наприклад, при пошуку за ключовими словами розширювати запит, включаючи синоніми спочатку заданих користувачем ключових слів і забезпечуючи тим більш повний пошук. Можуть бути ототожнені синоніми в документі та запиті. Тезауруси також часто використовують у процесі ручного чи автоматичного індексування документів.

    Онтологія. Для адекватної інтерпретації користувачем та/або системою змісту текстових документів та пошукових запитів, представлених природною мовою, система повинна мати контекст, який визначає основні поняття предметної області та різного роду семантичні зв'язки між ними. Цей опис не залежить від конкретних документів, що містяться в системних колекціях, і є специфікацією концептуалізації предметної області системи. Виражена явно така специфікація називається онтологією предметної області. Онтології набули в останні роки широкого поширення в різноманітних інформаційних системах, заснованих на знаннях, в інженерії знань, у вирішенні проблем семантичної інтеграції інформаційних ресурсів і т.д.

    Онтологія предметної області може підтримуватися у системі з різним ступенем формалізованості. У найпростішому випадку вона представляється як деякого вербального описи. Тоді вона призначена для використання людиною на стадії індексування документів та при формулюванні запитів. У складнішому разі онтологія представляється у формалізованому вигляді мовами уявлення знань, допускають логічний висновок. Такі системи називають інтелектуальними.

    Ще на ранній стадії розвитку систем текстового пошуку почали використовувати уявлення онтології у формі ієрархічних класифікаторів. У цьому сутності сусідніх рівнів ієрархії зазвичай перебувають у відношенні «ціле - частина» чи «рід - вид».

    Інший неформальний спосіб опису онтології, який досить широко застосовується в системах текстового пошуку, - це її уявлення у формі тезауруса предметної області системи.

    Для формального опису онтології у розвинених системах використовуються мови логіки першого порядку. Вони припускають можливості логічного висновку. Досить широкого поширення набула для представлення онтології мова зазначеної категорії KIF (Knowledge Interchange Format), розроблена на початку 1990-х років у Лабораторії систем знань (KSL) Стенфордського університету.

    Однією з останніх розробок, присвячених створенню засобів формального опису онтології є стандарт мови визначення онтології для інформаційних ресурсів Веб - Web Ontology Language. Роботу над цим стандартом веде Робоча групаз онтологій для Інтернет консорціуму W3C. Зазначена мова, безсумнівно, знайде застосування інтелектуальних системах пошуку інформаційних ресурсів серед Веб другого покоління.

    4. Моделі пошуку

    Найбільш розвинені технології текстового пошуку забезпечуються повнотекстовими системами. Як було показано, існують різні підходи до побудови таких систем. Ці відмінності пов'язані не тільки з різноманітністю форм інформаційних потреб користувачів, але й, головним чином, з різницею способів подання повнотекстових документів та запитів користувача в системі.

    Концепція моделі пошуку. Ключовим поняттям, що характеризує технологію пошуку в тій чи іншій конкретній системі, є модель пошуку. Під моделлю пошуку розуміється поєднання: способу формування уявлень документів; способу формування уявлень пошукових запитів; виду критерію релевантності документів

    Різноманітність функціональних можливостей різних систем текстового пошуку пов'язана саме з відмінністю реалізованих у них моделей пошуку.

    Найпростіші моделі пошуку. Багато системах використовуються найпростіші моделі пошуку. До них належать, наприклад, розглянуті вище моделі пошуку дескрипторних ІПС та систем, що використовують Дублінське ядро.

    Іншим прикладом найпростіших моделей пошуку є моделі, що ґрунтуються на класифікаторах. У моделі, заснованій на класифікаторі, документи подаються ідентифікаторами класів ієрархічній структурікласифікатора, до яких належить даний документ. Подання запиту в найпростішому випадку також є ідентифікатор користувача класу заданого класифікатора, що цікавить. Критерієм релевантності документа є умова, що клас документа збігається з будь-яким класом у поданні запиту або його підкласом.

    У більш складному випадку в моделях пошуку, що базуються на класифікаторі, допускається вказівка ​​в запиті кількох класів класифікатора. При цьому релевантними вважаються документи, що належать будь-якому із зазначених у запиті класів або його підкласу. Така модель пошуку близька до даної булевської моделі.

    Моделі контекстного пошуку. Дещо складніший характер мають моделі контекстного пошуку. Застосування цих моделей стало можливим, коли досить високої продуктивності досягли процесори обчислювальних машин і збільшився обсяг їхньої зовнішньої пам'яті прямого доступу. У моделях контекстного пошуку використовується представлення документа як сукупності всіляких слів і словосполучень, що зустрічаються в його тексті, крім так званих стоп-слів. Стоп-слова – це службові слова (прийменники, спілки тощо), які зустрічаються практично в будь-якому документі. Пошук документів, що містять такі слова, призвів би до видачі повної колекції документів у відповідь на запит. Тому такі слова не можуть використовуватися як індексуючі властивості документів.

    У системах аналізованого класу будується індекс за всіма словами і словосполученням, що зустрічаються в документах, крім стоп-слів. При цьому для побудови індексу слова, виділені з тексту документа, наводяться спочатку до «канонічного вигляду» за допомогою словників і засобів граматичного розбору, що підтримуються в системі. Користувальницький запит також піддається граматичному розбору, в процесі якого із запиту також виділяються слова і словосполучення, що зустрічаються в його тексті. Документ вважається релевантним, якщо будь-які слова чи словосполучення із запиту зустрічаються з точністю до граматичних форм у тексті документа.

    Іноді використовується жорсткіший критерій релевантності - входження до тексту документа всіх названих у запиті слів і словосполучень тощо.

    Булівські моделі пошуку. У системах текстового пошуку широко використовуються булевські моделі пошуку. Користувач може формулювати запит у вигляді булевського виразу з використанням операторів І, АБО, НІ. Терми булевського виразу можуть бути різними у різних варіаціях булевських моделей пошуку. Це може бути, наприклад, умова входження даного слова або словосполучення (з точністю до граматичних форм) до тексту документа у булевському розширенні контекстної моделі пошуку. У булевському розширенні моделі пошуку за класифікаторами термами вираження можуть бути умови належності документа даному класукласифікатор. У булевській моделі пошуку з використанням Дублінського ядра термом може бути рівність, що описує той факт, що деякий елемент метаданих для документа має задане в запиті значення.

    Критерієм релевантності даного документа запиту в булевських моделях пошуку є істинність висловлювання булівського, заданого в запиті.

    Вектор шаблон пошуку. Найширше застосування у розвинених системах текстового пошуку мають векторні моделі пошуку. Використання таких моделей вимагає значно більших обчислювальних ресурсів у порівнянні з іншими моделями, проте вони забезпечують значно більше висока якістьпошуку.

    У векторних моделях передбачається, що документи та запити надаються векторами. У найпростішому випадку координати вектора відповідають термам тексту - словам чи словосполученням, що належать словнику системи, який представляє загальномовну лексику або лексику предметної області. Кожному терму такого словника зіставляється свій вимір у векторному просторі. Розмірність векторів, що представляють документи і запити користувача, в точності дорівнює кількості вимірювань в цьому просторі.

    Координаті вектора надається одиничне значення в тому випадку, коли відповідний їй терм зустрічається в даному документі або, відповідно, в запиті користувача. В іншому випадку координаті вектора надається нульове значення. Оскільки розмір словника може бути дуже великим, а документи або тексти запитів містять істотно меншу кількість термів, що містяться в ньому, такі вектори виявляються дуже розрідженими. Тому потрібно використовувати якусь техніку стисненого їх уявлення.

    Для оцінки ступеня релевантності документа запиту (заходи їх близькості) у векторних моделях пошуку використовуються будь-які векторні функції, аргументами яких виступають вектори, що їх представляють. Наприклад, можна використовувати в такий спосіб косинус кута між вектором документа і вектором запиту. Важливо зауважити, що оскільки ненульові координати цих векторів відповідають лише термам, що входять у текст документа і текст запиту, значення функції - заходи обох цих випадках - впливають лише терми, загальні документа і запиту.

    Для підвищення керованості векторних пошукових моделей часто ускладнюють ці моделі. Вводяться ваги термів, що характеризують їхню значимість. Значення цих ваг використовуються як координати вектора документа, якщо його текст включає відповідні терми. Таким чином, входження різних термів у текст документа впливають на значення функції близькості документа і запиту. Існують різні підходи до вибору зазначених ваг. Найчастіше для цієї мети використовують добуток частоти входження терму в даний документ та частоти його входження у всі документи колекції в цілому. Зважуватись можуть також і терми запиту.

    Відмінності між конкретними векторними моделями пошуку зводяться саме до у різний спосібпризначення ваг термів та вибору мір близькості. Векторні моделі дозволяють ранжувати результуючу множину документів запиту.

    5. Стан розробок систем текстового пошуку

    Системи текстового пошуку в останні роки стали активно використовуватися в різних галузях діяльності. В той час, як спочатку вони розроблялися головним чином як інструмент для бібліотечної справи, в даний час вони знайшли застосування в різних організаціях для роботи з їхніми текстовими інформаційними ресурсами. Особливо інтенсивно технології текстового пошуку почали розвиватися з появою глобального інформаційного просторуВеб.

    Коло проблем у сфері текстового пошуку. Нині проблематика текстового пошуку стала досить великою. Вона охоплює різні галузі теорії та розробки систем текстового пошуку, такі як:

    Розвиток конкретних моделей пошуку;

    Методологія проведення експериментів, тестування та оцінки систем;

    методи реалізації текстового пошуку;

    Підходи до інтеграції технологій текстового пошуку та баз даних;

    Пошук у середовищі Веб;

    Методи стиснення даних;

    Оцінка ефективності обробки запитів;

    Обробка природної мови;

    Методи класифікації та кластеризації текстових документів;

    Програми інформаційного пошуку в електронних бібліотеках;

    глибинний аналіз текстів;

    Технології індексування та пошуку мультимедійної інформації;

    Інтерфейси "людина - комп'ютер" і т.д.

    Розширення функціональних можливостей текстових систем.

    Розробники систем текстового пошуку приділяють велику увагу не тільки вдосконаленню механізмів виконання їх базових функцій, а й розвитку низки додаткових можливостей, що дозволяють істотно збільшити ефективність пошуку, підвищити керованість системи, забезпечити більш комфортні умови для роботи користувача. Перерахуємо такі можливості.

    Підвищення точності пошуку. У формулюванні запиту користувача не всі терми можуть бути рівнозначними. Деякі системи текстового пошуку дозволяють користувачеві надати ваги термам, що використовуються в запиті, з тим, щоб охарактеризувати їх значимість у запиті. Ця інформація використовується при обчисленні оцінок релевантності документів інформаційним потребам користувача, тим самим істотно підвищується точність пошуку.

    Ранжування результуючих документів запиту. Через розглянуті раніше причини системи текстового пошуку не можуть гарантувати суворого задоволення інформаційних потреб користувача в результаті виконання пошукових запитів. Кількість результуючих документів зазвичай буває значною. Тому дуже важливо впорядкувати документи, що видаються системою користувачеві, таким чином, щоб на початку списку знаходилися документи, які, ймовірно, більшою мірою становлять інтерес для користувача. Операція такого роду називається ранжируванням документів. Розвинені системи текстового пошуку мають механізми, що забезпечують таку можливість. Залежно від реалізованої ними моделі пошуку, передбачається впорядкування безлічі документів, що видаються в результаті обробки запиту користувача, за деякими оцінками ступеня їх релевантності запиту або ймовірності задоволення інформаційних потреб користувача.

    Зворотний зв'язок релевантності - важлива функція, що дозволяє підвищити ефективність пошуку документів, що потрібні користувачеві. Справа в тому, що результати обробки запиту можуть не задовольняти користувача. У таких випадках у багатьох системах текстового пошуку користувачеві надається можливість уточнити запит. Для цього він може дати оцінку релевантності отриманих документів - зазначити, які з них вважає релевантними або нерелевантними.

    Оскільки кількість результуючих документів може бути досить великою, користувачеві пропонується оцінити хоча б кілька перших документів у списку, що ранжується, тобто. документів, яким система призначила найвищі оцінки ступеня релевантності. Система може використовувати терми цих документів для формування нового, розширеного запиту, який, швидше за все, точніше висловлюватиме інформаційні потреби користувача.

    Такий ітераційний процес обробки запиту та модифікації його за допомогою аналізу даних, отриманих на основі зворотного зв'язку користувача з системою, може повторюватися доти, доки користувач не буде задоволений результатами пошуку. Зворотний зв'язок релевантності використовується в системах, що базуються на різних моделях пошуку.

    Автоматичне розширення запитів користувача. Мається на увазі розширення подання запиту, спочатку запропонованого користувачем. Ця можливість також слугує для підвищення ефективності пошуку.

    Вихідне подання запиту може поповнюватися за рахунок:

    Синонімів термів, що містяться в запиті, якщо система має тезаурус, що підтримує відношення синонімії;

    Термів, які знаходяться з термами запиту в деяких інших семантичних відносинах, визначених тезаурусом предметної області, наприклад, представляють частину поняття, що відповідає деякому терму запиту, і т.п.;

    Термів результуючих документів, оцінених користувачем як релевантні чи нерелевантні, у системах, які забезпечують Зворотній зв'язокрелевантності;

    Часто орфографічно помилкових форм деяких термів запиту і т.д.

    Автоматичне індексування документів. Дослідження, проведені ще на ранніх стадіях розвитку систем текстового пошуку, показали, що автоматичне індексування документів не поступається якістю ручному індексуванню. Тому у сучасних розвинених системах використовується автоматичне індексування.

    Мультімовний пошук. Деякі системи текстового пошуку дозволяють шукати в колекціях, що містять документи, представлені кількома природними мовами. Однією зі складних проблем, які при цьому виникають, є ідентифікація мови, якою представлений оброблюваний документ або його фрагменти.

    Крос-мовний пошук. Існують такі системи текстового пошуку, в яких можливі ситуації, коли інформаційні потреби користувача визначені однією мовою, а документи колекції, в якій має здійснюватися пошук, представлені іншою мовою. Це завдання поки що є значною мірою дослідницької, хоча вона вже досить часто зустрічається на практиці, наприклад, у системах міжнародних організацій, транснаціональних компаній чи будь-якої організації в країні, де існує кілька державних мов.

    Основна проблема крос-мовного пошуку полягає в зіставленні документа і запиту користувача, представлених на різних мовах. Для її вирішення необхідно використовувати переклад документів, переклад запитів або переклад того і іншого разом. При цьому використовуються різні підходи – послівний переклад за двомовним словником, «ручний» переклад з підтримкою комп'ютера, автоматичний машинний переклад повного документа або частини документа.

    Текстовий пошук у системах баз даних. Інтеграція ресурсів баз даних та колекцій текстових документів, а також використання інструментарію систем баз даних для реалізації систем текстового пошуку вже давно затребувані практикою розробки інформаційних систем.

    Дійсно, текстові документи можуть мати різні структуровані характеристики, і в таких випадках може знадобитися не тільки традиційний пошук за змістом документів, а й пошук за значеннями таких асоційованих з документами зовнішніх атрибутів. Підтримка зв'язків між асоційованими з документами атрибутами та відповідними ним документами, а також пошук документів за значеннями асоційованих з ними атрибутів, цілком вписуються у звичайні технології баз даних. Крім того, механізми середовища зберігання СУБД можуть бути використані для зберігання самих документів.

    Водночас інформаційні ресурси, якими оперують системи баз даних, часто включають поряд із структурованими даними також пов'язані з ними текстові документи. Тому необхідність текстового пошуку виникає і серед традиційних систем баз даних. У зв'язку із зазначеними причинами традиційні СУБД стали оснащуватися механізмами текстового пошуку змісту документів.

    Технології текстового пошуку підтримуються в даний час багатьма реляційними та об'єктно-реляційними серверами баз даних, наприклад СУБД DB2 компанії IBM, Oracle компанії Oracle Corp. SQL-Server 7.0 та SQL-Server 2000 компанії Microsoft Corp. Слід зазначити, проте, що у більшості таких СУБД механізми текстового пошуку не забезпечують реалізації просунутих моделей пошуку, які обговорювалися вище. Найчастіше справа обмежується підтримкою булевської моделі пошуку, іноді з розширенням запитів, з механізмами повнотекстового індексування та деякими іншими додатковими можливостями.

    Пошук текстових ресурсів у Веб. Зі зростанням обсягу інформаційних ресурсів Веб проблема використання технологій текстового пошуку в цьому середовищі стає все більш актуальною. Навігаційний доступ до інформаційних ресурсів Інтернет не забезпечує достатньо оперативного доступу до них.

    При реалізації технологій текстового пошуку до Інтернету враховуються специфіка Інтернет як середовища пошуку, особливості підтримуваних у ній інформаційних ресурсів, а також поведінки користувача при взаємодії з Інтернетом.

    Ранні пошукові системи Інтернет, звані також пошуковими машинами Інтернет, забезпечували найпростіший контекстний пошук. Пізніше почали з'являтися реалізації булевських моделей пошуку. В останні роки інтерес до проблем текстового пошуку до Інтернету значно зріс. Різними колективами проводяться численні та різноманітні дослідження у цій галузі. В даний час існує цілий спектр систем текстового пошуку для Інтернету. Серед них є системи універсальні та орієнтовані на певні предметні області, системи міжнародного та національного масштабу. До них належать найбільша багатомовна пошукова система AltaVista, системи Yahoo!, Google, пошукова система по російських сторінках Веб Яndex та багато інших. Вони відрізняються областю дії - складом сканованих веб-серверів, організацією інтерфейсів, функціональними можливостями механізмів пошуку. Усі вони підтримують різні версії булевської моделі пошуку. Деякі системи забезпечують ранжування результуючої множини документів, підтримують зворотний релевантність. Система AltaVista реалізує можливості поетапного скорочення області пошуку. Після проведення пошуку користувачеві надається гістограма, що характеризує статистику знайденої множини документів за класами. Користувач може відібрати цікаві для нього класи. Далі пошук повторюється в рамках ідентифікованого у такий спосіб підмножини інформаційних ресурсів, доступних системі.

    Дуже серйозних нових досягнень у розвитку систем текстового пошуку в середовищі Інтернет очікується у зв'язку з інтенсивними розробками платформи XML - технологічної платформи Інтернет нового покоління. Важливо помітити, що системи текстового пошуку в Інтернеті, засновані на стандартах платформи XML, забезпечують зменшення гранулярності пошуку. Об'єктами пошуку при цьому зовсім не обов'язково мають бути повні документи. Пошукова система може видавати за запитами користувачів фрагменти документів, що їх цікавлять. Крім того, представлення текстових інформаційних ресурсів Веб засобами XML дозволяє використовувати різні засоби опису їх семантики і на цій основі істотно знизити рівень інформаційного шуму при обробці запитів користувача.

    Нові вимоги до систем текстового пошуку. Нові умови застосування та зростання потреб користувачів висувають нові, вищі вимоги до систем текстового пошуку. Перелічимо головні з них:

    Забезпечення можливості систем текстового пошуку ефективно працювати з великими колекціями документів;

    Розробка методів суттєвого поліпшення подання сенсу документів та пошукових запитів користувача;

    Забезпечення можливостей для спільної обробки текстових документів із документами іншої природи - статичними зображеннями, аудіо, відео та ін;

    Розробка ефективних методівпошуку у статичних колекціях, а й у потоках документів;

    Створення методології оцінки систем текстового пошуку, побудова текстових колекцій, проведення експериментів.

    Контрольні питання

    2. Які системи називалися фактографічними ІПС?

    3. Які системи називаються документальними ІПС?

    4. На яких засадах засновані дескрипторні ІПС?

    5. Які умови були потрібні для створення технологій повнотекстового пошуку?

    6. Які нові можливості забезпечуються повнотекстовими системами пошуку?

    7. Як трансформувалися функціональні можливостідокументальних ІПС під впливом розвитку систем текстового пошуку та інформаційних потреб користувачів?

    8. У зв'язку з чим поряд із терміном «інформаційно-пошукова система» став використовуватися термін «система текстового пошуку»?

    9. Які завдання належать до галузі обробки природної мови?

    10. Які інструментальні засоби використовують у сучасних системах текстового пошуку?

    Відповіді на запитання необхідно надсилати на електронну пошту