Российский рынок информационных технологий: тенденции и прогнозы. Поисковые запросы

Во времена, когда только начиналось развитие интернета, объём доступной информации был сравнительно мал, и пользователей сети было немного. На начальных стадиях развития сети, ее использовали сотрудники университетов и исследовательских лабораторий для обмена информацией между учреждениями. В то время поиск информации в сети интернет был не актуальным, в отличие от нынешних дней.

Первым способом организации и систематизации доступа к информационным ресурсам стало создание каталогов сайтов. В них стали группировать ссылки согласно определенной тематике.

Первопроходцем области стал Yahoo, который появился в апреле 1994 года. С течением времени количество сайтов возрастало, и Yahoo добавил опцию поиска по каталогам. Это не была поисковая система в прямом смысле, потому что область поиска ограничивалась ресурсами каталога.

Впоследствии каталоги распространились и стали использоваться повсеместно, но и интернет не стоял на месте, а продолжал развиваться. Вместе с ним развивались и методы поиска. На данный момент каталоги почти утратили популярность, это объясняется тем, что современный каталог, даже если он содержит огромное количество ресурсов, сможет обеспечить доступ лишь к малой части информации, которая содержится в сети.

В наши дни самым большим каталогом сети является Open Directory Project или DMOZ, включающий в себя информацию о 5 миллионах ресурсов, но это относительно мало, если сравнивать его, например, с поисковой системой Google, которая содержит около 8 миллиардов документов.

Полноценная же поисковая система вышла в свет только в 1994 году, ей стала система поиска WebCrawler.

Год спустя, в 1995 году появились проекты поисковых систем AltaVista и Lycos. Одна из них, в частности AltaVista, удерживала лидирующие позиции в области поиска в течение долгих лет.

По прошествии двух лет, в 1997 году, студенты Стэндфордского университета Сергей Брин и Ларри Пейдж разработали поисковую систему Google, являющуюся лидером в области поиска на сегодняшний день.

Этот год так же стал годом, когда было официально анонсировано о создании Российской поисковой системы Яндекс, которая и ныне лидирует в русскоязычном сегменте сети.

На данный момент существует только 3 поисковые системы, которые вышли на международный уровень, это MSN Search, Yahoo и Google. Эти системы имеют свои базы и поисковые алгоритмы. Большая часть остальных поисковиков используют их результаты. Так Mail.ru использует базу Yandex , search.aol.com — Google, а Lycos, AltaVista и AllTheWeb — Yahoo.

Лидером поиска на русских просторах интернета на данный момент является Яндекс, за ним — Rambler, далее идут Google, Mail.ru, A port и KM.ru.

У поисковых систем разные алгоритмы работы, и чтобы занять хорошую позицию в поисковой выдаче и привлечь целевых посетителей, нужно знать особенности SEO оптимизации для разных поисковиков. Например

Для поиска в указателе пользователь должен сформулировать запрос и отправить его в поисковую машину. Запрос может быть очень простым, как минимум он должен состоять из одного слова. Для построения более сложного запроса нужно использовать булевы операторы, позволяющие уточнять и расширять условия поиска.

Чаще всего используются такие булевы операторы:

AND - все выражения, соединенные оператором «AND», должны присутствовать на искомых страницах или в документах. В некоторых поисковых машинах вместо слова AND используется оператор «+».
OR - по крайней мере, одно из выражений, соединенных оператором «OR», должно присутствовать на искомых страницах или в документах.
NOT - выражение или выражения, следующие за оператором «NOT» не должно (не должны) появляться на искомых страницах или в документах. В некоторых поисковых машинах вместо слова NOT используется оператор «-».
FOLLOWED BY - одно из выражений должно следовать непосредственно за другим.
NEAR - одно из выражений должно находиться на расстоянии от другого, не большем, чем заданное количество слов.
Кавычки - заключенные в кавычки слова рассматриваются как фраза, которую следует найти в документе или файле.

Перспективы развития поисковых систем

Задаваемый булевыми операторами поиск является буквальным - машина осуществляет поиск слов или фраз точно в таком виде, в каком их ввели. Это может порождать проблемы, когда введенные слова многозначны. Например, английское слово «Bed» может означать кровать, клумбу, место, где рыба мечет икру, и многое другое. Если пользователя интересует только одно из этих значений, ему не нужны страницы со словом, имеющим другие значения. Можно построить буквальный поисковый запрос, нацеленный на отсечение нежелательных значений, но было бы неплохо, если бы сама поисковая машина могла оказывать соответствующую помощь.

Один из вариантов работы поисковой машины - концептуальный поиск. Часть такого поиска предусматривает использование статистического анализа страниц, содержащих введенные пользователем слова или фразы, для нахождения других страниц, которые могли бы этого пользователя заинтересовать. Понятно, что для концептуального поиска требуется хранить больше информации о каждой странице, и каждый поисковый запрос потребует большего числа вычислений. В настоящее время многие группы разработчиков занимаются повышением результативности и производительности поисковых машин такого типа. Другие исследователи сфокусировались на иной области, которую именуют естественно-языковыми запросами (natural-language queries).

Идея естественно-языковых запросов состоит в том, чтобы пользователь формулировал запрос так же, как он бы спрашивал у человека, сидящего рядом - при этом не нужно отслеживать булевы операторы или сложные структуры запросов. Наиболее популярным современным сайтом с естественно-языковыми поисковыми запросами является AskJeeves.com, анализирующий запрос с целью выявления ключевых слов, которые затем используются для поиска в построенном этой поисковой машиной указателе сайтов. Упомянутый сайт работает только с простыми поисковыми запросами, однако разработчики в условиях жесткой конкуренции занимаются разработкой машины с естественно-языковыми поисковыми запросами, способной обрабатывать очень сложные запросы.

КОВРОВСКАЯ ГОСУДАРСТВЕННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ

Информационно-аналитическая справка по информатике

на тему:«Современные поисковые системы, тенденции развития одного из лидеров рынка Яndех».

Выполнил: студент 1-го курса

3 академической группы

Макаров Иван

Вступление. 3

Основная часть. 4

Заключение. 11

Вступление.

Я́ндекс - российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,290 млрд, статистика за август 2009 г.) и вторым крупнейшим неанглоязычным поисковым сервером после китайского Baidu.

Сайт компании был открыт 23 сентября 1997 года. 2000 год - год образования компании «Яндекс». Учредителем Яндекса является CompTek (фирма, разработавшая поисковую систему Yandex и осуществлявшая его поддержку). Компания вышла на самоокупаемость в 2002 году, оборот за 2006 год - 72,6 млн долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн долларов, чистая прибыль - 13,6 млн.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мульти-порталом. В 2009 году в копилке Яндекса - более 30 сервисов. Самыми популярными являются: Яндекс.Новости, Яндекс.Фотки, Яндекс.Игрушки и другие.

Главный офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе, Симферополе и Киеве. В середине июня 2008 года компания объявила об открытии Yandex Labs - офиса в США, штат Калифорния.

Основная часть.

История создания компании.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета - «Web - гуманизм или чернуха?». А в разделе «Числа» - первая оценка объема Рунета, 5 тысяч серверов и 4 Гб текстов.

Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex.Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость поиска на Yandex.Ru - доли секунды.

За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex.Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex.Ru вдвое больше, чем у ближайших конкурентов.

Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.

В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис - подписка на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

Происхождение слова «Яндекс».

Сегодня «Яндекс» - слово из повседневного обихода пользователя интернета. В Сети часто встречается «А что, Яндекс уже отменили?», «Одиночество - это когда с днем рождения первым поздравляет Яндекс», «Все вопросы к Яндексу». Многим уже кажется, что так было всегда. В некотором роде это правда - Яндекс действительно появился одновременно с массовым интернетом, когда доступ в сеть перестал быть уделом избранных технических специалистов. Но само слово «Яндекс» - искусственное, имеет своих авторов и свою историю.

1993 году Аркадий Волож, будущий генеральный директор будущей компании «Яндекс», и Илья Сегалович, будущий директор по технологиям компании, разрабатывали, как потом выяснилось, главную технологию - поиск неструктурированной информации с учетом русского языка.

Разработку надо было как-то назвать. Илья помнит, как выписывал столбиком разные производные от слов, описывающих смысл технологии. Довольно быстро стало понятно, что search («поиск») по-русски звучит слишком неблагозвучно и удачной комбинации на его основе не сделаешь. Слово index подходило больше. Так в списке названий появился yandex - yet another indexer («еще один индексатор» или Языковой иНдекс). Вариант понравился и Илье, и Аркадию - легко произносится, легко пишется. Кроме этого, Аркадий предложил букву «Я» в названии - специфически русскую - русской и оставить, для наглядности. Так было изобретено слово «Яndex». А файл программы, соответственно, назывался yandex.exe.

В 1996 году, когда впервые широкой публике был предложен поиск как технология, а не как часть контентного продукта (до этого были Международный классификатор изобретений и Библейский компьютерный справочник), линейку программ назвали Яndex и объясняли это название как Языковый iNDEX. Первыми программами в линейке стали Яndex.Site (поиск по одному собственному сайту - этот продукт сейчас называется Яndex.Server) и Яndex.Dict (морфологическая приставка к AltaVista, единственной поисковой системе, которая в то время умела хоть как-то работать с кириллицей).

Но, конечно, широкое распространение слово «Яндекс» получило c сентября 1997 года, после запуска поисковой системы www.yandex.ru. С тех пор пользователи системы предлагают нам свои трактовки. Например, Тёма Лебедев, готовясь к рисованию первой версии главной страницы сайта Яндекса, сказал: «А, я понял, если в слове index первое „I“ перевести на русский, это будет „Я“, то есть так и получится „Яндекс“». Авторы честно признались, что об этом не думали, но - хорошая трактовка, принимается. Потом кто-то в Сети предложил другой вариант, увидев две стороны интернета, ИНЬдекс и ЯНдекс. У этого слова уже появились производные, так, сотрудников Яндекса часто называют «яндексоиды» и реже - «яндексовцы».

Поиск «Яндекса».

Поиск Яндекса позволяет искать по Рунету, Уанету, и Казнету (c 14 октября 2009 года) документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (блоги и форумы).

Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б - документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всём документе.

Оператор! позволяет отключить морфологию для конкретного слова, а!! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы связанные с омонимией. Например запрос!!Иванов будет находить Иванова и Ивано́вых, но не Ивана.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличатся, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска - по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последние официально объявленные изменения произошли в марте 2004 г., апреле 2005 г. и январе 2007 г.; по неофициальным сведениям, их значительно больше (например, последнее в августе-сентябре 2007 г.).

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов). Против поискового спама, не отсеиваемого автоматически, применяется полуавтоматическая и ручная модерация выдачи (при помощи т. н. «белых оптимизаторов»), а также прямой отказ от индексации «злонамеренных» сайтов.

Собственники, руководство и показатели деятельности.

Более 30 % компании, по собственным данным, принадлежит фондам инвестиций ru-Net Holdings и Baring Vostok Capital Partners, 15 % - фонду Tiger Technologies, около 30 % - основателям компании и 20 % - менеджерам и другим миноритарным акционерам.

В середине сентября 2009 года стало известно, что материнская компания «Яндекса» - голландская компания Yandex N. V. выпустила приоритетную акцию, которая была передана Сбербанку за символический 1 евро. Единственное право, которое даёт акция - накладывать вето на продажу более 25 % акций компании.

Руководство: ркадий Волож - генеральный директор, Илья Сегалович - технический директор, Елена Колмановская - главный редактор, Алексей Третьяков - коммерческий директор, Светлана Кондрашова - директор по рекламе.

Все сервисы «Яндекса».

Информационно-поисковые:

Поиск и ya.ru

Каталог - каталог веб-сайтов с сортировкой по индексу цитирования. Пополняется вручную редакторами каталога, имеется возможность платной регистрации.

Новости - главные новости дня, полученные из основных СМИ, представленных в Интернете. Есть возможность поиска по новостям, а также подписки на новости по заданному поисковому запросу.

Яндекс.XML - при помощи этого сервиса можно делать автоматические поисковые запросы к Яндексу в формате xml.

Поиск по блогам и форумам - поиск по ресурсам, имеющим RSS-представление, а также рейтинг актуальных запросов, популярных категорий и новостей.

Маркет - поиск предложений по продаже товаров и услуг, подбор моделей.

«Медитативный» поиск - единственный в мире поисковый сервис, в котором есть кнопка «Найти», но нет поисковой строки.

Словари - энциклопедии, справочники, словари-переводчики.

Картинки - поиск изображений.

Видео - поиск видео.

Карты - карты Европы и России, карты крупных городов РФ (с точностью до дома), поиск по карте, а также возможность "побродить" по улицам некоторых городов.[источник?]

Адреса - поиск контактной информации по названиям фирм и организациий.

Афиша - информация о доступных мероприятиях: кино, театр, концерты, спорт, клубы и т.д.

Погода - прогноз погоды.

Телепрограмма - программы центральных, региональных и спутниковых каналов ТВ.

Расписания - расписания поездов и самолётов.

Персонализированные:

Яндекс.Видео - видеохостинг и поиск по видео.

Почта - электронная почта.

Я.ру - блоговый сервис.

Яндекс.Фотки - фото-хостинг.

Спамооборона - фильтрация спама.

Народ - бесплатный хостинг для персональных интернет-страниц, а также служба хранения файлов.

Яндекс.Деньги - платёжная система, позволяющая оплачивать товары и услуги в Интернете.

Закладки - система хранения закладок, интегрированная с «Яндекс. Баром».

Подписки - подписка на новости.

Лента - онлайновый RSS-ридер

Яндекс.Директ - система размещения контекстной рекламы с оплатой по кликам.

Кубок - регулярные соревнования по поиску в Интернете.

Города - Интернет-индексы городов России.

Тариф - поиск по тарифам интернет-провайдеров.

Открытки

Весна - автоматическая генерация философских эссе.

Интернет - измеряет скорость интернет соединения.

Mirror - Зеркало основных дистрибутивов ОС Linux, а также FreeBSD и других проектов.

Яндекс. Локальная сеть - предоставляет возможность пользоваться всеми сервисами Яндекса не по федеральному, а по локальному тарифу.

Метрика - позволяет измерять трафик, анализировать поведение пользователей и оценивать эффективность рекламных кампаний.

Программные продукты:

Спам-фильтр Спамоборона для корпоративного использования (платный).

Программа для поиска файлов Yandex Desktop Search на компьютере.

Программа мгновенного обмена сообщениями Я.Онлайн на основе Jabber. Позволяет также получать уведомления о новых письмах из Яндекс. Почты, о новых событиях с сайтов Одноклассники.ru и ВКонтакте.

Программа Punto Switcher - автоматический переключатель раскладки.

Виджеты для операционных систем Mac OS X и Windows Vista, а также для браузера Opera: Поиск, Пробки, Часы, Новости.

Яндекс ICQ - специальная версия клиента ICQ c символикой и интеграцией некоторых сервисов от Яндекса.

Интересеые факты.

1)Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

2)Яндекс появился до www.yandex.ru. Слово Яндекс придумали в 1993 году, а публично оно было произнесено в 1996 году и означало тогда не компанию и не поисковую машину, а технологию поиска по собственному серверу и морфологическую приставку к поисковой системе Altavista.com.

3)www.yandex.ru запустили для демонстрации возможностей технологии Яндекс, о заработках на рекламе никто не думал.

4)Слоган «Найдётся всё» придумали в 2000 году. В этом же году Яндекс запустил первую рекламу интернет-сайта на российском телевидении.

5)По данным самого «Яндекса», около 80 процентов его аудитории - из России, около 3 процентов - из Европы, чуть более 1 процента - из США.

6)Часть сотрудников технической поддержки Яндекса действует под коллективным псевдонимом «Платон Щукин».

Заключение.

Итак, теперь мы имеем полную информацию о «Яндексе». Знаем, кто руководит им, как он работает изнутри, что представляет собой история развития компании и много другое. Теперь мы с легкость можем понять, почему «Яндекс» является лидером на российском и мировом рынке. Главной причиной успеха «Яндекса» я считаю то, что поисковик отлично справляется со сложностями русского языка. Именно поэтому поисковики, которые были разработаны под английский язык, не могут так же хорошо индексировать и ранжировать русскоязычные документы. Вторым преимуществом я вижу креативные, доброжелательные, веселые слоганы, которыми «Яндекс» привлекает пользователей к использованию своих сервисов, Тематические картинки, которые размещает «Яндекс» около своей поисковой строки, гораздо доступнее для русского пользователя.

, тенденция роста числа предложений сохранится. Присутствующие сегодня на рынке электронные платежные системы ... еще одно знаковое событие: компанией Paycash было заключено соглашение с самой крупной поисковой системой ...

Приволжский федеральный округ: современное состояние и перспективы развития (на примере Республики Татарстан)

Курсовая работа >> Экономика

... тенденциями дальнейшего развития . ... лидером . ... развитие одного из важнейших... комплексом поискового и пилотажно... рынок . Развитие ... современных технологий, высокопроизводительного оборудования, современных ... супертоксикантами; - развитие системы мониторинга земель...

Современные социологические проблемы физической культуры и спорта

Реферат >> Социология

Для популяризации политических лидеров , партий, ... совокупная субъект-объектная система социально-педагогических... творческой поисковой деятельности... рынок и государство. Рынок ... Тенденции развития современного олимпийского движения Россия является одной из ...

Тенденции развития нефтеной промышленности в мировой экономике

Реферат >> Экономика

Мировой рынок нефти: тенденции развития и... уже проведенных поисково -разведочных работ, ... Предварительная оценка. Лидером в мировом потреблении... является одним из важнейших элементов современных мирохозяйственных... мировой экономической системе , во времена...

При традиционном подходе к организации, когда специализированные функции включаются в дело одна за другой, как в эстафете, высокая эффективность недостижима. Быстрота реагирования на внешние изменения требует постоянного сотрудничества между разными специализированными отделами и службами. Постоянно общаясь и обмениваясь информацией, они могут действовать быстро, согласованно и одновременно в самых разных направлениях. Информационные технологии исключительно полезны в случае такого координированного процесса.

Рис. 3.2.

Применение ИТ позволяет радикально изменить стиль управления и сами бизнес-процессы и значительно улучшить основные показатели деятельности компании ( рис. 3.2). Прежние правила ведения бизнеса стремительно устаревают. Компании, которые не в состоянии "увидеть" значимость этих изменений, рискуют сильно отстать (табл. 3.2).

Таблица 3.2. Информационные технологии, изменяющие правила работы компаний

Прежнее правило	Новое правило	Технология
Информация может появляться в одном месте, в одно время	Информация может появляться и быть востребованной в любом месте, в любое время - когда это необходимо	Распределенные базы и хранилища данных, поисковые системы , технологии поиска заданных данных
Сложную работу по оценке ситуаций могут выполнять только эксперты	Работу эксперта может выполнять специалист общего профиля	Экспертные системы
Необходимо выбирать между централизацией и децентрализацией	Можно одновременно получать преимущества от сочетания двух форм организации управления и производства	Распределенная работа в группах, телекоммуникации и сети
Все решения принимают только высшие руководители и ответственные менеджеры	Принятие решений становится частью работы каждого сотрудника, отвечающего за свой участок работы	Средства поддержки принятия решений, доступ к базам и хранилищам знаний, системы знания
Для поиска, получения, анализа, хранения и передачи информации требуются специально оборудованные помещения	Специалисты могут посылать и получать информацию из того места, где они находятся	Интернет/ Интранет -технологии, оптоволоконные и спутниковые системы связи, мобильные системы
Лучший контакт с покупателем - личный контакт	Лучший контакт с потенциальным покупателем - эффективное изучение особенностей покупателя	Интерактивное взаимодействие, базы данных, системы опроса и выявления предпочтений
Для того чтобы найти некую сущность, нужно знать, где она находится	Сущности сами говорят вам, где они находятся	Системы поиска. Мобильные агентные системы
Сверстанные планы не пересматриваются или пересматриваются под давлением форс-мажора	Планы пересматриваются и корректируются оперативно, по мере необходимости и адекватно требованиям потребителя	Экспертные системы , системы гибкого планирования и управления рисками, высокопроизводительные ЭВМ

ИТ-отделы в фирмах и корпорациях стали выдвигаться на первые роли . Этому способствовали три фактора, которые в полной мере проявились в 1990-е годы:

потребности бизнеса стали оказывать все большее давление на аналитические отделы и отделы ИТ с целью увеличения их вклада в общий результат деятельности компании;
компьютерная парадигма вычислительных работ, ориентированная на большие ЭВМ и мощные вычислительные центры с огромным персоналом, изживает себя и заменяется новой парадигмой - распределенными вычислениями (сети и кластеры ), что, в свою очередь, приводит к созданию новых ИТ;
переориентация с технологии на потребителя привела к необходимости психологической перестройки менеджера и к формированию новой дисциплины - стратегического планирования развития корпоративных ИТ для совмещения стратегии бизнеса и информационной стратегии.

В результате этого изменились сами составляющие бизнеса (табл. 3.3):

Таблица 3.3.

Динамика развития бизнеса	Ускорилась
Стратегическое планирование и тактические цели	Увеличилась дальность и точность прогноза
Оперативный простор	Расширилась область применения
Управление рисками	Моделирование и оптимизация ситуации
Гибкость управления	Быстрое маневрирование ресурсами
Конкурентоспособность	Распространение имеющегося превосходства на весь бизнес

Такое отношение к ИТ и их роли в бизнесе заставляет пересмотреть традиционный ответ на вопрос "В чем основная цель информационных технологий?". Прежний ответ, удовлетворявший требованиям 1980-1990-х годов, - "Повышение производительности труда, экономия финансов, поиск новых форм взаимодействия" - относится в настоящее время к способам достижения оперативных и тактических преимуществ.

Стратегическая роль ИТ в современном мире - способствовать менеджменту , адекватно реагировать на динамику рынка, создавать, поддерживать и углублять конкурентное преимущество (Сompetitive Advantage) с целью извлечения максимальной выгоды!

Современное состояние ИТ можно охарактеризовать следующими положениями:

наличие большого количества программно-аппаратных комплексов и платформ для эффективного управления и сопровождения производства, промышленно функционирующих баз данных и хранилищ знаний большого объема, содержащих информацию по всем направлениям деятельности общества;
наличие технологий, обеспечивающих интерактивный доступ любого пользователя к информации и ресурсам - технической основой для этого служат открытые (Free) и корпоративные системы поиска информации (Information Retrieval Systems - IRS ), государственные и коммерческие системы связи, глобальные (Global Network Systems ), национальные (NNS) и региональные (RNS) информационно-вычислительные сети; международные соглашения, стандарты и протоколы обмена данными;
расширение функциональных возможностей ИТ, обеспечивающих распределенную работу баз и хранилищ данных с данными разнообразной структуры и содержания, мультиобъектных документов, гиперсред; создание локальных и интегрированных проблемно-ориентированных ИС различного назначения на основе мощных серверов и локально-вычислительных сетей;
включение в ИС специализированных интерфейсов пользователя для взаимодействия с экспертными системами ( Expert System - ES), систем поддержки принятия решения ( Decision Support System - DSS ), системы поддержки исполнения (Executive Support System - ESS ), системы машинного перевода (Translating Computer System - TCS) и другие технологии и средства.

В развитии ИТ можно выделить пять основных тенденций.

Глобализация . Компании могут с помощью ИТ вести дела на мировом рынке, где угодно, немедленно получая исчерпывающую информацию. Происходит интернационализация программных средств и рынка информационного продукта. Получение преимуществ за счет постоянного распределения информационных расходов на более широкий географический регион становится необходимым элементом стратегии.
Конвергенция . Стираются различия между промышленными изделиями и услугами, информационным продуктом и средствами его получения, их профессиональным и бытовым использованием. Передача и прием цифровых, звуковых и видеосигналов объединяются в одних устройствах и системах.
Усложнение информационных продуктов и услуг . Информационный продукт в виде программно-аппаратных средств, баз и хранилищ данных, служб эксплуатации и экспертного обеспечения имеет тенденцию к постоянному развитию и усложнению. В то же время интерфейсная часть ИТ при всей сложности решаемых задач постоянно упрощается, делая все более комфортным интерактивное взаимодействие пользователя и системы.
Способность к взаимодействию ( Interoperability ). Проблемы оптимального обмена данными между компьютерными информационными системами, между системой и пользователями, проблемы обработки и передачи данных и формирование требуемой информации приобрели статус ведущих технологических проблем. Современные программно-аппаратные средства и протоколы обмена данными позволяют решать их во все более полном объёме.
Ликвидация промежуточных звеньев (Disintermediation). Развитие способности к взаимодействию однозначно ведет к упрощению доставки информационного продукта к потребителю. Становится ненужной цепочка посредников, если есть возможность размещать заказы и получать требуемое непосредственно с помощью ИТ.

Применительно к бизнесу это означает следующее:

осуществление распределенной обработки данных, когда на рабочем месте достаточно ресурсов для получения и анализа информации;
создание развитых систем коммуникации, когда рабочие места объединены для максимально быстрой пересылки сообщений ;
устранение помех в системе интеграции "организация - внешняя среда", прямой доступ в мировые информационные потоки ;
создание и развитие систем электронных заказов и торговли ;
поддержка социальных сетей.

Рассмотренные выше изменения требований к группам интересов в сфере ИТ и информационной культуре компании обусловлены динамикой развития предприятий и внешней среды и приводят к функциональным изменениям в системе управления. Основные аспекты этого развития и их влияние на роль ИТ в управлении предприятием состоят в следующем [Мюллер-Штевенс Г., Ашванден С. Проблемы теории и практики управления, № 1, 1998].

От обработки данных - к управлению знаниями

Уже давно отпала необходимость рассматривать ИТ только как средство обработки данных. С помощью технологий из данных надо извлекать информацию для нужд пользователя, а возникающая в этой связи проблема "информационных перегрузок" требует современных быстродействующих средств отбора, дальнейшей обработки и обновления информации. При этом следует продумать вопрос о коммерчески выгодных и удобных интерфейсах, а также о взаимодействии совместно используемых знаний между организационными подразделениями и партнерами по кооперации .

Быстрая интеграция сетей локальных систем с региональными и даже интернациональными структурами приводит к отказу от классических рабочих полей информатики и широкому привлечению средств телекоммуникаций . Организационно это ведет к "размыванию" информационных границ предприятия. Все труднее становится определить, где оно начинается и где кончается. Создание и эксплуатация соответствующей коммуникационной структуры для подобных "виртуальных предприятий" относятся к задачам информационного менеджмента , так же как и классическая функция обеспечения производственного процесса или разработки товаров и услуг на базе ИТ. Дело при этом состоит не только в обработке информации, но и в рациональном распределении и использовании знаний . Знания должны приносить прибыль и, если можно, сегодня же!

Кроме того, работники и руководители предприятия должны учитывать на профессиональном уровне все новые и важные для ИТ аспекты. Примером может служить вопрос о технологическом и хозяйственном значении технологий Internet/ Intranet . Именно на информационно-технологической службе лежит ответственность за создание платформы, на которой станет возможным корпоративный менеджмент, включая квалифицированную подготовку (в том числе и психологическую) персонала.

Децентрализация и рост информационных потребностей

Ориентация на максимальное сближение с клиентом потребовала от предприятий перехода к горизонтальным, децентрализованным структурам. Принятие решений в условиях децентрализации привело к резкому росту потребностей в информации относительно процесса производства товаров и услуг . Возникла необходимость в более подробном ознакомлении третьей стороны с состоянием дел в соответствующих хозяйственных областях и системами реализации качества продукта. В новой обстановке обеспечение информацией по всем направлениям должно функционировать безупречно.

Использование ИТ призвано нивелировать организационную сложность предприятия. Ранее это достигалось благодаря возложению на компьютеры сложных вычислений и обработки документации в очень больших объемах. Сейчас речь идет о том, чтобы непрерывно усложняющиеся горизонтальные и вертикальные модели взаимосвязей (структуры которых, в свою очередь, постоянно меняются) совершенствовались с помощью новой коммуникационной технологии.

Ранее на предприятиях устанавливались мощные вычислительные центры, готовившие огромное количество цифровых отчетов, на базе которых в последующем осуществлялось управление хозяйственной деятельностью. Сейчас задача ИТ-служб компании состоит в том, чтобы разработать такую технологию, с помощью которой можно было бы постоянно держать в курсе событий менеджеров и их партнеров, принимающих решения в условиях децентрализации. Новые информационно-технологические системы должны обеспечивать не какую-то абстрактную хозяйственную систему, а конкретных партнеров, которые в разнообразных формах участвуют в хозяйственном процессе.

Интеграция децентрализованных систем

Информация на предприятиях обрабатывается в рамках самых разнообразных систем, часто не связанных друг с другом. Обеспечение их широкой доступности для всех сотрудников (а также внешних партнеров) и облегчение тем самым принятия творческих решений может стать критически важным фактором успеха для многих предприятий. Вместе с тем объединение по вертикали и горизонтали информационно-технологических систем, возникших в условиях децентрализации, кажется почти невозможным. Во всяком случае, в классических областях ИТ опыт на этот счет отсутствует. Тем не менее, интеграция должна произойти.

Постановка подобной цели необходима высшему менеджменту для реального управления изменениями . Организационным рычагом в ее достижении могут стать виртуальные, проектные и рабочие группы , объединенные общими интересами выполнения текущих проектов и решения долгосрочных задач. Возможно, такие группы смогут даже эффективно управлять функциями распределенных отделов компании и сопровождающих их деятельность ИТ. Целью в этом случае мог бы стать интеграционный подход к взаимосвязанным технологическим, социальным, функциональным и хозяйственным процессам компании.

Капиталовложения и риски

Капиталовложения в ИТ сегодня влекут за собой многочисленные последствия. С одной стороны, они открывают определенные перспективы, а с другой - могут лишить предприятие перспективных возможностей в будущем из-за зависимостей, связанных с быстрыми технологическими изменениями и "привязки" к какой-либо одной технологии или определенному поставщику. Поэтому решения о капиталовложениях в ИТ не должны приниматься, пока не будут оценены риски применения тех или иных компьютерных и телекоммуникационных средств и не будет получена профессиональная консультация, по какому пути пойдет развитие следующего поколения технологии. При планировании капиталовложений в ИТ необходимо в обязательном порядке "держать в уме" конечную цель их приобретения и развертывания - насколько ИТ будут способствовать реализации бизнес-стратегии предприятия.

Психологический фактор и языковые уровни

Естественно, что новая технология повышает производительность, помогает фирме добиться лучших хозяйственных результатов. Наряду с этим менеджеры должны знать о том, как мыслят и как работают люди, использующие новую технологию. Фирмы, которым это удается лучше, могут надеяться на большую отдачу от средств, вложенных в ИТ.

Изготовители информационной техники и интеграционные команды должны научиться делать предложения не только в узкоспециальных терминах. На переговорах партнер будет ставить вопросы, имеющие принципиальное значение для высшего менеджмента в его компании. Здесь важно, чтобы обе стороны вышли на новый переговорный уровень, когда стороны говорили бы на одном языке . Речь в этом случае идет скорее не о качестве техники, а о качестве услуг в сфере ИТ. Техника, разумеется, должна хорошо работать, быть на высоком уровне. Вместе с тем ее изготовитель должен почувствовать себя на месте менеджера, который с помощью ИТ стремится добиться конкурентных преимуществ. "Чистый продавец" в системе сбыта ИТ уходит в прошлое. Аналогичная ситуация должна складываться и на самом предприятии, особенно когда речь идет о многопрофильном производстве или оказании разнообразных услуг. Умение ИТ-менеджера находить общий язык с менеджерами подразделений должно перестать быть искусством одиночек, а превратиться в повседневную практику.

Обмен информацией в обществе осуществляется главным образом в текстовой форме. Поэтому не случайно, что весьма значительную долю информационных ресурсов современных информационных систем составляет текстовая информация. Разработкам эффективных технологий хранения, обработки и поиска текстовой информации стало уделяться большое внимание уже на ранних стадиях развития информационных систем. Активные исследования и практические разработки в этой области начались еще в 50-х годах прошлого века, с того времени, когда средства вычислительной техники обеспечили возможность ввода-вывода текстовой информации.

Среди информационных систем, имеющих дело с текстовой информацией, наиболее распространенными являются системы текстового поиска. Их задача заключается в том, чтобы находить в хранимой в компьютере коллекции текстовых документов на естественном языке такие документы, которые интересуют пользователя.

Развитие систем текстового поиска стимулировалось в значительной мере потребностями информационной поддержки научных исследований и образования, разработками автоматизированных библиотечных систем. Однако в последние годы они все активнее используются также в управлении компаниями и во многих других сферах деятельности.Поиск информации с помощью компьютеров имеет уже почти полувековую историю. Первые автоматизированные информационные системы начали разрабатываться еще в 50-х годах прошлого века, и главной их функцией был именно поиск информации. Поэтому их назвали информационно-поисковыми системами (ИПС).

В зависимости от характера поддерживаемых информационных ресурсов эти системы было принято разделять на две категории: фактографическиеи документальные. Фактографические ИПС оперировали фактами, представленными в виде сущностей реального мира и их свойств, и позволяли находить сущности, обладающие заданными пользователем свойствами, а также свойства заданных сущностей. Когда в начале 1960-х годов начали зарождаться технологии баз данных, стало ясно, что информационная система этой категории представляет собой частный случай системы базы данных. В результате это направление в области информационного поиска постепенно было «поглощено» технологиями баз данных.

Документальные ИПС предназначены для хранения и поиска документов, содержащих тексты на естественных языках. Такие ИПС и представляют собой ранние системы текстового поиска.

Разрабатывавшиеся в этот период системы текстового поиска назывались дескрипторными ИПС. В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их «заместителями», которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. ДескрипторныеИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.

Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. В таких системах хранятся коллекции библиографических описаний документов, и система позволяет находить публикации заданного автора, публикации, выпущенные указанным издательством и/или вышедшие в некотором году и т.п. Многие библиографические дескрипторные ИПС используются до настоящего времени.

В процессе развития средств вычислительной техники компьютеры обрели устройства внешней памяти прямого доступа достаточно большого объема, значительно повысилась производительность процессоров. Это позволило создать и практически использовать в документальных ИПС более совершенные технологии, называемые технологиями полнотекстового поиска.

Благодаря возможности хранения и обработки в таких системах полных текстов документов удалось в большой мере автоматизировать процессы лингвистического анализа и поиска документов. Были разработаны подходы к автоматизации составления ряда используемых при этом словарей и тезаурусов. В технологиях полнотекстового поиска важное место занимают статистические методы анализа документов. Первоначально в полнотекстовых системах обеспечивался главным образом контекстный поиск, т.е. поиск документов, тексты которых содержат вхождение заданного в пользовательском запросе контекста. Позднее стал использоваться поиск по булевскому критерию. Были разработаны также различные более тонкие модели поиска.

На протяжении всей истории систем текстового поиска активно проводились научные исследования в этой области. Большое влияние на развитие систем текстового поиска оказали новаторские исследовательские проекты и разработки экспериментальных прототипов полнотекстовых поисковых систем, выполненные в 60-х годах прошлого века. Этот период характеризуется значительными продвижениями в разных аспектах организации систем текстового поиска и используемых в них методов. В настоящее время перспективные разработки в рассматриваемой области концентрируются вокруг авторитетной международной конференции по текстовому поиску ТRЕС (Техt Retrieval Соnfегеnсе), учрежденной в 1992 г. в США Американским национальным институтом по стандартам и технологиям (NIST).

Активное развитие технологий текстового поиска и информационных потребностей пользователей стимулировали трансформацию ИПС из систем текстового поиска в системы более общего класса, которые имеют дело не только с текстовыми документами, но и с документами, содержащими информацию иной природы. В таких системах (их называют мультимедийными) содержание их объектов поиска - документов - составляет сочетание информационных ресурсов, представленных в различных средах, - текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом, и т.п.), мультфильмов, видеоклипов и т.п.

Вероятно, для того чтобы различать системы текстового поиска и поисковые системы, оперирующие этими иными видами информационных ресурсов, в последние годы наряду с термином информационно-поисковая система (Information Retrieval System) стал употребляться термин система текстового поиска (Техt Search System или Техt Retrieval System).

Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок. Эта область охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации. К ней относятся также проблемы обеспечения интерфейсов между пользователями и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. В системах текстового поиска находят применение как аналитические, так и эмпирические подходы.

Значительное место в технологиях текстового поиска занимает обработка естественного языка, т.е. компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.

Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 1990-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Веб, мультиязыковой поиск.

За свою полувековую историю развития технологии текстового поиска сделали огромный шаг от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Ресурсы современных вычислительных систем позволяют хранить огромные объемы информационных ресурсов в системах текстового поиска, осуществлять в них не только технические, но и алгоритмически сложные процедуры обработки хранимых коллекций документов - их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.

Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения и конечно же технологиям текстового поиска.

Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимым во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.

Как уже отмечалось, технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольно велико - это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр.

Основная единица информации в системах текстового поиска называется документом. Документ - это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В раннихИПС документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах текстового поиска содержание документа доступно системе для обработки и анализа.

Полнотекстовые системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно-доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, что каждая литера текста этого документа программно-доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:

Сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optikal Character Recognition – OCR);

Генерации текста программным путем распознавателями голоса или какими-либо другими способами.

Совокупность хранимых в системе документов по-разному называется в разных системах (поисковый массив, архив и т.п.). В последнее время для этой цели часто используется термин «коллекция документов». Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.

Документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно называть критерием поиска.

Следует подчеркнуть, что единицей гранулярности поиска, т.е. наименьшей единицей информации, которая может выдаваться пользователю в результате обработки заданного им запроса, в большинстве систем текстового поиска является именно документ, а не какая-либо его порция. Как правило, в результате обработки пользовательского запроса система выдает множество результирующих документов, удовлетворяющих заданному в запросе критерию.

Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах, или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор «И») вхождения связываемых им слов в документ, альтернативного вхождения (оператор «ИЛИ») или отсутствия вхождений (оператор «НЕ») следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого «внутреннего» вида этого пользовательского запроса.

Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.

Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да - нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале . В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции. Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь более эффективно может анализировать ранжированное множество результирующих документов запроса. С большой вероятностью наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.

В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.

Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, к количеству фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.

2. Принципы текстового поиска

Рассмотрим теперь основные принципы построения современных систем текстового поиска. Разнообразие используемых здесь технологий вызвано различиями подходов, используемых для представления смысла хранимых в системе документов на естественных языках и информационных потребностей пользователей, многообразием критериев релевантности документов пользовательским запросам.

Источники сложности современных систем текстового поиска. В отличие от технологий ранних информационно-поисковых систем развитые современные технологии текстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т.п.). Эти атрибуты, хотя и могут, в частности, быть уникальными идентификаторами документов, но никак не зависят от их содержания.

Основные проблемы технологий текстового поиска связаны со сложностью однозначной автоматической интерпретации содержания текстов документов и формулировок информационных потребностей пользователей на естественном языке. Высказывания на естественном языке часто обладают двусмысленностью и избыточностью. Необходимо учитывать синонимию и омонимию терминов, многообразие грамматических форм элементов языка. Смысловые связи между словами в предложении часто представляются в неявной форме. Динамична лексика естественных языков, довольно часто во многих предметных областях появляются новые понятия и термины.

Указанные особенности приводят к отсутствию какой-либо регулярной структуры у текстовых документов на естественном языке. Поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными.

Смысловое сопоставление содержания хранимых в системе документов и выраженных на естественном языке пользовательских запросов является довольно трудной задачей. Именно этим и объясняются сложности решения вопроса о том, соответствует ли рассматриваемый документ информационным потребностям пользователя в современных системах текстового поиска.

Для управления данными такой природы необходимо использовать иную, чем в системах баз данных, технику управления данными, хотя некоторые элементы управления данными, используемые в системах баз данных, применимы и для систем текстового поиска.

Представления документов. Коллекции документов, хранимых в системах текстового поиска, могут быть довольно крупными. Довольно большой объем могут иметь и содержащиеся в документах тексты. Поэтому нереально рассчитывать на то, что система текстового поиска сможет анализировать полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере. Производительность такой системы была бы не слишком высока.

Выход из положения заключается в том, чтобы в процессе обработки пользовательского запроса работать не с самими документами, а с некоторыми структурированными представлениями их содержания, которые называют представлениями документов (в некоторых публикациях их называют также представителями документа). Использование представления документа вместо непосредственно самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и вместе с тем использовать преимущества структурированного представления для повышения эффективности поиска.

В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенно зависит качество поиска - его точность, полнота, производительность и другие характеристики. Поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе, построение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.

Индексирование документов. Представление документа обычно конструируется на основе множества свойств (атрибутов) этого документа. В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами содержания документа. В качестве таких атрибутов могут использоваться какие-либо внешние (по отношению к тексту документа) его характеристики, и совсем не обязательно, чтобы они идентифицировали его уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и пр. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра.

Дублинское ядро (Dublin Core - DC) - это набор элементов метаданных, смысл которых описан вербально и зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода текстовых документов и документов, представленных в иных средах. Такое описание будет однозначно пониматься всем сообществом, использующим DC для представления документов и пользовательских запросов.

Дублинское ядро находит все более широкое распространение в последние годы. Привлекательность такого подхода связана с его простотой, чтоконечно же оборачивается ограниченностью его возможностей.

Первоначальная версия Дублинского ядра, которая включала 13 элементов, была предложена на состоявшемся в 1995 г. в Дублине (США) симпозиуме, организованном On-line Computer Library Center (OCLC) и National Center for Supercomputing Applications (NCSA) для описания информационных ресурсов библиотечных систем, в частности информационных ресурсов Веб и т.п. Развитие Дублинского ядра поддерживается специально учрежденной для этой цели организацией - Инициативой по метаданным Дублинского ядра (Dublin Core Metadata Initiative - DCMI).

Текущая версия спецификаций Дублинского ядра DC 1.1 была принята в качестве стандарта DCMI в 1999 г. Она включает 15 элементов метаданных. К ним относятся:

Title (название ресурса);

Creator (лицо, организация или служба, ответственные за подготовку содержания ресурса);

Subject (тема, обсуждаемая в содержании ресурса);

Description (описание содержания ресурса в свободной форме);

Publisher (лицо, организация или служба, обеспечивающие доступ к ресурсу);

Contributor (другие участники подготовки содержания ресурса помимо указанного в Creator)",

Date (дата создания или предоставления доступа к ресурсу);

Format (характер представления ресурса);

Language (язык представления ресурса);

Coverage (область пространства, времени и т.д., к которой относится содержание ресурса);

Rights (права интеллектуальной собственности на ресурс и т.п.). Достигнутое соглашение о составе элементов метаданных Дублинского ядра фиксирует состав принадлежащих ему элементов. Однако на вербальном уровне трудно однозначным образом приписать каждому из них точный смысл. Например, элемент Date в различных случаях может иметь разный смысл - дата публикации страницы в Веб, дата последнего обновления этой страницы и т.д.

По этой причине в 2000 г. для Дублинского ядра DMCI была предложена концепция квалификаторов и опубликован их первоначальный состав.

Квалификаторы - это уточнители семантики элементов метаданных Дублинского ядра и их значений в различных конкретных случаях их применения. Например, для элемента Date можно указать, что имеется в виду время создания ресурса, время его доступности или время, в течение которого его содержание имеет силу, и т.д. Для значения элемента Relation можно указать, что оно представлено в формате URL.

Если квалификатор, указанный для некоторого элемента метаданных Дублинского ядра, оказался неизвестным для приложения Веб, то он должен игнорироваться.

Принятый DMCI в 2000 г. набор квалификаторов включает квалификаторы двух категорий: квалификаторы, которые уточняют семантику элементов метаданных ядра, и квалификаторы, определяющие способ кодирования значений его элементов, что позволяет адекватным образом их интерпретировать.

В настоящее время ведется работа по уточнению как приведенного состава набора элементов метаданных, так и их квалификаторов. На основе спецификаций DC 1.1 в 2001 г. был принят национальный американский стандарт ANSI/NISO Z39.85-2001.

В системах контекстного полнотекстового поиска атрибуты представления документа - это термы, извлеченные из его содержания, - слова, словосочетания и т.п., или значения каких-либо специально подобранных функций, вычисленные на основе этих извлеченных термов.

В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами. На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к этим документам. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа.

В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа.

ИПС, в которых используется рассматриваемый подход, называются дескрипторными системами. Такие системы используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов.

Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в систему, или автоматически системными механизмами на основе анализа документов.

Методы представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры, поэтому они могут быть реализованы только автоматически.

Представление пользовательских запросов. Формирование структурированных представлений содержания пользовательских запросов является другой важной задачей систем текстового поиска. Точно так же, как в процессе поиска система оперирует структурированными представлениями документов вместо самих документов, она использует вместо заданного пользователем запроса его структурированное представление, которое конструируется в процессе обработки этого запроса. Представление запроса строится на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.

Например, в дескрипторных системах текстового поиска в качестве представления запроса также используется совокупность дескрипторов, характеризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.

Критерии релевантности документов. В процессе обработки пользовательского запроса системе необходимо оценивать релевантность очередного рассматриваемого документа. Для решений этого вопроса его представление должно сопоставляться по некоторому критерию релевантности (критерию близости) с представлением запроса.

Вид критерия близости зависит от подхода, используемого в системе для формирования представлений документов и запросов. В дескрипторных системах обычно используются теоретико-множественные критерии. Например, документ признается релевантным, если множество дескрипторов поискового образа запроса является подмножеством множества дескрипторов поискового образа документа. Другие варианты критерия - указанные множества дескрипторов равны или их пересечение не пусто. В продвинутых системах текстового поиска используются более сложные критерии близости.

Общие принципы текстового поиска. Современные системы текстового поиска используют довольно широкий спектр подходов к представлению и индексированию хранимых документов, к представлению пользовательских запросов, к оценке релевантности документов. Однако как в простых, так и в продвинутых системах используются некоторые общие принципы организации поиска. Эти общие принципы заключаются в следующем.

При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заместителем этого документа в процессе функционирования системы при обработке пользовательских запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов. Представление документа остается неизменным в течение всего периода существования документа в системе, поскольку содержание документа не изменяется.

Далее, на основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой системой путем анализа содержания документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов. Она также обеспечивает актуализацию индекса при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.

При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичениспользуемому для построения представлений документов.

Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рационально организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому и системе критерию близости. В некоторых случаях для этих цепей вводится специальная метрика. Результаты обработки запросов представляются в виде множества найденных релевантных документов (результирующего множества документов).

Хотя на практике используются различного рода представлении документов и пользовательских запросов, указанные общие принципы текстового поиска используются в самых различных системах.

3. Средства лингвистической поддержки

При обработке полнотекстовых документов в системах текстового поиска приходится иметь дело со средствами обработки естественного языка. Эти средства представляют собой довольно сложный и важный функциональный компонент таких систем.

Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) - носители их содержания, выявлять зависимости между этими термами, принимать во внимание их концептуальные связи в контексте данной предметной области, строить на этой основе представления документов, трансформировать поисковые запросы пользователей в удобную для реализации поиска форму, осуществлять расширение запросов для повышения полноты поиска.

Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.

Системные словари. В системах текстового поиска, имеющих дело с обработкой естественного языка, могут поддерживаться словари общеязыковой лексики и лексики предметной области. Такие словари служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.

Тезаурусы. Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Тезаурус - это словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними.

Тезаурус может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Виды поддерживаемых семантических связей между ними могут быть зависимыми или независимыми от конкретной предметной области. Обычно такие связи определяют синонимы, омонимы, антонимы понятий языка, поддерживают между ними отношения вида «целое - часть», «род - вид», «используется для», «работает в» и т.д.

В настоящее время применяются два способа создания тезаурусов - ручной и автоматический. Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Однако, к сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительного времени. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали разрабатываться еще в начале 60-х годов прошлого века. Автоматическое создание тезаурусов осуществляется обычно на основе заданных коллекций текстовых документов, поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.

В системах, использующих тезаурус, он позволяет, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Могут быть отождествлены синонимы в документе и в запросе. Тезаурусы также часто используются в процессе ручного или автоматического индексирования документов.

Онтологии. Для адекватной интерпретации пользователем и/или системой содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними. Это описание не зависит от содержащихся в системных коллекциях конкретных документов и представляет собой спецификацию концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области. Онтологии получили в последние годы широкое распространение в разнообразных информационных системах, основанных на знаниях, в инженерии" знаний, в решении проблем семантической интеграции информационных ресурсов и т.д.

Онтология предметной области может поддерживаться в системе с различной степенью формализованности. В простейшем случае она представляется в виде некоторого вербального описания. Тогда она предназначена для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология представляется в формализованном виде на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.

Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологии в форме иерархических классификаторов.Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении «целое - часть» или «род - вид».

Другой неформальный способ описания онтологии, который довольно широко применяется в системах текстового поиска, - это представление ее в форме тезауруса предметной области системы.

Для формального описания онтологии в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода. Довольно широкое распространение получил для представления онтологии язык указанной категории KIF (Knowledge Interchange Format), разработанный в начале 1990-х годов в Лаборатории систем знаний (KSL) Стэнфордского университета.

Одной из последних разработок, посвященных созданию средств формального описания онтологии, является стандарт языка определения онтологии для информационных ресурсов Веб - Web Ontology Language. Работу над этим стандартом ведет Рабочая группа по онтологиям для Веб консорциумаW3C. Указанный язык, несомненно, найдет применение в интеллектуальных системах поиска информационных ресурсов в среде Веб второго поколения.

4. Модели поиска

Наиболее развитые технологии текстового поиска обеспечиваются в настоящее время полнотекстовыми системами. Как уже было показано, существуют различные подходы к построению таких систем. Эти различия связаны не только с разнообразием форм информационных потребностей пользователей, но и, главным образом, с различием способов представления полнотекстовых документов и пользовательских запросов в системе.

Понятие модели поиска. Ключевым понятием, характеризующим технологию поиска в той или иной конкретной системе, является модель поиска.Под моделью поиска понимается сочетание: способа формирования представлений документов; способа формирования представлений поисковых запросов; вида критерия релевантности документов.

Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.

Простейшие модели поиска. Во многих системах используются простейшие модели поиска. К их числу относятся, например, рассмотренные выше модели поиска дескрипторных ИПС и систем, использующих Дублинское ядро.

Другим примером простейших моделей поиска являются модели, основанные на классификаторах. В модели, основанной на классификаторе, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор интересующего пользователя класса заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с каким-либо классом в представлении запроса или является его подклассом.

В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов или его подклассу. Такая модель поиска близка к рассматриваемой далее булевской модели.

Модели контекстного поиска. Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова - это служебные слова (предлоги, союзы и т.п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос. Поэтому такие слова не могут использоваться в качестве индексирующих свойств документов.

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к «каноническому виду» с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса также выделяются встречающиеся в его тексте слова и словосочетания. Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа.

Иногда используется более жесткий критерий релевантности - вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.

Булевские модели поиска. В системах текстового поиска широко используются булевские модели поиска. Пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы булевского выражения могут быть различными в разных вариациях булевских моделей поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевском расширении контекстной модели поиска. В булевском расширении модели поиска по классификаторам термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных для рассматриваемого документа имеет заданное в запросе значение.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Векторные модели поиска. Наиболее широкое применение в развитых системах текстового поиска имеют векторные модели поиска. Использование таких моделей требует значительно больших вычислительных ресурсов по сравнению с другими моделями, однако они обеспечивают существенно более высокое качество поиска.

В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста - словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается единичное значение в том случае, когда соответствующий ей терм встречается в данном документе или, соответственно, в пользовательском запросе. В противном случае координате вектора присваивается нулевое значение. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие векторы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их векторы. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса. Важно заметить, что, поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции - меры в обоих этих случаях - оказывают влияние только термы, общие для документа и запроса.

Для повышения управляемости векторных моделей поиска часто усложняют эти модели. Вводятся веса термов, характеризующие их значимость. Значения этих весов используются в качестве координат вектора документа, если его текст включает соответствующие термы. Таким образом, вхождения различных термов в текст документа оказывают различное влияние на значение функции близости документа и запроса. Существуют разные подходы к выбору указанных весов. Чаще всего для этой цели используют произведение частоты вхождения терма в данный документ и частоты его вхождения во все документы коллекции в целом. Взвешиваться могут также и термы запроса.

Различия между конкретными векторными моделями поиска сводятся именно к различным способам назначения весов термов и выбора мер близости. Векторные модели позволяют ранжировать результирующее множество документов запроса.

5. Состояние разработок систем текстового поиска

Системы текстового поиска в последние годы стали активно использоваться в самых различных областях деятельности. В то время как первоначально они разрабатывались главным образом как инструмент для библиотечного дела, в настоящее время они нашли применение в различных организациях для работы с их текстовыми информационными ресурсами. Особенно интенсивно технологии текстового поиска начали развиваться с появлением глобального информационного пространства Веб.

Круг проблем в области текстового поиска. В настоящее время проблематика текстового поиска стала довольно обширной. Она охватывает различные области теории и разработки систем текстового поиска, такие, как:

Развитие конкретных моделей поиска;

Методология проведения экспериментов, тестирования и оценки систем;

Методы реализации текстового поиска;

Подходы к интеграции технологий текстового поиска и баз данных;

Поиск в среде Веб;

Методы сжатия данных;

Оценка эффективности обработки запросов;

Обработка естественного языка;

Методы классификации и кластеризации текстовых документов;

Приложения информационного поиска в электронных библиотеках;

Глубинный анализ текстов;

Технологии индексирования и поиска мультимедийной информации;

Интерфейсы «человек - компьютер» и т.д.

Расширение функциональных возможностей текстовых систем.

Разработчики систем текстового поиска уделяют большое внимание не только совершенствованию механизмов выполнения их базовых функций, но и развитию ряда дополнительных возможностей, позволяющих существенным образом увеличить эффективность поиска, повысить управляемость системы, обеспечить более комфортные условия для работы пользователя. Перечислим некоторые такие возможности.

Повышение точности поиска. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать веса используемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация используется при вычислении оценок релевантности документов информационным потребностям пользователя, и тем самым существенно повышается точность поиска.

Ранжирование результирующих документов запроса. В силу рассмотренных ранее причин системы текстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Количество результирующих документов обычно бывает значительным. Поэтому очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились документы, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска, предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам степени их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности - важная функция, позволяющая повысить эффективность поиска требуемых пользователю документов. Дело в том, что результаты обработки запроса могут не удовлетворять пользователя. В таких случаях во многих системах текстового поиска пользователю предоставляется возможность уточнить запрос. Для этого он может дать оценку релевантности полученных документов - указать, какие из них он считает релевантными или нерелевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, т.е. тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее выражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Автоматическое расширение пользовательских запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска.

Исходное представление запроса может пополняться за счет:

Синонимов термов, содержащихся в запросе, если система располагает тезаурусом, поддерживающим отношение синонимии;

Термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области,например представляют часть понятия, соответствующего некоторому терму запроса, и т.п.;

Термов результирующих документов, оцененных пользователем как релевантные или нерелевантные, в системах, обеспечивающих обратную связь релевантности;

Часто встречающихся орфографически ошибочных форм некоторых термов запроса и т.д.

Автоматическое индексирование документов. Исследования, проведенные еще на ранних стадиях развития систем текстового поиска, показали, что автоматическое индексирование документов не уступает по качеству ручному индексированию. Поэтому в современных развитых системах используется автоматическое индексирование.

Мулътиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, которые при этом возникают, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты.

Кросс-языковой поиск. Существуют такие системы текстового поиска, в которых возможны ситуации, когда информационные потребности пользователя определены на одном языке, а документы коллекции, в которой должен осуществляться поиск, представлены на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике, например в системах международных организаций, транснациональных компаний или какой-либо организации в стране, где существует несколько государственных языков.

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках.Для ее решения необходимо использовать перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы - пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или части документа.

Текстовый поиск в системах баз данных. Интеграция ресурсов баз данных и коллекций текстовых документов, а также использование инструментария систем баз данных для реализации систем текстового поиска уже давно востребованы практикой разработки информационных систем.

Действительно, текстовые документы могут обладать различными структурированными характеристиками, и в таких случаях может потребоваться не только традиционный поиск по содержанию документов, но и поиск по значениям таких ассоциированных с документами внешних атрибутов. Поддержка связей между ассоциированными с документами атрибутами и соответствующими им документами, а также поиск документов по значениям ассоциированных с ними атрибутов вполне вписываются в обычные технологии баз данных. Кроме того, механизмы среды хранения СУБД могут быть использованы и для хранения самих документов.

Вместе с тем информационные ресурсы, которыми оперируют системы баз данных, часто включают наряду со структурированными данными также и связанные с ними текстовые документы. Поэтому необходимость текстового поиска возникает и в среде традиционных систем баз данных. В связи с указанными причинами традиционные СУБД стали оснащаться механизмами текстового поиска по содержанию документов.

Технологии текстового поиска поддерживаются в настоящее время многими реляционными и объектно-реляционными серверами баз данных, например СУБД DB2 компании IBM, Oracle компании Oracle Corp., и SQL- Server 7.0 и SQL- Server 2000 компании Microsoft Corp. Нужно заметить, однако, что в большинстве таких СУБД механизмы текстового поиска не обеспечивают реализации продвинутых моделей поиска, которые обсуждались выше. Чаще всего дело ограничивается поддержкой булевской модели поиска, иногда с расширением запросов, с механизмами полнотекстового индексирования и с некоторыми другими дополнительными возможностями.

Поиск текстовых ресурсов в Веб. С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo!, Google, поисковая система по русским страницам Веб Яndex и многие другие. Они различаются областью действия - составом сканируемых веб-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов, поддерживают обратную связь релевантности. Система AltaVista реализует возможности поэтапного сокращения области поиска. После проведения поиска пользователю предоставляется гистограмма, характеризующая статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML - технологической платформы Веб нового поколения. Важно заметить, что системы текстового поиска в Веб, основанные на стандартах платформы XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того, представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов.

Новые требования к системам текстового поиска. Новые условия применения и рост потребностей пользователей выдвигают новые, более высокие требования к системам текстового поиска. Перечислим главные из них:

Обеспечение способности систем текстового поиска эффективно работать с очень большими коллекциями документов;

Разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов;

Обеспечение возможностей для совместной обработки текстовых документов с документами иной природы - статическими изображениями, аудио, видео и др.;

Разработка эффективных методов поиска не только в статических коллекциях, но и в потоках документов;

Создание методологии оценки систем текстового поиска, построение текстовых коллекций, проведение экспериментов.

Контрольные вопросы

2. Какие системы назывались фактографическими ИПС?

3. Какие системы называются документальными ИПС?

4. На каких принципах основаны дескрипторные ИПС?

5. Какие условия были необходимы для создания технологий полнотекстового поиска?

6. Какие новые возможности обеспечиваются системами полнотекстового поиска?

7. Каким образом трансформировались функциональные возможности документальных ИПС под влиянием развития систем текстового поиска и информационных потребностей пользователей?

8. В связи с чем наряду с термином «информационно-поисковая система» стал использоваться термин «система текстового поиска»?

9. Какие задачи относятся к области обработки естественного языка?

10. Какие инструментальные средства используются в современных системах текстового поиска?

Ответы на вопросы необходимо направлять на электронную почту

Российский рынок информационных технологий: тенденции и прогнозы. Поисковые запросы - перспективы развития