Технология поиска web страниц. Этапы поиска информации. Хронология появления поисковых систем

10.11.2019 Интересное

Лекция ОРГАНИЗАЦИЯ И ТЕХНОЛОГИЯ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ 1. 2. Средства информационного поиска Технология поиска информации

Характеристика сети Интернет предоставляет более быстрый способ поиска информации в сравнении с традиционными. Обладая значительным объемом информации, сеть является слабоструктурированной. В связи с этим активно ведутся разработки средств информационного поиска, автоматизирующих процесс поиска информации в данной среде. Слайд № 3

Средства информационного поиска Службы поиска интернета (средства, предназначенные для поиска информации) Поисковые системы Каталоги (search engines) (directories) Метапоисковые системы (metasearch engines) Слайд № 5

Классификация средств поиска по широте охвата информационных ресурсов Слайд № 6 ИНТЕРНЕТ Поисковые системы Каталоги Глобальные Региональные Локальные Специализированные Региональные Метапоисковые системы Сетевые Локальные Специализированные

Классификация средств поиска по широте охвата информационных ресурсов Конкретное средство поиска может одновременно соответствовать нескольким из перечисленных видов. Вид средства поиска определяет широту охвата информационных ресурсов интернета данным средством. Слайд № 7

Информационно-поисковая система Слайд № 8 Информационно-поисковая система (ИПС) – это система, обеспечивающая отбор, индексирование и поиск информации на основе индекса документов. Индексировать информацию означает приписать каждому документу ключевые слова, отражающие содержание документа и управляющие поиском, приводя к тем документам, слова которых оказываются более сходными со словами сделанного запроса ИПС, решая задачи сбора, хранения, обработки и выдачи информации, выполняют поиск документов, анализ их содержимого, построение поисковых образов документов (извлечение из документов информации, используемой системой как знания о документе), хранение поисковых образов, анализ запросов пользователей, поиск релевантных (соответствующих) запросу документов и выдачу ссылок на документы пользователям.

Типовая схема ИПС Слайд № 9 Запрос Клиент Информационные ресурсы Роботиндексировщик Пользовательский интерфейс Ответ Поисковая машина Ответ Запрос Индекс документов

Особенности ИПС Слайд № 10 В каждой конкретной поисковой системе хранятся сведения не обо всех документах интернета, а только о тех документах, которые известны данной системе (для различных систем процент проиндексированных документов различен, но, как правило, не превышает 70%). В поисковых системах хранятся не сами документы, а только сведения о них, достаточные для их нахождения пользователем и, как следствие этого, рассматриваемая система в результате поиска может не выдать некоторые соответствующие запросу документы. В результате поиска (отклике на запрос) системой сортируются документы по степени соответствия сделанному пользователем запросу с точки зрения алгоритма поисковой системы, а не с точки зрения их фактического соответствия запросу.

Использование ИПС Слайд № 11 Поисковые системы – это самый объемный источник знаний о страницах (документа) интернета. Выполнять поиск различной информации в интернете в большинстве случаев следует именно с помощью информационно-поисковых систем. По скорости и полноте получения информации на запрос пользователя им нет равных. Многие поисковые системы используют совместно систему поиска и каталог.

Информационно-поисковые системы Популярными информационно-поисковыми системами глобального масштаба в сети интернет являются: n Google (http: //www. google. com) n Bing (http: //search. msn. com/) n Ask. com (http: //www. ask. com) К российским ИПС относятся: n Яndex (http: //www. yandex. ru, http: //www. ya. ru) n Rambler (http: //www. rambler. ru) n Webalta (http: //www. aport. ru/) Слайд № 12

Каталог Слайд № 20 Каталог – это система, обеспечивающая классификацию информации. Его отличительная особенность – наличие иерархии (схемы упорядочения) ресурсов, в которой каждый из ресурсов относится к одному или более разделам. Каталоги хранят описания (аннотации) ресурсов интернета. Они наполняются web-мастерами (людьми, создающими информационные ресурсы) или специальными редакторами, которые просматривают информационные ресурсы сети. В ответ на запрос пользователя каталоги выполняют поиск по этим описаниям. Каталоги автоматически не обнаруживают изменения информационных ресурсов сети.

Типовая схема каталога Слайд № 21 Запрос Информационные ресурсы Технический персонал Пользовательский интерфейс Ответ Гипертекстовые связи Клиент Поисковая машина Ответ Запрос Иерархия информационных ресурсов и их описания

Использование каталога Слайд № 22 При решении поисковой задачи когда требуется найти группу информационных ресурсов на достаточно широкую тему каталог является наиболее лучшим средством для выполнения поиска, например при поиске сайтов, предоставляющих контактную информацию организаций г. Москвы или сайтов электронных СМИ. Результаты поиска в каталогах могут оказаться более осмысленными, так как информационные ресурсы в них подготовлены людьми.

Каталоги Слайд № 23 Электронными каталогами глобального масштаба в сети интернет являются: n Yahoo (http: //www. yahoo. com) n Open Directory (http: //www. dmoz. org) n Look. Smart (http: //www. looksmart. com) К наиболее значимым российским электронным каталогам относятся: n Каталог Яndex (http: //yaca. yandex. ru) n Каталог Mail. ru (http: //www. list. ru/) n Каталог Rambler’s Top 100 (http: //top 100. rambler. ru)

Метапоисковая система Слайд № 28 Метапоисковая система – это надстройка над поисковыми системами и электронными каталогами, которая не имеет собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя автоматически формирует запросы для нескольких внешних средств поиска, а затем также автоматически анализирует полученные от них результаты и выдает список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Отличия в стратегии и широте охвата информационных ресурсов различных поисковых систем часто приводят к тому, что разные средства поиска дают различные ответы на один и тот же запрос. Метапоисковые системы в своей работе используют потенциал других средств информационного поиска.

Типовая схема метапоисковой системы Слайд № 29 Запрос Клиент Пользовательский интерфейс Ответ Поисковая машина Запросы Информационные ресурсы Ответы ИПС 1 Каталог 1 ИПС N Каталог N

Использование метапоисковой системы Слайд № 30 Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они позволяют быстро проверить есть ли в интернете необходимая информация и локализовать средства поиска, в которых она присутствует. Метапоисковые системы позволяют сократить время, затрачиваемое на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска.

Виды метапоисковых систем Слайд № 31 Сетевые - доступны через сеть для поиска информации К глобальным метапоисковым системам доступным через интернет относятся: n Meta. Crawler (http: //www. metacrawler. com) n Web. Crawler (http: //www. webcrawler. com) n Search. com (http: //www. search. com) Наиболее известные российские метапоисковые системы: n Meta. Bot. ru (http: //metabot. ru) n Nigma (http: //nigma. ru) Преимуществом российских средств поиска является корректная обработка запроса на национальном языке.

Специализированные средства поиска Слайд № 33 Системы, осуществляющие поиск файлов, например, File. Search. ru (http: //www. filesearch. ru) Системы, обеспечивающие поиск в новостях электронных СМИ, например, Яндекс Новости (http: //news. yandex. ru), Google Новости (http: //news. google. ru) Поиск товаров, например, Яндекс Маркет (http: //market. yandex. ru), Торг. ru (http: //www. torg. ru) Поиск людей, например, POISKI. ru (http: //poiski. ru), Poisk 24 (http: //www. poisk 24. de), Yahoo! People Search (http: //people. yahoo. com)

Специализированные средства поиска Поиск картинок, например, Яндекс Картинки (http: //images. yandex. ru), Google Картинки (http: //images. google. ru) Поиск видео, например, Яндекс Видео (http: //video. yandex. ru), Google Видео (http: //video. google. ru) Слайд № 34

Дополнительные средства и способы поиска Слайд № 36 В интернете можно искать информацию не только поисковыми системами, но и другими способами. В сети много различных сайтов, служб и пользователей, которые могут помочь в поиске. К таким службам можно отнести системы вопрос-ответ, форумы, различные интернет-сообщества (социальные сети), электронную почту, чаты. Все указанные способы получения информации объединяет то, что на ваши вопросы отвечают другие люди (а не программы). Системы вопрос-ответ: Ответы Mail. ru (http: //otveti. mail. ru), Вопросы и ответы Google (http: //otvety. google. ru), Знаток. ru (http: //znatok. ru)

Дополнительные средства и способы поиска Слайд № 37 Данные способы являются дополнительными, поскольку: n они не являются универсальными (накапливают адреса в недостаточном объеме или по узким направлениям); n нет точной гарантии получения ответа на вопрос (вопрос может быть просто проигнорирован), на получение ответа в таких системах иногда можно потратить много времени. Главным преимуществом при использовании дополнительных способов поиска является высокая точность получаемой информации.

Рекомендации к поиску информации Слайд № 40 Убедитесь в правильности написания слова (фразы) запроса. Ваш запрос может быть скорректирован, если слово, в котором ошиблись – общеупотребительное. Редкие слова или фразы могут быть не найдены. При поиске информации, используя поисковые системы, следует знать, что системы обычно отвечают на любой запрос пользователя (ввиду большого объема Интернета) (например, на запрос asgr вкт 5, являющийся, на первый взгляд, бессмысленным набором символов, поисковая система Яндекс нашла 12 web-страниц, в которых это словосочетание встречается). Будьте внимательны.

Рекомендации к поиску информации Слайд № 41 Уточните запрос. Чем точнее фраза запроса, тем больше шансов быстро найти нужную вам информацию, например результаты поиска по запросам стихотворения Есенина и стихотворения Есенина ранних лет будут разными. Используйте синонимы. Если по вашему запросу не была найдена нужная информация, попробуйте уточнить запрос заменой слова на его синоним, например оперативная память или оперативное запоминающее устройство или ОЗУ. Разные слова и фразы выдают разные результаты. Используйте слова, которые могли бы быть использованы на вебсайтах, которые ищете.

Рекомендации к поиску информации Слайд № 42 При составлении запроса всегда необходимо мысленно представить, каким может быть предполагаемое содержание документа. Например, если нужно найти сведения об А. С. Пушкине, то недостаточно просто указать его фамилию в запросе (в списке результата будет много всевозможных учреждений, расположенных на улицах Пушкина в разных городах). Больший эффект принесет поиск, если к фамилии добавить названия произведений поэта. Для поиска текстов произведений, стоит ввести отдельные строки из них (желательно редко используемые в цитатах).

Рекомендации к поиску информации Слайд № 43 Не вводите запрос к поисковой системе в обычной разговорной форме. Так, на запрос Какая погода сейчас в Нижнем Новгороде? будут найдены документы, включающие все слова запроса, а именно, тексты, содержащие данный вопрос (например, тексты литературных произведений). Более эффективным в данном случае будет ввести запрос погода в Нижнем Новгороде, в первой десятке ссылок ответа на который будет требуемая информация. Попробуйте слова запроса записать только малыми буквами – на такой запрос могут быть найдены дополнительные документы.

Рекомендации к поиску информации Слайд № 44 Выполните поиск похожих документов. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «найти похожие документы» . Поисковая система проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а поисковая система еще не успела удалить ее из индекса, то вы получите сообщение «Запрошенный документ не найден» .

Рекомендации к поиску информации Слайд № 45 Используйте знаки «+» и «-» . Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Также вы можете использовать другие специальные команды для уточнения запроса. Список их можно найти в справке к системе, как правило, на странице «Язык запросов» .

Рекомендации к поиску информации Слайд № 46 Выполняйте поиск точных фраз. Если вам известна точная фраза, которая должна присутствовать на странице результатов, то укажите ее в запросе, взяв в кавычки. Например, "Широкий простор для мечты и для жизни Грядущие нам открывают года" Используйте региональные поисковые системы. Для получения более полной информации на языке отличном от английского, можно воспользоваться региональными системами, работающими с данным языком. Во многих странах региональные системы имеют широкий охват ресурсов. Самая крупная поисковая система в России – Яндекс (http: //www. yandex. ru).

Рекомендации к поиску информации Слайд № 47 Используйте специализированные поисковые системы. Если вы ищите картинки, видео, товары, карты и некоторые другие сведения, то всю эту информацию найти быстрее с использованием специализированных поисковых систем, предназначенных для этих целей. Многие поисковые системы общего назначения имеют специальные интерфейсы для поиска этих видов информации (смотрите описания конкретных систем). Запрос на поиск в данном случае может быть таким: поиск картинок.

Рекомендации к поиску информации Слайд № 48 Если источником информации является организация, то попробуйте поискать информацию на сайте этой организации. Поисковые системы могут не знать обо всей информации хранимой на сайтах интернета. Перейдите на сайт организации от которой исходила эта информация, возможно там будут подробные сведения о ней. На сайтах бывают локальные системы поиска (выполняющие поиск именно по этому сайту) или можно попробовать найти нужную информацию путем навигации по разделам сайта. Если, например вы слышали передачу по радио и знаете название этой радиостанции. Посмотрите информацию об этой передаче на официальном сайте этой радиостанции.

Рекомендации к поиску информации Слайд № 49 Попросите помощи в поиске информации у других людей. В интернете существуют специальные системы (например, системы вопрос-ответ) в которых одни пользователи могут помочь другим в поиске информации. Может быть люди уже интересовались тем же вопросом, что и вы и знают правильный ответ.

Сеть Интернет растет гигантскими темпами и найти информацию, необходимую конкретному пользователю, не очень просто. Но возможно, поскольку в сети есть ресурсы, которые помогут не утонуть в океане информации и новичку, и профессионалу.

Появление всемирной паутины World Wide Web стало количественным и качественным скачком в области информационных технологий. Число новых ресурсов и объем информации, которую они содержат, растет лавинообразно, увеличивается количество иголочек в информационном "стоге сена" и, соответственно, размер его самого. Для поиска информации в сети имеются следующие виды ресурсов:

  • - информационные порталы;
  • - каталоги интернет-ресурсов;
  • - поисковые системы.

Сама сеть Интернет постепенно превратилась в Средство Массовой Информации с огромной аудиторией пользователей во всем мире и невероятным объемом информации. Она стала глобальным средством информации, опутавшим каналами связи весь земной шар, но не поглотила привычные нам СМИ, они органически влились в сеть на правах самостоятельных информационных ресурсов. Практически каждая газета, радиостанция или телеканал в любой стране мира имеет свое представительство в сети Интернет.

Электронная версия газеты может и, как правило, сильно отличается от бумажной, значительно превышая ее по объему - формат данных, публикуемых на интернет-сайтах более гибок, он не ограничен выделенными под материал страницами, газетными и журнальными колонками. Появляется элемент интерактивности - читатели могут оставить свои комментарии и отзывы о прочитанной статье, новости, аналитическом обзоре.

Некоторые периодические издания, например, TIMES, даже выполнили оцифровку архивов газеты за все время ее существования, включая годы, когда еще не было ни компьютеров, ни компьютерных сетей, правда, поиск по таким архивам платный и стоит довольно дорого.

Наиболее авторитетным и профессиональным источником оперативной информации для пользователей сети Интернет и для средств массовой информации служат Веб-ресурсы информационных агентств. Обладая широкой корреспондентской сетью, ежедневно и ежечасно, в сети Интернет и по каналам электронной связи они распространяют общественно-политическую, экономическую, научную, финансовую информацию.

Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого - обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

  • 1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.
  • 2. Поиск информации по запросу пользователя.
  • 3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

  • 1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
  • 2. Индекс поисковой системы - это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.
  • 3. Запрос - это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", |, ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска - simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска.

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа "*" в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex. В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме. Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация.

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Наиболее популярные технологии поиска информации в Интернет .

компьютерный internet анимация поисковый

Поисковые системы Internet

Поисковые системы Google, Yahoo, Яндекс, Mail… служат для обнаружения необходимого ресурса в сети Интернет по ключевым словам. Эти системы, или, как их иначе называют, поисковые машины, ежедневно перебирают миллионы WWW серверов, индексируют и каталогизируют найденные ресурсы. Возможность поиска ресурса в Интернет очень удобна, но нельзя забывать о том, что Сеть живет своей жизнью - каждый день появляются тысячи новых страниц, некоторые старые исчезают… Поэтому, поисковые системы не всегда выдают самую точную информацию.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

Google - крупнейшая сеть поисковых систем, принадлежащая корпорации Google Inc.

Первая по популярности система, обрабатывает 41 млрд 345 млн запросов в месяц, индексирует более 25 млрд веб-страниц, может находить информацию на 195 языках.

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д.

Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры, по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст, где он применяется. Данная возможность упрощала процедуру поиска, исключив необходимость в открытии каждого результата. 22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Из-за популярности поисковой системы в английском языке появился неологизм to google или to Google, использующийся для обозначения поиска информации в Интернете с помощью Google. Именно с таким определением глагол занесён в наиболее авторитетные словари английского языка - Оксфордский словарь английского языка и Merriam-Webster, хотя в других источниках, приводятся примеры его использования для обозначения поиска вообще чего-либо в Интернете.

Яндекс - российская ИТ-компания, владеющая одноимённой системой поиска в Сети иинтернет-порталом. Поисковая система «Яндекс» является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов. По состоянию на 8 февраля 2013 года, согласно рейтингуAlexa.com, по популярности сайт yandex.ru занимает 20-е место в мире и 1-е место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

ь Управление индексированием в поисковой системе Яндекс

Разрешения и запрещения на индексацию берутся из файла robots.txt. Яндекс поддерживает META тег robots, тег NOINDEX и нестандартное расширение robots.txt - директиву Host. Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из желания не индексировать одинаковые документы в разных кодировках. Чем меньше сервер, тем быстрее робот его обойдет. Поэтому желательно запретить в файле robots.txt все документы, которые не имеет смысла индексировать.

ь Добавление страниц в поисковой системе Яндекс

Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL

Поисковая система Яндекс - полнотекстовая, то есть в ее индекс попадают (и становятся доступными для поиска) только те слова, которые написаны на страницах сайтов.

ь Индексация в поисковой системе Яндекс

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы, содержание которых заносится в индекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Yahoo! - американская компания, владеющая второй по популярности в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo.

Согласно статистике Alexa Internet, в феврале-апреле 2012 г. Yahoo! - четвёртый по посещаемостивеб-сайт в сети Интернет, и примерно 28% посещений состоят из просмотра только одной страницы.

Mail - крупный коммуникационный портал российского Интернета, ежемесячная аудитория которого по данным на октябрь 2012 года превышает 31,9 млн человек.

Число работников составляет 2800 человек.

Ресурс принадлежит инвестиционной группе Mail. Ru Group .

Ключевой сервис портала - почтовая служба Почта@Mail. Ru, был создан в 1998 году в основанной русскими эмигрантами американской софтверной компании DataArt. Программисты петербургского офиса DataArt создали новое программное обеспечение для почтового веб-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Чтобы протестировать сервис, его временно выложили в открытый доступ в ноябре 1998 года для российских пользователей, и сервис вдруг стал стремительно набирать популярность.

По словам вице-президента и технического директора Mail. Ru Владимира Габриеляна, у портала имеется восемь центров обработки данных, количество серверов составляет 9000 единиц. В техническом департаменте Mail. Ru работает более семисот специалистов.

Организация поиска

Поисковая форма это очень полезная и востребованная штука, особенно если речь идет о серьезных крупных (в плане количества страниц и представленного материала) и хорошо посещаемых сайтах. Найти нужную информацию на подобном сайте используя лишь меню навигации и внутренние ссылки порой может представлять трудную задачу. Гораздо проще вбить пару нужных слов в соответствующее поле, нажать кнопочку «найти» и получить в итоге ссылки на страницы, где возможно и будет интересующая пользователя информация.

Поиск как правило можно реализовать двумя способами:

1. поиск, реализованный средствами движка сайта (php или какой нибудь другой язык веб-программирования) - но это только для серьезных веб-программистов, для простых смертных предпочтителен способ номер 2;

2. поисковая форма обращающаяся к поисковику. Этот способ доступен каждому человеку, освоившему азы html, и подходит для любого сайта, даже состоящего из набора статических html-страниц. Однако такой поиск будет вестись только по тем страницам, которые есть в базе поисковика. Чтобы все страницы сайта нормально индексировались необходимо соблюдение двух правил: 1) на каждую страницу сайта должна вести прямая ссылка без редиректа; 2) сайт не должен нарушать поисковую лицензию используемого поисковика.

Релеватность

Релеватность в информационном поиске - семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» - «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Виды релевантности

Соответствие документа информационному запросу, определяемое неформальным путем

2. Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Технология поиска информации в Интернет. Виды поисковых инструментов

1. Введение

2. Технологии поиска

2.1 Поисковые инструменты

2.2 Поисковые машины (search engines)

2.3 Каталоги (directories)

2.4 Подборки ссылок

2.5 Базы данных адресов (addresses database)

2.6 Поиск в архивах Gopher (Gopher archives)

2.7 Система поиска FTP файлов (FTP Search)

2.8 Система поиска в конференциях Usenet News

2.9 Системы мета-поиска

2.10 Системы поиска людей

3. Заключение

Приложение . Краткие сведения о поисковых системах

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает.

Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернетосновной проблемой оказывается не отсутствие искомой информации, а возможность ее найти . Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Далее раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходятпоисковые инструменты .

2.1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определеннуюфункцию :

1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

2. Поиск информации по запросу пользователя.

3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Сначала рассмотрим следующие понятия :

1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

2. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные ("", ~ ) и математические символы (*, +, ?).

Схема поиска информации проста . Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному запросу. Этот список документовранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) иadvanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology », тогда как поисковый инструментYahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or ,And ,Near ,Not , математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов на англ. приведены в таблице 1.

Таблица 1

Простой запрос

Расширенный запрос

Расширенный

использованием математических

символов

internet merchant account and

Internet+ merchant+ account

merchant account

internet ~ merchant~ gov*

internet merchant account

internet merchant near gov*

internet ~ merchant~ governor

"merchant account"

internet merchant near education

Internet ~ merchant~ (governor

"internet merchant account"

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Операторand позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный операторnear , указывающий, что слова должны располагаться в документе в достаточной близости. Использованиеnear значительно уменьшает количество найденных документов. Наличие символа "* " в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov ", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex .

В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме.

Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex можно посмотреть здесь: http://help.yandex.ru/search/?id=481939

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) –Яndex ,

Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово.

Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты :

определитесь с темой запроса . Что именно в конечном итоге Вы хотите найти?

обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию. Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел " Help " ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).

используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

чтобы исключить документы, содержащие определенные термины, используйте знак " - " перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". А для того, чтобы в результаты поиска обязательно включались определенные ссылки, используйте символ " + ": ссылки о продаже именно автомобилей - запрос "продажа+автомобиль".

каждая ссылка в списке результатов поиска содержит сниппет – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответствие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.

помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система

это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Это просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятсяGoogle ,Yahoo ,Alta Vista ,Excite ,Hot Bot ,Lycos . Среди русскоязычных можно выделитьЯndex ,Rambler ,Апорт .

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google , Яндекс и Рамблер .

Информационный поиск как процесс

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты , сведения, данные .

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

Методы поиска

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:

  1. Наличие у документа точного адреса
  2. Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи , и адреса хранения документов в хранилище.

Семантический поиск

Процесс поиска документов по их содержанию .

  • Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
  • Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и картотек .

Поиск информации - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

ИП рассматривает поиск информации в документах , поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы .

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП - это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет . ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC , организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса .

Запрос - это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов , синтаксис варьируется от системы к системе. Кроме специального языка запросов , современные поисковые системы позволяют вводить запрос на естественном языке .

Объект запроса - это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией . Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат .

Задачи информационного поиска

Центральная задача ИП - помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

  • Вопросы моделирования;
  • Фильтрация документов;
  • Проектирование архитектур поисковых систем и пользовательских интерфейсов ;
  • Извлечение информации, в частности аннотирования и реферирования документов;

Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков , что включает в себя морфологический анализ , разрешение лексической многозначности и так далее.

Оценки эффективности

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности , является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

Точность (precision)

На этом рисунке релевантные точки (rel) находятся слева от прямой, а точки, найденные поисковой системой (retr), находятся в овале. Области красного цвета представляют ошибки поисковой системы. Красная область слева - это релевантные точки, не найденные системой (пропуск события), красная область справа - найденные, но нерелевантные точки (ложная тревога). Точность - это пропорция левой зелёной области по отношению к овалу (горизонтальная стрелка). Полнота - это пропорция левой зелёной области к области слева от прямой (диагональная стрелка).

Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов:

,

где - это множество релевантных документов в базе, а - множество документов, найденных системой. По результатам исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.

Полнота (recall)

Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

,

где - это множество релевантных документов в базе, а - множество документов, найденных системой.

Выпадение (fall-out)

Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

,

где - это множество не релевантных документов в базе, а - множество документов, найденных системой.

F-мера (F-measure, мера Ван Ризбергена)

Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.

Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера , которая определяется как взвешенное гармоническое среднее точности P и полноты R :

Обычно F -меру записывают в виде

При либо F -мера придает одинаковый вес точности и полноте и называется сбалансированной или -мерой (в нижнем индексе принято указывать величину ), выражение для неё упрощается

Использование сбалансированной F -меры не является обязательным: при предпочтение отдаётся точности, а при больший вес приобретает полнота.

См. также

  • Российский семинар по оценке методов информационного поиска (РОМИП)

Примечания

Ссылки

Литература

  • Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. - Addison-Wesley, 1999. - ISBN 0-201-39829-X
  • Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval . - Cambridge University Press, 2008. - ISBN 0-521-86571-9
  • Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. - Вильямс, 2011. - ISBN 978-5-8459-1623-5
  • Ландэ Д. В., Снарский А. А. , Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы . - M.: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8

Wikimedia Foundation . 2010 .