Самый первый поисковик в мире. Поисковые системы. Хронология развития поисковых систем

11.11.2022 Новости

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

История развития Российского интернета (Рунета) официально ведет отсчет с 1994 года. Именно тогда была зарегистрирована доменная зона.ru, и начали появляться первые сайты, многие из которых впоследствии выросли в популярные порталы.

Библиотека Мошкова, информационное агентство «РосБизнесКонсалтинг», студия Артемия Лебедева – все эти ресурсы были основаны в середине 90-х годов прошлого века.

Как появились первые поисковые системы

Довольно долго «население» Рунета ограничивалось небольшим количеством этих пионеров сетевых технологий. Их было настолько мало, что понятия «поиск» в те времена просто не существовало.

Большинство нужных сайтов можно было сохранить в закладках браузера, а для остальных существовали каталоги, где все ссылки были сгруппированы по нескольким основным категориям. Первым таким каталогом стал проект Russia on the Net (http://www.ru), чуть позже появились DMOZ, Yahoo и Яндекс.Каталог.

Однако с течением времени количество пользователей сети интернет увеличивалось, больше становилось и число сайтов, созданных для того чтобы эти пользователи могли их посещать и получать нужную им информацию.

Постепенно базы данных каталогов выросли настолько, что найти что-либо вручную стало очень сложно. Тогда и появилась идея автоматизировать процесс поиска и создать для этого специализированный интерактивный сервис.

Спрос всегда рождает предложение, поэтому в интернете один за другим стали появляться поисковые проекты от разных авторов. Одни из них, такие как WebCrawler, Lycos, InfoSeek и другие не смогли добиться каких-либо серьезных успехов и через некоторое время почили в безвестности на бескрайних просторах Всемирной паутины.

А вот для других, более удачливых компаний, все сложилось намного лучше – ведущие современные разработчики поисковых технологий образовались именно в этот период и за прошедшие годы сумели добиться ошеломляющих результатов.

Что такое поисковая система

Современный поисковой движок представляет собой сложнейший механизм, который требует огромных ресурсов (как людских, так и материальных) для поддержки текущей работы и устойчивого развития.

В основе формирования поисковой выдачи лежит пресловутая формула ранжирования, которая учитывает сотни различных факторов, начиная от внутреннего устройства сайта и текстов его страниц и заканчивая внешними ссылками, привлекательностью коммерческих предложений, размещенных на ресурсе, и особенностями поведения пользователей, перешедших на него с поиска.

Еще в 2006-2007 году представители Яндекса заявляли о том, что для расшифровки их алгоритма нужен целый научно-исследовательский институт, потому что их поиск основан на учете более чем 800 различных факторов. С тех пор прошли годы, формула ранжирования усложнилась на несколько порядков, а на факторы, которые оказывают наибольшее воздействие на результаты выдачи, воздействовать стало практически невозможно.

Так что за внешней простотой главной страницы и быстрой реакцией Яндекса или Гугла на введенную вами поисковую фразу скрывается кропотливая работа тысяч людей и огромные финансовые вложения в инфраструктуру, оборудование и человеческие ресурсы.

При этом очевидно, что компании-лидеры на сегодняшний момент обеспечили себе такое превосходство над теми, кто захочет составить им хотя бы какую-нибудь конкуренцию, что цена входного билета на этот рынок измеряется миллиардами долларов.

Подтверждением такого положения дел может служить история попыток проникновения на поисковой рынок известнейшей и богатейшей софтверной компании Microsoft. Ее поисковая система Bing на протяжении более чем десяти лет позиционировалась, как серьезный конкурент ведущим игрокам, для чего в нее вкладывались огромные средства.

И только в последние годы эти вложения начали давать первые результаты, хотя удовлетворительными их назвать все равно можно лишь с очень большим преувеличением: доля Bing на российском рынке на момент написания статьи составляла менее одного процента.

Другой пример, хорошо иллюстрирующий сделанные ранее выводы – российский поисковик Нигма. Его создатели выбрали стратегию нишевого маркетинга. Видимо, хорошо понимая, что в открытом поле общего поиска конкуренцию столпам рынка оказать практически невозможно, разработчики алгоритма пошли по пути предоставления услуг поиска по образовательным структурам в области химии, математики, физики и другим наукам.

Однако целевая аудитория такого проекта, очевидно, является немногочисленной, что однозначно отражается и на ее посещаемости: по данным счетчика Liveinternet количество пользователей этой системы составляет всего одну десятую процента.

  1. Безусловным лидером рейтинга является компания Яндекс. По данным того же счетчика Яндекс имеет «контрольный пакет акций » на рынке поисковых систем: в июле 2014 доля поисковой машины составила более 52%.
  2. На втором месте уверенно закрепился Гугл – 38%.
  3. Третье место с довольно большим отрывом занимает портал mail.ru. Некоторое время назад популярный сайт, видимо, занимался поисками старшего брата, которому можно подороже продаться – на их поисковую площадку поочередно интегрировался движок Яндекса и Гугла. Но с 2013 года компания взяла курс на самостоятельное развитие, и теперь на сайте реализован поисковой алгоритм собственной разработки. Правда, это никак не сказалось на доле рынка системы, которая, по всей видимости, определяется в основном раскрученностью бренда и привлекательностью сервисов, представленных на площадке. На протяжении последних лет посещаемость сервиса go.mail.ru колеблется вокруг отметки 7%.

Все остальные поисковики, включая некогда могущественный Рамблер, могут расцениваться разве что, как естественный фон – все они не оказывают существенного влияния на распределение мест в топе поисковых систем, находясь на уровне 0,1-0,7 процентов рынка.

Анализ рынка российского интернет-поиска

Рынок поисковых систем в России является весьма специфическим. Для его описания можно использовать две характеристики: концентрированный и слабо конкурентный. Действительно, доля трех основных игроков превышает 97%, что говорит об их подавляющем преимуществе над всеми остальными.

Доминирующее положение имеет российский поисковик Яндекс. Как мы уже говорили, его доля превышает 50%. В этом наша страна является уникальной: только у нас, в Китае и в Чехии национальные поисковики оказывают ощутимую конкуренцию мировому гиганту – компании Гугл.

По количеству обработанных поисковых запросов Яндекс занимает четвертое место в мире. При этом если первое место Гугла в этом списке вряд ли можно подвергнуть обоснованному сомнению, то второе место китайского Baidu вызвано лишь огромной численностью этой страны. Третье место – у компании Yahoo, имеющей пока двукратный перевес относительно российского монополиста.

По правилам европейского рынка Яндекс действительно можно назвать монополистом – такое определение присваивается там любой компании, доля рынка которой превышает 35%.

В нашей стране такое положение вещей называется доминированием и не наказывается до тех пор, пока не доказан факт злоупотребления имеющимся преимуществом. Понятно, что в интернет-среде факт злоупотреблений подтвердить очень сложно.

Как определить долю поисковика в общем трафике

Объективную оценку данного показателя получить довольно просто. Дело в том, что подавляющее большинство российских сайтов имеет установленные счетчики ведущего оператора интернет-статистики Liveinternet.

Конечно, эти счетчики ставят не все сайты, к тому же в приведенной далее ссылке не учтены доменные зоны.su и рф. Но все же приведенную выборку можно считать вполне репрезентативной, она учитывает все основные тематики, регионы и типы сайтов, имеющихся на сегодняшний день в Рунете.

Итак, посмотреть текущее положение вещей можно по ссылке: http://www.liveinternet.ru/stat/ru/searches.html?date=2014-07-31;period=... .

Это полная сводка по количеству посетителей, переходивших на сайты, зарегистрированные на российских пользователей за июнь и июль 2014 года.

Выводы очевидны. Анализ положения вещей мы уже привели в предыдущем разделе.

Характеристика основных поисковых систем России

Яндекс

Появление этого поисковика на рынке очень хорошо иллюстрирует ситуацию в стране в то время, когда он начал приобретать современные очертания. Недаром Яндекс называют зеркалом Рунета – по-видимому, это определение можно расширить и на объективную реальность.

Развитие компании в чем-то очень схоже с эволюцией всего общества, так что в какой-то степени национальный лидер – это зеркало всей страны конца 20-го века.

Для того чтобы проиллюстрировать такое смелое утверждение обратимся вкратце к истории возникновения компании и поискового движка Яндекс.

Времена после перестройки характеризуются серьезной переоценкой ценностей наиболее активной частью общества и появлением на политической и деловой арене новых энергичных людей, объединенных главной в их жизни идеей: модернизировать условия существования себя и своей страны с целью обеспечения достойного уровня жизни для всех, кто разделяет их убеждения.

Одним из корифеев той эпохи является Аркадий Волож, который сумел объединить вокруг себя лучших специалистов-трудоголиков, заложивших основу будущей поисковой системы.

Яндекс, наверное, никогда не стал бы зеркалом Рунета, если бы не потрясающее чутье Аркадия Воложа, который сумел разглядеть главную перспективу того времени именно в построении российского поисковика.

Для реализации своей идеи он сумел перенаправить в этот проект финансовые потоки, образовывавшиеся от бартерных сделок по обмену партий импортируемых в нашу страну компьютеров в обмен на эшелоны кубанских тыквенных семечек.

Конечно, большие проекты не делаются без команды единомышленников. И тут основателю Яндекса повезло – он сумел привлечь на свою сторону талантливого и подававшего очень большие надежды физика Илью Сегаловича, с которым он был знаком еще со школьной скамьи.

Трудно сказать, что явилось последней каплей, перевесившей для будущего великого ученого все перспективы блестящей научной карьеры. Очень может быть, что решающую роль сыграла настоящая одержимость и талант убеждения бессменного директора Яндекса, но Илья стал техническим директором компании и внес неоценимый вклад в ее развитие.


Именно он стал автором названия и логотипа, который сейчас известен всем, кто хоть раз заходил в интернет. Сегалович увлекся идеей морфологического анализа фраз на русском языке и возможностью классификации текстов на основе правил построения грамматических конструкций.

В результате появилось выражение «Yet another index» – «еще один индекс», которое в сокращенном варианте с легкой руки основателей поисковой машины стало словом Yandex. В дальнейшем, чтобы подчеркнуть основное предназначение поисковой машины – искать в русскоязычном сегменте интернета – логотип преобразовали в Яндекс.

Илья Сегалович посвятил всю свою жизнь становлению и развитию этого проекта. К сожалению, в 2013 году его не стало, но дело его живет, Яндекс наращивает свое превосходство над конкурентами, постоянно совершенствуя алгоритм поиска, основы которого заложил его покойный директор по технологиям и разработке.

Гугл

Поисковая система Гугл была основана на год раньше Яндекса, но на российском рынке появилась лишь в 2004 году. Конечно, за эти годы Яндекс преуспел в адаптации своего поиска под специфику нашей страны.

Несмотря на то, что довольно значительное количество интернет-пользователей на вопрос, ответ на который они не знают, предлагают «погуглить», а не «спросить у Яндекса», основной проблемой мирового гиганта является недостаточный учет морфологии русскоязычных текстов, вследствие чего ответ на запросы пользователей часто является неполным или немного искаженным.

Можно долго спорить о том, чей поиск лучше и с какой системы идут более мотивированные (или «горячие») клиенты. Но, как нам кажется, типичная картина для российского пользователя выглядит следующим образом: сначала запрашивается «зеркало Рунета», а, если результаты его поиска оказались не релевантными (а такое, к сожалению, случается довольно часто), запрос перетранслируется в Гугл.


Глобальные апдейты Гугла происходят гораздо реже, чем у Яндекса. Зато они изменяют выдачу настолько серьезно, что многие авторитетные сайты, годами находившиеся в топе, оказываются в конце первой сотни результатов выдачи.

Так, например, последняя версия алгоритма «Панда» здорово прошлась по некоторым ведущим интернет-магазинам, затронув даже казавшихся неприкосновенными amazon.com и других.

В 2013 году компания наконец-то перестала транслировать чужой поиск на своей площадке и реализовала свой вариант поисковой машины по адресу go.mail.ru.

Этот шаг можно только приветствовать, поскольку в перспективе поисковик от mail.ru может оказать серьезное сопротивление дуэту лидеров, который пока может немного расслабиться, не чувствуя порывистого дыхания конкурентов за своей спиной.

Доля данной поисковой системы сейчас не превышает 7%, но имеет хорошую перспективу к увеличению за счет развития социальных сервисов, предоставляемых компанией: Одноклассники, Мой Круг, почта и т. д.

Поисковики с долей рынка менее 1%

В этой группе сосредоточены в основном системы, которые так и не смогли пробиться в элиту российского поиска. Среди них особое положение занимает компания Рамблер, когда-то уверенно занимавшая второе место и демонстрировавшая очень многообещающие тенденции.

Рамблер

Появившись в 1996 году, как детище программистов наукограда Пущино под руководством талантливого энтузиаста Дмитрия Крюкова, Рамблер сразу стал лидером рынка поисковых систем. В те времена Яндекса еще не было, а Гугл только начинал свое шествие по территории Америки и близлежащих стран.

Казалось бы, такая фора должна была помочь «бродяге» (а именно так переводится с английского слово Rambler) получить заметные конкурентные преимущества в развитии.

Но то ли внутренние конфликты в компании, то ли отсутствие четко выраженной стратегии привели к тому, что сейчас Рамблер транслирует поиск Яндекса и больше известен, как агрегатор некоторых популярных сервисов, включая рейтинг сайтов Rambler Top100

Бинг

Он же MSN Search, Live Seacrh, Windows Live Seacrh – продукт компании Microsoft, отчаянно борющейся за место под солнцем на рынке поисковых систем. Это один из немногих сервисов, использующих свой собственный движок.

Результаты поиска вполне приемлемы, главной проблемой сайта, по-видимому, является невысокая известность среди пользователей.

Апорт

Еще один пример печальной судьбы некогда одного из лидеров рынка. Были времена, когда этот поисковик твердо держал третье место после Яндекса и Рамблера, а в его каталог вебмастера стремились попасть так же активно, как в DMOZ или Яндекс-каталог.

Сейчас на сайте размещен интернет-магазин популярных бытовых товаров. Поиск на апорте если и остался, то спрятан где-то в глубинах ресурса, на одном из его поддоменов.

Что нужно, чтобы написать свой собственный поисковик

Для того чтобы ответить на этот вопрос, необходимо хорошо представлять себе, что такое поисковая система и как она работает. Частично мы уже рассмотрели основные принципы построения формулы ранжирования сайтов в поисковой выдаче. Кроме этого, необходимо отметить следующие моменты:

Главная задача поисковой машины – дать ответ на запрос пользователя. Ответ должен быть четким и актуальным, иначе пользователь уйдет в другие системы, даже несмотря на невысокую конкуренцию в этой отрасли.

Чтобы дать такой ответ, поисковому алгоритму необходимо в момент его формирования просмотреть содержимое многих миллиардов страниц в сети в поисках наиболее подходящих для конкретного запроса. Для этого поисковые системы создают собственные базы данных, которые называются индексами и хранят там всю необходимую информацию.

Индекс формируется путем постоянного сканирования сети в поисках новых появившихся сайтов, а также изменений на уже проиндексированных страницах. Выполняют эту работу специальные программы, называемые роботами-индексаторами.

Они круглосуточно ходят по сайтам и считывают обновленную информацию. Организация работы таких роботов требует построения большого дата-центра на несколько тысяч мощных компьютеров со всей инфраструктурой, начиная от бесперебойного питания и охлаждения и заканчивая регулярным обслуживанием и модернизацией.

Пользователи хотят получать быстрые и адекватные ответы на свои запросы. Поэтому современная поисковая система должна учитывать не только характеристики известных ей сайтов, но и предпочтения, особенности поведения и географическое положение каждого своего клиента.

Для этого алгоритмы поиска должны обладать элементами искусственного интеллекта и уметь самостоятельно обучаться в процессе своей работы. Очевидно, что для написания такого движка нужен большой коллектив программистов высочайшего класса.

Учитывая, что ведущие поисковики уже решили все эти проблемы и обладают всем необходимым потенциалом для дальнейшего развития, стоимость вхождения на этот рынок представляется практически заоблачной.

Поэтому вряд ли в ближайшее время может появиться новый игрок, способный быстро занять достойное место в ряду существующих систем. Хотя, если такое вдруг случится, выиграют все – и сами поисковые системы, которые получат новые стимулы для еще большего совершенствования, и мы, капризные рядовые пользователи, которым всегда чего-то не хватает и хочется, чтобы поиск с каждым днем становился лучше и качественнее.

Принято считать, что история первых поисковиков российского сегмента интернета начинает свой отсчет с 1995 года. Именно в этом году пользователям Рунета стало доступно морфологическое расширение к поисковику Altavista. Практически следом за расширением появились оригинальные поисковики Апорт и Рамблер, которые и считаются первыми российскими поисковыми машинами.

AltaVista появилась в декабре 1995 г. и была поддержана самым мощным доступным на тот момент вычислительным сервером DEC Alpha. Это был самый быстрый поисковик, который мог обрабатывать миллионы поисковых запросов в день.

Апорт

Поисковая система Апорт была продемонстрирована широкой общественности на несколько месяцев раньше Рамблера в феврале 1996 года. На момент своего запуска машина производила поиск только по сайту russia.agama.com. В дальнейшем разработчики Апорта продемонстрировали крайнюю нерасторопность в развитии своего проекта, очень долго налаживая поиск, сначала по 4 серверам, потом по 6. Индексировать весь Рунет Апорт научился только к ноябрю 1997 года, тогда же и прошла его официальная . К этому моменту в русскоязычном сегменте уже успешно работал другой поисковик под названием Рамблер.

Несмотря на все эти обстоятельства, Апорту до начала 2000-х гг. удавалось успешно конкурировать с основными игроками рынка Рамблером и Яндексом, и входить в список лидеров поиска в Рунете. Впоследствии, компания создавшая эту поисковую систему была выкуплена телекоммуникационным холдингом, все разработки были прекращены, и Апорт быстро сдал свои позиции, уступив своим основным конкурентам.

На данный момент Апорт представляет из себя электронную торговую площадку, с большой базой фирм и компаний, предлагающих более 8 миллионов наименований товаров, в 1400 категориях.

Рамблер

Создать оригинальную российскую поисковую машину команда телекоммуникационной компании Стек решила еще в 1994 году. К тому моменту Стек уже имел определенный опыт в работе с сетью интернет, серверами и веб-сайтами. Работая с русским сегментом интернета, специалисты компании определили, что зарубежные поисковые машины практически не воспринимают кириллицу и страницы с несколькими кодировками, и очень плохо индексируют сайты Рунета.

Rambler» в переводе с английского языка - «странник», «бродяга», «праздношатающийся человек».

Ядро нового поисковика буквально за несколько месяцев написал программист Дмитрий Крюков. Работа над новой машиной финансировалась компанией Стек, создатель которой Сергей Лысаков активно помогал Крюкову в его весьма непростой работе. Название Рамблер и логотип будущей поисковой системы, также Дмитрий. Домен rambler.ru был зарегистрирован 26 сентября 1996 года, а 8 октября поисковая машина носящая название Rambler была выложена ее создателем в сеть. На тот момент новым поисковиком было проиндексировано 100 тысяч документов, что являлось продуманным и стратегически важным шагом, позволившим Рамблеру на несколько лет стать безоговорочным лидером поиска в Рунете.

На первоначальной стадии развития Интернета пользователи были привилегированным меньшинством и объем доступной информации относительно небольшой. В тот период доступ к ней имели, в основном, работники различных крупных учебных заведений и лабораторий, и полученные данные использовались в научных целях. В то время использование Сети не имело такой актуальности, как сейчас.

В 1990 году британский ученный Тим Бернерс-Ли (который также является изобретателем URI, URL, HTTP, World Wide Web) создал сайт info.cern.ch , который является первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров.

Таким образом, первым способом облегчения доступа к информационным ресурсам в Интернете стало формирование каталогов сайтов. Ссылки на ресурсы в них были сгруппированы по тематике.

Первым проектом такого рода принято считать Yahoo, открытый в апреле 1994 года . В связи со стремительным ростом количества сайтов в нём, вскоре появилась возможность поиска необходимой информации по запросу. Конечно же, это ещё не было полноценной поисковой системой. Поиск был ограничен только данными, которые находились в каталоге.

На ранних этапах развития сети интернет каталоги ссылок использовались очень активно, но постепенно утрачивали свою популярность. Причина проста: даже при наличии множества ресурсов в современных каталогах, они все равно показывают только малую часть имеющейся в сети Интернет информации. К примеру, самым большим каталогом сети является — DMOZ (Open Directory Project). Он содержит информацию о чуть более пяти миллионах ресурсов, что несоизмеримо с поисковой базой Google, содержащей более восьми миллиардов документов.

Самым крупным русскоязычным каталогом является Яндекс-каталог. Он содержит информацию о чуть более ста четырёх тысячах ресурсов.

Хронология развития поисковых систем

1945 год – американский инженер Ванневар Буш опубликовал записи идеи, которая привела в дальнейшем к изобретению гипертекста, и рассуждение о необходимости разработки системы быстрого извлечения данных из таким образом хранимой информации (эквивалент сегодняшних поисковых систем). Введённое им понятие устройства-расширителя памяти содержало оригинальные идеи, которые, в конце концов, воплотились в Интернете.

1960-е — Джерард Сэлтон и его группа в Корнелльском университете разработали «Остроумную систему извлечения информации» (SMART information retrieval system). SMART - аббревиатура от Salton’s Magic Automatic Retriever of Text, то есть «Волшебный автоматический извлекатель текста Сэлтона». Джерард Сэлтон считается отцом современной поисковой технологии.

1987-1989 – разработана Archie — поисковая система для индексации FTP архивов. Archie представлял из себя сценарий, автоматизирующий внедрение в листинги на ftp-серверах, которые затем переносились в локальные файлы, а уже потом в локальных файлах осуществлялся быстрый поиск необходимой информации. Поиск основывался на стандартной grep-команде Unix, а доступ пользователя к данным осуществлялся на основе telnet.

В следующей версии данные были разбиты на отдельные базы, одна из которых содержала только текстовые названия файлов; а другая — записи со ссылками на иерархические директории тысячи хостов; и еще одна, соединяющая первые две. Эта версия Archie была эффективней предыдущей, так как поиск производился только по именам файлов, исключая множество существующих ранее повторов.

Поисковая система становилась всё популярнее, и разработчики задумались, как ускорить её работу. Упомянутая выше база данных была заменена на другую, основанную на теории сжатого дерева. Новая версия, по существу, создала полнотекстную базу данных вместо списка имен файлов и была значительно быстрее, чем раньше. В дополнение, второстепенные изменения позволили системе Archie индексировать web-страницы. К сожалению, по различным причинам, работа над Archie вскоре прекратилась.

В 1993 году была создана первая в мире поисковая система для Всемирной сети Wandex . В её основу был заложен World Wide Web Wanderer бот, разработанный Метью Греем из Массачусетского технологического института.

1993 год – Мартин Костер создаёт Aliweb – одну из первых поисковых систем по World Wide Web. Владельцы сайтов должны были сами их добавлять в индекс Aliweb, чтобы они появлялись в поиске. Поскольку слишком мало вебмастеров это делали, Aliweb не стал популярным

20 апреля 1994 г. – Брайан Пинкертон из университета Вашингтон выпустил WebCrawler — первого бота, который индексировал страницы полностью. Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей. Увы пропускная способность была невысокой и в дневное время система часто была недоступной.

20 июля 1994 г. – открылся Lycos — серьезная разработка в технологии поиска, созданная в университете Карнеги Мелон. Майкл Малдин был ответственен за эту поисковую систему и до сих пор остаётся ведущим специалистом в Lycos Inc. Lycos открылся с каталогом в 54,000 документов. И в дополнение к этому результаты, которые он предоставлял, были ранжированными, кроме того он учитывал приставки и приблизительное совпадение. Но главным отличием Lycos был постоянно пополняемый каталог: к ноябрю 1996 было проиндексировано 60 миллионов документов — больше, чем у любой другой поисковой системы того времени.

Январь 1994 г. — был основан Infoseek . Он не был по-настоящему инновационным, но имел ряд полезных дополнений. Одним из таких популярных дополнений была возможность добавления своей страницы в реальном времени.

1995 год – запустилась AltaVista . Появившись, поисковая система AltaVista быстро получила признание пользователей и стала лидером среди себе подобных. У системы была практически неограниченная на то время пропускная способность, она была первой поисковой системой, в которой было возможно формулировать запросы на естественном языке, а также формулировать сложные запросы. Пользователям было разрешено добавлять или удалять их собственные URL в течение 24 часов. Также AltaVista предлагала много советов и рекомендаций по поиску. Основной заслугой системы AltaVista считается обеспечение поддержки множества языков, в том числе китайского, японского и корейского. Действительно, в 1997 году ни одна поисковая машина в Сети не работала с несколькими языками, тем более с редкими.

1996 год — поисковая машина AltaVista запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – Rambler.ru и Aport.ru. Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети.

20 мая 1996 г. — появилась корпорация Inktomi вместе со своим поисковиком Hotbot . Его создателями были две команды из калифорнийского университета. Когда сайт появился, то он быстро стал популярным. В октябре 2001 Дэнни Салливан написал статью под названием «База данных спам сайтов Inktomi открыта для публичного пользования», в которой рассказывалось о том, как Inktomi случайно сделал свою базу данных спам сайтов, которая к тому времени насчитывала уже около 1 миллиона URL, доступной для всеобщего использования.

1997 год – в западных странах наступает переломный момент в развитии поисковых систем, когда С. Брин и Л. Пейдж из Стэндфордского университета основали Google (первоначальное название проекта BackRub). Они разработали собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов.

23 сентября 1997 года – анонсирован Yandex , который быстро стал самой популярной у русскоязычных пользователей Интернета системой поиска. С запуском в поисковой системы Яндекс отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги

Таким образом, развитие поисковых систем и их становление можно охарактеризовать перечисленными выше этапами.

На сегодняшний день на мировом рынке обосновались три лидера – Google, Yahoo и Bing. Они имеют свои собственные базы, и свои алгоритмы поиска. Многие другие поисковые системы используют результаты этих трех основных поисковых систем. Например, AOL использует базу данных Google в то время как AltaVista, Lycos и AllTheWeb используют базу данных Yahoo Все остальные поисковые системы в различных комбинациях, используют результаты (выдачу) перечисленных систем.

Если же провести аналогичный анализ поисковых систем, популярных в странах СНГ, то мы увидим, что mail.ru транслирует поиск Google, при этом накладывая свои новые наработки, Rambler, в свою очередь, транслирует Яндекс. Поэтому весь рынок рунета можно разделить между этими двумя гигантами.

Именно поэтому, в странах СНГ продвижение сайта, как правило, осуществляется только в этих двух ПС.

История того, как появились поисковые системы, начинается в июле 1945 года, когда ученый из Америки Вэннивер Буш (Vannevar Bush) смог написать знаменитейшую статью «Пока мы мыслим», в ней он смог предсказать появление персональных компьютеров, а также смог сформулировать идею гипертекста. Заметим, что Вэннивер Буш и сам участвовал в создании прототипов поисковых систем, которыми мы пользуемся в наши дни. Однако, тогда, в далеком 1938 году, он смог разработать и запатентовать устройство, которое могло быстро искать информацию на микрофильмах.

Не смотря на то, что хоть Вэннивера Буша считают родоначальником технологий поиска и идеи Интернета, но другие ученые реализовали его идеи на практике. В 1958 году в США при Министерстве обороны было создано АПИП (Агентство Передовых Исследовательских Проектов, ARPA, Advanced Research Projects Agency), в нем с 1963 по 1969 года ученые могли работать над совершенно новой концепцией, которая позволяла производить передачу информации посредством компьютерной сети.

Сначала данное соединение, которое позволяло передавать зашифрованные данные, планировали использовать в военных целях, но уровень безопасности для передачи информации оказался очень низкий, поэтому военных попросили отказаться от продолжения разработок.

Однако, только к концу 1980-х годов идея создания компьютерной сети была заново воскрешена. Помогли этому несколько университетов США, которые в своих разработках смогли объединить свою библиотеку информации, которая являлась образовательной, при помощи соединения сетями.

В 1990-х годах началось резкое развитие Интернета. С февраля 1993 года, как только Марк Андрессен (Mark Andressen) из НЦСП (Национальный Центр Суперкомпьютерных приложений США, NCSA, National Center for Supercomputing Applications, www.ncsa.uiuc.edu) смог закончить начальную версию программы, которая визуализировала гипертекст Mosaic под UNIX, ведь именно у нее был удобный графический интерфейс и она смогла стать прототипом браузеров, которых мы используем в наше время. Интернет стал набирать популярность.

В середине 1990-х годов для того, чтобы найти информации, которая была нужна, нужно было воспользоваться каталогом, в котором располагались сайты. На тот момент этих каталогов было не много, да и изобилием сайтов они не блистали, но в них информация являлась упорядоченной по рубрикам и тематикам. Стоит отметить, что в 1993 году три бота поисковых систем уже имелись в сети. Данные разработки являлись некоммерческими и после наплыва больших количество информации не смогли справиться с работой, поэтому они исчезли из-за резкого развития Интернета.

С 1995 года главное место в глобальном Интернете заняли поисковые системы, которые стали впоследствии весьма крупными, на Западе - Google, Yachoo, Alta Vista, а в России - Yandex , Rambler , Aport.

Отвлечемся на историю развития поисковых систем России. Здесь не такой уж и легкий путь ждал наши поисковые системы. Были и свои победы и поражения.

Компании «Яндекс» начала развиваться в 1990 году, но только в 1997 году стала поисковой системой, которую мы прекрасно знаем.

Яндекс считается безусловным лидером в России, потому что охват аудитории Яндекса за месяц по оценкам ведущих специалистов составила приблизительно половину регулярной аудитории Интернета в России. Эти цифры на голову превосходят потенциальную аудиторию Апорта и Рамблера. Недавно появился на свет достаточно мощный поиск Go Mail от другой крупной электронной службы, которая занимается почтой, однако в этом случае компания смогла использовать алгоритм Яндекса и из-за этого поиск со страниц системы Mail мы можем отнести к поиску в Яндексе. Но последний скандал заставил Mail Group уйти от поиска Yandex . Точные причины размолвки не знает никто до сих пор.

В поиске Яндекса учитываются заголовки, а также обязательное нахождение слова в теле документа. Предпочтение отдается тем словам, которые являются словосочетанием, располагаются близко друг к другу и находятся в одном абзаце. Поиск в Яндексе происходит с учетом морфологии русского языка, это его отличительная особенность, то есть в случае запроса «фото природа» или «фото природы» он будет выдавать и те и другие документы, которые встречают данные слова.

Рамблер является первым поисковым сервисом Рунета, открытый осенью 1997 года группой ученых из НИИ Микробиологии в городе Пущино Московской области. В Рамблере поиск был построен при помощи индексации главных слов на странице, которые были выделены жирным шрифтом (тегами strong и b) и если они частенько появлялись в заголовках (тегах h1). В отличие от Яндекса поиска Рамблера может игнорировать теги keyword, из-за чего его любят называть чистым поиском, но при этом должной чистоты поиска пока не было заметно. Эта проблема промелькивает и в других поисковых системах. На текущий момент поисковые позиции Rambler очень упали и эксперты и прогнозисты пророчат этой системе переквалификацию в обычный развлекательный портал. Единственное что заставляет быть на плаву эту систему, так это собственная рекламная сеть Блогун.

Поисковую машину «Апорт» впервые продемонстрировали в феврале 1996 года во время пресс-конференции «Агамы» в честь открытия «Русского клуба», в то время она еще не являлась масштабной поисковой системой по всему Интернету. Отличие Апорта от других поисковых систем в том, что он может искать заданные ключевые слова не только в keywords, но еще и в подписях к картинкам (alt), и в описании (description). Но данное нововведение продолжилось не долго. Другие поисковики повторили тоже самое и Апорт теперь больше нечем удивлять своих пользователей. На 2011 год, поисковую систему Апорт скорее всего ждет поглощение от более крупных игроков поискового рынка.

Недостатки поиска

На данное время поисковые системы любыми способами продолжают улучшать свои технологии поиска. Но, к сожалению, совершенным поиском ни одна из них не может похвастаться, как бы высоко они небыли развиты. В наши дни к главным недостаткам поисковых систем могут относиться системы обобщения запроса, которые слабо развиты и огромная зависимость от выбора источников информации. В случае недостаточной информативности, ее еще можно хоть как-то компенсировать обилием выбора результатов поиска. Но вот объяснить компьютеру человеческим языком, что же хотят найти люди пока не удается воплотить в реальность. Из-за этого ни одна из поисковых систем не может назвать себя энциклопедией. Однако уже не секрет, что будущее определенно за информативным поиском, который будет ориентирован на обработку человеческих понятий.