Правильная работа с дублями страниц. Правильные методы удаления дублей страниц. Как убрать дубли страниц

Довольно часто на одном и том же сайте существуют копии страниц, причем его владелец об этом может и не догадываться. При их открытии все отображается правильно, но если вы бросите взгляд на адрес сайта, тогда сможете заметить, что одному и тому же содержанию могут соответствовать различные адреса.

Что это означает? Для простых пользователей в Москве ничего, поскольку они пришли на ваш сайт не на названия страниц смотреть, а потому что их заинтересовал контент. А вот о поисковых машинах этого сказать нельзя, поскольку они такое положение вещей воспринимают совсем в другом свете - они видят отличные друг от друга страницы с одинаковым содержанием.

Если обычные пользователи могут и не заметить на сайте продублированные страницы, от внимания поисковиков это точно не ускользнет. К чему это может привести? Поисковые роботы определят копии как разные страницы, в результате они перестанут воспринимать их контент как уникальный. Если вас интересует продвижение сайта , то знайте, что на ранжировании это непременно отразится. К тому же наличие дублей снизит ссылочный вес, появившийся в результате немалых усилий оптимизатора, который пытался выделить целевую страницу. Дублирование страниц может привести к тому, что будет выделена совершенно иная часть сайта. А это может в разы снизить эффективность внешних ссылок и внутренней перелинковки .

Могут ли дубли страниц принести вред?

Зачастую виновником появления дублей является CMS , неправильные настройки которых или недостаток внимания оптимизатора может привести к генерированию четких копий. Такие системы по управлению сайтами, как Joomla часто этим грешат. Сразу отметим, что универсального средства для борьбы с этим явлением просто не существует, но можно установить один из плагинов, предназначенный для поиска и удаления копий. Однако могут появиться нечеткие дубли, содержимое которых не полностью совпадает. Это чаще всего случается из-за недоработок вебмастера. Нередко такие страницы можно найти в интернет-магазинах , в которых карточки товаров отличаются только несколькими предложениями описания, остальной же контент, который состоит из различных элементов и сквозных блоков, является одинаковым. Часто специалисты соглашаются, что некоторое количество дублей не помешает сайту, но если их около половины или больше, тогда продвижение ресурса вызовет немало проблем. Но даже в тех случаях, когда на сайте несколько копий, лучше их отыскать и устранить - так вы наверняка избавитесь от дублей на своем ресурсе.

Поиск дублированных страниц

Найти дублированные страницы можно несколькими способами. Но перед самим поиском было бы хорошо посмотреть на свой сайт глазами поисковиков: как они его себе представляют. Для этого просто сравните количество ваших страниц с теми, которые находятся в их индексе. Чтобы это увидеть, просто введите в поисковую строку Google либо «Яндекса» фразу host:yoursite.ru, после чего оцените результаты.

Если такая простая проверка предоставит различные данные, которые могут отличаться в 10 и более раз, то есть основания полагать, что ваш электронный ресурс содержит дубли. Хотя это и не всегда происходит по вине дублированных страниц, но эта проверка послужит хорошим основанием для их поиска. Если ваш сайт имеет небольшие размеры, тогда вы можете самостоятельно подсчитать число реальных страниц, после чего сравнить результат с показателями поисковиков. Произвести поиск дубликатов можно и посредством URL, которые предлагаются в поисковой выдаче. Если вы используете ЧПУ, тогда страницы с непонятными символами в URL, такие как «index.php?с=0f6b3953d», сразу же привлекут ваше внимание.

Другим методом определения наличия дублей является поиск фрагментов текста. Чтобы выполнить такую проверку, необходимо ввести текст из нескольких слов каждой страницы в поисковую строку, потом просто проанализировать полученный результат. В тех случаях, когда в выдачу попадает две или больше страниц, становится очевидным, что копии имеют место быть. Если же страница в выдаче только одна, тогда она не имеет дубликатов. Конечно, эта методика проверки подойдет только для небольшого сайта, состоящего из нескольких страниц. Когда сайт содержит их сотни, его оптимизатор может использовать специальные программы, например, Xenu`s Link Sleuth.

Для проверки сайта откройте новый проект и зайдите в меню «File», там найдите «Check URL», введите адрес интересующего вас сайта и нажмите «OK». Теперь программа приступит к обработке всех URL указанного ресурса. Когда работа будет выполнена, полученную информацию нужно будет открыть в любом удобном редакторе и произвести поиск дублей. На этом методы поиска дублированных страниц не заканчиваются: в панели инструментов Google Webmaster и «Яндекс.Вебмастер» можно увидеть средства, позволяющие проверить индексацию страниц. С их помощью тоже можно найти дубли.

На пути решения проблемы

Когда вы найдете все дубли, перед вам появится задача устранить их. Существует несколько возможностей решения этой проблемы и различные способы устранения дубликатов страниц.

Склеивание страниц-копий можно произвести с помощью редиректа 301. Это действенно в тех случаях, когда URL отличаются отсутствием или наличием www. Удалить страницы-копии можно и в ручном режиме, но этот метод успешен лишь для тех дублей, которые создавались вручную.

Решить проблему дублей можно при помощи тега canonical, который используется для нечетких копий. Так, его можно использовать в интернет-магазине для категорий товаров, для которых имеются дубли и которые отличаются лишь сортировкой по разным параметрам. К тому же тег canonical подходит для использования на страницах для печати и в аналогичных случаях. Использовать его совсем не сложно - для каждой копии задается атрибут в виде rel=”canonical”, для продвигаемой страницы с наиболее релевантными характеристиками, этот атрибут не указывается. Приблизительный вид кода: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Располагаться он должен в области тега head.

Правильно настроенный файл robots.txt тоже позволит достичь успеха в борьбе с дублями. С помощью директивы Disallow вы можете перекрыть доступ поисковых роботов ко всем дублированным страницам.

Даже профессиональная разработка сайта не поможет вывести его в ТОП, если ресурс будет содержать дублированные страницы. На сегодняшний день страницы-копии являются одним из часто встречающихся подводных камней, от которых страдают новички. Их большое количество на вашем сайте создаст значительные трудности по выведению его в ТОП, а то и вовсе сделают его невозможным.

Вы знаете, что на любом сайте можно найти дубли? Конечно, если их никто до этого не поборол. Вот именно сейчас я и расскажу, как их удалить раз и… ненавсегда, конечно, так как появляются новые и новые. Этот вопрос нужно постоянно контролировать. Своевременная реакция на существующие дубликаты, а также предотвращение новых окупится, поверьте.

Немного резюме (“В предыдущих сериях” ): мы уже узнали о и их , о том, чем же они угражают сайту; о том, которые, конечно же, не хотят быть найденными. Они хотят натравить на вас .

Все последствия дублированного контента понятны, но от этого совсем не легче. Значит, нужно бороться и брать контроль над индексацией сайта в свои руки.

Методы борьбы с внутренними дубликатами

404 ошибка

Это простое удаление страницы-дубликата. Подойдет этот метод только в том случае, если страница не несет никакой пользы для посетителей сайта. Дополнительно можно удалить эту страницу из индекса в Вебмастере Google. Важно, чтобы никакие другие страницы сайта не ссылались на удаленную, а то робот снова и снова будет пытаться ее проиндексировать и исправно выдавать ошибку индексации в Вебмастере, а на сайте – 404 (). Если все сделано правильно – через некоторое время страница канет в Лету.

Плюс: нет страницы-дубликата – нет проблем.

Минус: страница должна быть совершенно бесполезной (а зачем такие создавать?), и на нее не должно быть никаких ссылок.

301 редирект

Он означает, что страница перемещена навсегда (в отличие, от 302, когда страница перемещается временно). 301 редирект подходит, если страница-дулибкат не совсем уж бесполезная, а наоборот – приносит трафик и имеет обратные ссылки. Он передает вес с одной страницы на другую. Но вопреки распространенному заблуждению, вес передается не полностью, какая-то его часть все же теряется. Прописать 301 редирект можно в файле .htaccess , в общем виде он будет таким:

RedirectPermanent /old-page http://www.site.ru/new-page/

301 редирект подходит не только для того, чтобы справиться с дублированным контентом, но еще и с временными страницами (например, страницами акций на сайте, которые не хранятся в архивах, а просто удаляются и выдают 404 ошибку), которые снова же могут иметь обратные ссылки. Такие страницы лучше перенаправлять на другие наиболее релевантные страницы сайта. Если таковых нет – можно и на главную.

Плюс: склеивает страницы, он универсален и хорошо подойдет также для решения проблемы сайта с www и без www.

Минус: 301 редирект делает недоступной ту страницу, с которой он направлен. Но если вам это и нужно – то это совсем не минус.

Rel=сanonical

С 2009 года Google, а позже и Яндекс ввел этот тег. Он указывает поисковым роботам, какая из 2 и более страниц должна ранжироваться. Каноникл прописывается в теге каждой из страниц, для которых он применяется. Выглядит он так:

Важно, чтобы каждая из канонизируемых страниц (т.е. на которой прописан тег rel=canonical), указывала на одну и ту же страницу (которая и будет ранжироваться), но ни в коем случае не на себя саму, а то потеряется весь смысл. Когда робот приходит на страницу с тегом rel=сanonical, он как бы присоединяет эту страницу к той, что указана в тэге, склеивает их. Таким образом, если вы наберете в Гугле cache:site.ru/stranitsa-dublicat, а кэш увидите для site.ru/kanon – вы все сделали правильно.

Плюс: две и более страниц будут доступны пользователям на сайте, но только одна – поисковикам, и это без какого-либо мошенничества.

Минус: не вижу минусов. Кто подскажет?

Robots.txt

Страницы-дубликаты можно запретить и в файле robots.txt. Таким образом, они не будут индексироваться поисковыми роботами, но будут доступны на сайте.

Плюс: несложность в обращении.

Минус: нужно хорошенько разобраться, что запрещать и как это отразить в robots.txt, чтобы ненароком не запретить индексацию части сайта или всего сайта целиком. Более того, запрещение уже проиндексированных страниц в robots.txt не удаляет их из индекса, это придется делать вручную в Вебмастере, что совсем неудобно, когда таких страниц много.

Отсюда вывод: лучше всего запрещать «неугодные» страницы заранее и делать это осторожно.

Meta Robots

Контролировать индексацию сайта можно и с помощью meta robots: INDEX/NOINDEX и FOLLOW/NOFOLLOW . Обычно по умолчанию для каждой страницы стоит INDEX, FOLLOW, что означает: страница индексируется и робот проходит по ссылкам с нее. Чтобы избавиться от страницы-дубликата, можно заключить ее в теги NOINDEX,NOFOLLOW (страница не индексируется, и робот не проходит по ссылкам с нее), но еще лучше – NOINDEX, FOLLOW (страница не индексируется, но робот проходит по расположенным на ней ссылкам).

В WordPress существует специальный плагин – WordPress Meta Robots – он поможет настроить meta robots для каждой страницы или записи.

Заключение страницы в теги NOINDEX, FOLLOW хорошо подойдет для страниц с нумерацией (это один из способов борьбы с дублями на них).

Плюс: этот мета тег еще легче, чем robots.txt, потому что прописывается на отдельной странице, и тут уже случайно не запретишь индексацию целого раздела.

минус: в идеале, конечно, роботы правильно должны понять то, что вы хотите до них донести. Но, бывает, страницы с NOINDEX все равно попадают в индекс.

Удаление страницы из индекса в Вебмастере Google

Этот инструмент удаления страниц находится в Вебмастере> Конфигурация сайта> Доступ робота> Удалить URL. Этим инструментом нужно пользоваться в последнюю очередь и лучше в совокупности с другими мерами. Основанием для удаления страниц (для Гугла) может послужить несколько вещей: если страницы выдают 404 ошибку, если они запрещена в robots.txt или с помощью meta robots. Если же страницы нигде не запрещены, Гугл, конечно удалит их, если вы попросите, но всего на 90 дней.

Плюс: ускорение удаления страниц из индекса, если вы где-то их уже запретили.

Минус: трудозатратность, так как каждый URL добавляется в очередь на удаление вручную, а это может занять много времени. Так что если в индексе ненужных страниц много – удалять каждую из них вручную не вариант.

Блокирование параметров в Вебмастере Google

Заходим в Вебмастер> Конфигурация сайта > Параметры URL

Тут можно найти список динамических параметров, которые робот Гугла обнаружил на вашем сайте, а также правила их индексирования. По умолчанию Гугл сам решает, индексировать ли ему страницы с динамическими параметрами в адресах (тут не отображается запрещение индексации с помощью других средств, например robots.txt). Индексацию можно запретить, выбрав вариант «Нет», который подразумевает, что добавление параметров к адресу страницы не изменяет ее содержимое, то есть – создает дубликат.

Плюс: вы легко можете запретить индексацию страниц с динамическими параметрами, которые обычно являются головной болью (например, replytocom на WP). Еще в этом туле можно найти такие параметры, о существовании на сайте которых вы и не догадывались.

Минус: такое запрещение понимает только Google, а это значит, что Яндекс все равно проиндексирует страницы с динамическими параметрами, если не приняты другие меры (тот же robots.txt).

В сентябре 2011 года Google ввел rel=Prev и rel=Next, которые призваны помочь вебмастерам справиться с дублированным контентом при наличии страниц с нумерацией.

Как и все другие мета данные, эти теги прописываются в страниц. Суть такова:

Плюс: вы сообщаете Google, что у вас есть страницы с нумерацией, чтобы он не считал их дубликатами.

Минус: снова же эти теги поддерживает на данный момент только Гугл. Некоторые не считают этот способ подходящим для борьбы с дублями, так как вес всех страниц, на которых стоит rel=Prev и rel=Next, распределяется равномерно, то есть теоретически 15ая страница имеет такие же шансы ранжироваться, как и 1ая.

Борьба с внешними дублями

Внешние дубли, в основном, созданы не вебмастерами, но именно им приходится бороться с таким явлением. И вот некоторые способы.

Метатеги атрибута источника

В ноябре 2010 года Гугл ввел мета теги атрибута источника. Он применяется для новостей, обзоров, которые часто перепубликовываются на разных сайтах. Выглядит мета тег атрибута источника так:

Этот тег проставляется в теге страницы, которая копирует текст, а в content указывается первоисточник .

Плюс: данный мета тег решает проблему многочисленных внешних дублей.

Минус: мета теги атрибута источника поддерживаются только Google.

Кросс-доменный rel-canonical

Система та же, что и rel-canonical внутри сайта: дубликат канонизирует первоисточник какого-либо текста, новости.

Плюс: независимо от наличия внешних дублей, ваш сайт не пострадает.

Минус: поддерживается только Google (где-то я это уже слышала).

Радоваться, получив обратные ссылки

Все знают, что бывает очень сложно заставить воров контента удалить его со своих сайтов. Поэтому можно найти для себя утешение: обратные ссылки с их сайтов, так как многие воры не только оставляют ссылки на ваш сайт в тексте скопированных статей, но и не закрывают их от индексации. Поэтому (ну и не только поэтому, конечно) не забываем делать внутреннюю перелинковку между своими страницами и статьями.

Напоследок

Ссылки на страницы-дубликаты

Когда страницы-дубликаты «устранены», нужно перестать на них ссылаться как с внешних источников, так и с самого сайта. Если вы поставили 301 редирект (или rel=canonical) – ссылайтесь на страницу, на которую он направлен, чтобы получить максимальный эффект. Запретив индексировать страницу, но ссылаясь на нее с внешних источников, вы передаете поисковикам противоречивые указания, что может вызвать проблемы.

Ничего не предпринимайте

Можно просто закрыть глаза на дублированный контент и надеяться, что поисковики сами поймут, что нужно индексировать, а что нет. Это хороший выход, если у вас всего несколько страниц-дубликатов, но это может обернуться неприятностями, если сайт большой и на нем много таких страниц, или если ваш сайт безжалостно копируют. В конечном итоге – решать вам.

Что сказать напоследок? Каждый из нас хочет быть уникальным и ни на кого не похожим, чем же наши сайты хуже? Они тоже должны быть единственными в своем роде, так что не копируйте их и другим не позволяйте! И да, подписывайтесь на обновления !

Что такое дубли страниц - это страницы с абсолютно одинаковым содержанием и разными URL адресами.

Причин возникновения дублей страниц на сайте может быть несколько, однако почти все они так или иначе связаны с системой управления содержимым сайта. Лучше всего принять меры, предотвращающие появление страниц-дублей еще на стадии создания сайта. Если Ваш сайт уже функционирует - обязательно проверьте наличие на нем повторяющихся страниц, иначе серьёзных проблем с индексацией и SEO не избежать.

Существует несколько способов избавления от дублей страниц сайта. Одни могут помочь в борьбе с уже появившимися копиями страниц, другие помогут избежать их появления в будущем.

Как найти дубли страниц на сайте?

Но для начала необходимо проверить - есть ли вообще повторяющиеся страницы на Вашем ресурсе и, если да, то какого типа эти страницы. Как это сделать?

Способ 1. Запрос в поиске «site:»

Можно воспользоваться командой «site:». Эта команда выдает результаты поиска по определенному сайту. Введя site:www.yoursite.com/page1, Вы увидите, есть ли в поиске дубли этой страницы.

Способ 2. Поиск по отрывку из статьи

Выделяем небольшой отрывок текста со страницы, для которой мы ищем дубли, и вставляем в поиск. Результаты поиска сразу покажут все проиндексированные дубли нужной страницы.

Как бороться с дублями страниц?

301 редирект

Одним из самых эффективных, но в то же время и самых непростых методов борьбы с дублями является 301-редирект, он склеивает указанные страницы и дубли со временем исчезают из индекса поисковых систем.

При попадании поискового робота на дубликат страницы, на которой прописан 301 редирект, веб-сервер автоматически перенаправит его на страницу-оригинал. Прописываются все перенаправления в файле.htaccess, который находится в корневом каталоге сайта. Не стоит использовать 301 перенаправление (постоянный редирект), если вы планируете в дальнейшем как-то использовать страницу-копию. Для этого можно использовать 302 перенаправление (временное). Тогда склеивания страниц не произойдет.

При использовании 301 редиректа для удаления дублей страниц из индекса прежде всего надо определиться с главным зеркалом сайта. Для примера в качестве главного зеркала укажем http://site.ru Вам останется только поменять на адрес своего сайта

301 Редирект с www.site.ru на site.ru

Для этого надо в файле.htaccess (файл находится в корне сайта) добавить следующие строки сразу после RewriteEngine On :

RewriteCond %{HTTP_HOST} ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

301 редирект с site.ru/index.php на site.ru

RewriteRule ^index\.php$ http://site.ru/

Аналогичным образом можно избавиться от дублей типа:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Если Вы, к примеру, хотите склеить страницы http://site.ru и http://site.ru /page123, то в файле.htaccess следует прописать следующее:

Redirect 301 /page123 http://site.ru

Теперь при попытке зайти на страницу http://site.ru/page123 будет срабатывать перенаправление на главную.

Другой способ указать оригинал - прописывать на страницах-дублях т.н. канонические ссылки . Это ссылки с атрибутом rel=canonical , иными словами в блоке head такой страницы прописано:

Если поисковые системы сталкиваются с такой ссылкой, то понимают какая из многочисленных копий страниц является оригиналом и индексируют её.

Например, в примере выше на сайте были 2 страницы-дубля:

http://site.ru/load
http://site.ru/load/

Указав на странице http://site.ru/load атрибут rel=canonical мы покажем поисковым системам, что эта страница является главной и именно ее надо индексировать.

Некоторые CMS (например, Joomla!) могут автоматически создавать такие ссылки, на других эта операция выполняется различными плагинами. Однако, даже если все новосозданные дубли страниц Вашего сайта будут с каноническими ссылками, это не поможет решить проблему уже существующих дублей.

robots.txt

Частично проблему дублей страниц решает файл robots.txt в котором содержатся рекомендации поисковым системам с перечнем файлов и папок, которые не должны быть проиндексированы. Почему частично? Потому что этот файл содержит именно рекомендации, а не правила и некоторые поисковые системы игнорируют эти рекомендации.

Например, чтобы Яндекс удалил из индекса старые дубли страниц, достаточно прописать соответствующие запрещающие их индексацию правила в robots.txt. С Google ситуация немного сложнее. Те же правила придется вносить в особый инструментарий от Google, разработанный специально для веб-мастеров. В Google вебмастер понадобится задать необходимые нам параметры ссылок в разделе «Сканирование».

При создании же robots.txt нам понадобится воспользоваться запрещающей директивой Disallow.

Правильный robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: http://site.ru /sitemap.xml User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru
Sitemap: http:// site.ru /sitemap.xml

Правильный robots.txt для Wordpress

User- agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: http://site.ru/sitemap.xml User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Что означают эти строки:

User-agent: * - правила описанные в ниже этой строки будут действовать для всех поисковых роботов
User-agent: Yandex - правила действуют только для робота Яндекса
Allow: - разрешить индексирование (обычно не пишут)
Disallow: запрещено индексировать страницы в адресе котроых есть то что описано в строке.
Host: site.ru - Основное зеркало сайта
Sitemap: - ссылка на XML-карту сайта
"*" - любая последовательность символов в адресе страницы

Борьба с дублями страниц в Wordpress

Каким должен быть файл robots.txt для Wordpress мы уже рассмотрели выше. А теперь поговорим о плагинах, которые позволяют бороться с дублями и вообще незаменимы для оптимизатора сайтов на этом движке.

Yoast SEO - Один из самых популярных плагинов для Wordpress, позволяющим бороться с проблемой дублей. С его помощью можно заставить Wordpress прописывать канонические ссылки, запретить индексацию страниц с постраничным разбиением (рубрики), скрыть архивы автора, удалить /category/ из URL и многое другое.

All in One Seo Pack - Аналогичный плагин, не менее популярный и выполняющий похожие функции. Какой из них использовать - решать вам.

Как убрать дубли страниц в Joomla

Несмотря на то, что Joomla! поддерживает автоматическое создание канонических ссылок, некоторые дубли все равно могут попадать в индекс поисковых машин. Для борьбы с дублями в Joomla! можно использовать robots.txt и 301редирект. Правильный файл rorbots.txt описан выше.

Ну, а чтобы включить ЧПУ (человеко понятные урлы) в Joomla достаточно переименовать htaccess.txt в.htaccess и добавить туда сразу после RewriteEngine On:

RewriteCond %{HTTP_HOST} ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %{THE_REQUEST} ^{3,9}\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

А также в настройках сайта поставить галочки следующим образом:

Таким образом мы избавимся от дублей типа www.site.ru и site.ru/index.php, потому что в этой CMS возникает такая проблема с дублями. И поисковики часто индескируют страницы типа site.ru/index.php. Теперь после всех манипуляций при попытке зайти на страницу, например, www.site.ru посетителя перекинет на главную, т.е. site.ru.

Из плагинов для Джумлы могу посоветовать JL No Doubles - плагин убирает дубли страниц в компоненте com_content. Возможен 301 редирект на правильную страницу, либо вывод 404 ошибки.

Специальные сервисы для создания robots.txt и.htaccess

Если Вы только начинаете осваивать сайтостроение - попробуйте воспользоваться услугами специализированных сервисов, которые помогут Вам сгенерировать валидные файлы robots.txt и.htaccess:

seolib.ru - На нем можно не только создать, но и протестировать Ваш robots.txt

htaccess.ru - один из наиболее популярных сервисов, на котором можно создать и выбрать различные параметры генерируемого файла.htaccess

Дубли - это страницы на одном и том же домене с идентичным или очень похожим содержимым. Чаще всего появляются из-за особенностей работы CMS, ошибок в директивах robots.txt или в настройке 301 редиректов.

В чем опасность дублей

1. Неправильная идентификация релевантной страницы поисковым роботом. Допустим, у вас одна и та же страница доступна по двум URL:

Https://site.ru/kepki/

Https://site.ru/catalog/kepki/

Вы вкладывали деньги в продвижение страницы https://site.ru/kepki/. Теперь на нее ссылаются тематические ресурсы, и она заняла позиции в топ-10. Но в какой-то момент робот исключает ее из индекса и взамен добавляет https://site.ru/catalog/kepki/. Естественно, эта страница ранжируется хуже и привлекает меньше трафика.

2. Увеличение времени, необходимого на переобход сайта роботами. На сканирование каждого сайта роботам выделяется ограниченное время. Если много дублей, робот может так и не добраться до основного контента, из-за чего индексация затянется. Эта проблема особенно актуальна для сайтов с тысячами страниц.

3. Наложение санкций со стороны поисковых систем. Сами по себе дубли не являются поводом к пессимизации сайта - до тех пор, пока поисковые алгоритмы не посчитают, что вы создаете дубли намеренно с целью манипуляции выдачей.

4. Проблемы для вебмастера. Если работу над устранением дублей откладывать в долгий ящик, их может накопиться такое количество, что вебмастеру чисто физически будет сложно обработать отчеты, систематизировать причины дублей и внести корректировки. Большой объем работы повышает риск ошибок.

Дубли условно делятся на две группы: явные и неявные.

Явные дубли (страница доступна по двум или более URL)

Вариантов таких дублей много, но все они похожи по своей сути. Вот самые распространенные.

1. URL со слешем в конце и без него

Https://site.ru/list/

Https://site.ru/list

Что делать: настроить ответ сервера «HTTP 301 Moved Permanently» (301-й редирект).

Как это сделать:

- найти в корневой папке сайта файл.htaccess и открыть (если его нет - создать в формате TXT, назвать.htaccess и поместить в корень сайта);
- прописать в файле команды для редиректа с URL со слешем на URL без слеша:

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ /$1

- обратная операция:

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*[^/])$ $1/

- если файл создается с нуля, все редиректы необходимо прописывать внутри таких строк:

…

Настройка 301 редиректа с помощью.htaccess подходит только для сайтов на Apache. Для nginx и других серверов редирект настраивается другими способами.

Какой URL предпочтителен: со слешем или без? Чисто технически - никакой разницы. Смотрите по ситуации: если проиндексировано больше страниц со слешем, оставляйте этот вариант, и наоборот.

2. URL с WWW и без WWW

Https://www.site.ru/1

Https://site.ru/1

Что делать: указать на главное зеркало сайта в панели для вебмастеров.

Как это сделать в Яндексе:

- перейти в Яндекс.Вебмастер

- выбрать в Панели сайт, с которого будет идти перенаправление (чаще всего перенаправляют на URL без WWW);
- перейти в раздел «Индексирование / Переезд сайта», убрать галочку напротив пункта «Добавить WWW» и сохранить изменения.

В течение 1,5-2 недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL без WWW.

Важно! Ранее для указания на главное зеркало в файле robots.txt необходимо было прописывать директиву Host. Но она больше не поддерживается. Некоторые вебмастера «для подстраховки» до сих пор указывают эту директиву и для еще большей уверенности настраивают 301 редирект - в этом нет необходимости, достаточно настроить склейку в Вебмастере.

Как склеить зеркала в Google:

- перейти в Google Search Console и добавить 2 версии сайта - с WWW и без WWW;

- выбрать в Search Console сайт, с которого будет идти перенаправление;
- кликнуть по значку шестеренки в верхнем правом углу, выбрать пункт «Настройки сайта» и выбрать основной домен.

Как и в случае с Яндексом, дополнительные манипуляции с 301 редиректами не нужны, хотя реализовать склейку можно и с его помощью.

Что нужно сделать:

- выгрузите список проиндексированных URL из Яндекс.Вебмастера;
- загрузите этот список в инструмент от SeoPult - списком или с помощью XLS-файла (подробная инструкция по использованию инструмента);

- запустите анализ и скачайте результат.

В этом примере страницы пагинации проиндексированы Яндексом, а Google - нет. Причина в том, что они закрыты от индексации в robots.txt только для бота Yandex. Решение - настроить канонизацию для страниц пагинации.

Используя парсер от SeoPult, вы поймете, дублируются страницы в обоих поисковиках или только в одном. Это позволит подобрать оптимальные инструменты решения проблемы.

Если у вас нет времени или опыта на то, чтобы разобраться с дублями, закажите аудит - помимо наличия дублей вы получите массу полезной информации о своем ресурсе: наличие ошибок в HTML-коде, заголовках, мета-тегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента и т. д. В итоге у вас на руках будут готовые рекомендации, выполнив которые, вы сделаете сайт более привлекательным для посетителей и повысите его позиции в поиске.

Правильная работа с дублями страниц. Правильные методы удаления дублей страниц. Как убрать дубли страниц — основные методы