Правильна робота з дублями сторінок. Правильні методи видалення дублів сторінок. Як прибрати дублі сторінок

Досить часто на тому самому сайті існують копії сторінок, причому його власник про це може і не здогадуватися. При їх відкритті все відображається правильно, але якщо ви кинете погляд на адресу сайту, тоді зможете помітити, що одному й тому змісту можуть відповідати різні адреси.

Що це означає? Для простих користувачіву Москві нічого, оскільки вони прийшли на ваш сайт не на назви сторінок дивитися, а тому, що їх зацікавив контент. А ось про пошукові машини цього сказати не можна, оскільки вони такий стан речей сприймають зовсім в іншому світлі - вони бачать відмінні один від одного сторінки з однаковим змістом.

Якщо звичайні користувачіможуть і не помітити на сайті продубльовані сторінки, від уваги пошукових систем це точно не вислизне. До чого це може спричинити? Пошукові роботи визначать копії як різні сторінки, в результаті вони перестануть сприймати їхній контент як унікальний. Якщо вас цікавить просування сайту, то знайте, що на ранжируванні це неодмінно позначиться. До того ж наявність дублів зменшить посилальна вага, що з'явився внаслідок чималих зусиль оптимізатора, який намагався виділити цільову сторінку Дублювання сторінок може призвести до того, що буде виділено зовсім іншу частину сайту. А це може в рази знизити ефективність зовнішніх посилань та внутрішньої перелінковки.

Чи можуть дублі сторінок завдати шкоди?

Найчастіше винуватцем появи дублів є CMS, неправильні налаштуванняяких або нестача уваги оптимізатора може призвести до створення чітких копій. Такі системи управління сайтами, як Joomla часто цим грішать. Відразу зазначимо, що універсального засобудля боротьби з цим явищем просто не існує, але можна встановити один із плагінів, призначений для пошуку та видалення копій. Однак, можуть з'явитися нечіткі дублі, вміст яких не повністю збігається. Це найчастіше трапляється через недоробки вебмайстра. Нерідко такі сторінки можна знайти в інтернет-магазинах, в яких картки товарів відрізняються лише кількома пропозиціями опису, решта контенту, який складається з різних елементів і наскрізних блоків, є однаковим. Часто фахівці погоджуються, що кілька дублів не завадять сайту, але якщо їх близько половини або більше, тоді просування ресурсу викличе чимало проблем. Але навіть у тих випадках, коли на сайті кілька копій, краще їх відшукати і усунути - так ви напевно позбавитеся дублів на своєму ресурсі.

Пошук дубльованих сторінок

Знайти дубльовані сторінки можна кількома способами. Але перед самим пошуком було б добре подивитися на свій сайт очима пошукових систем: як вони його уявляють. Для цього просто порівняйте кількість ваших сторінок з тими, що знаходяться в їхньому індексі. Щоб це побачити, просто введіть у пошуковий рядок Google або Яндекса фразу host:yoursite.ru, після чого оцініть результати.

Якщо така проста перевірканадасть різні дані, які можуть відрізнятись у 10 і більше разів, тобто підстави вважати, що ваш електронний ресурс містить дублі. Хоча це і не завжди відбувається з вини дубльованих сторінок, але ця перевірка послужить гарною підставою для їхнього пошуку. Якщо ваш сайт має невеликі розміри, тоді ви можете самостійно підрахувати кількість реальних сторінок, після чого порівняти результат із показниками пошукових систем. Здійснити пошук дублікатів можна і за допомогою URL, які пропонуються у пошуковій видачі. Якщо ви використовуєте ЧПК, тоді сторінки з незрозумілими символами в URL, такі як index.php?с=0f6b3953d, відразу ж привернуть вашу увагу.

Іншим способом визначення наявності дублів є пошук фрагментів тексту. Щоб виконати таку перевірку, необхідно ввести текст із кількох слів кожної сторінки в пошуковий рядок, потім просто проаналізувати отриманий результат. У тих випадках, коли у видачу потрапляє дві або більше сторінок, стає очевидним, що копії мають місце. Якщо ж сторінка у видачі лише одна, тоді вона не має дублікатів. Звичайно, ця методика перевірки підійде лише для невеликого сайту, що складається з кількох сторінок. Коли сайт містить їх сотні, його оптимізатор може використовувати спеціальні програминаприклад, Xenu`s Link Sleuth.

Для перевірки сайту відкрийте новий проект і зайдіть в меню «File», там знайдіть «Check URL», введіть адресу сайту, що цікавить вас, і натисніть «OK». Тепер програма розпочне обробку всіх URL зазначеного ресурсу. Коли робота буде виконана, отриману інформацію потрібно буде відкрити в будь-якому зручному редакторі та здійснити пошук дублів. На цьому методи пошуку дубльованих сторінок не закінчуються: у панелі інструментів Google Webmaster та Яндекс.Вебмайстер можна побачити кошти, що дозволяють перевірити індексацію сторінок. З їхньою допомогою теж можна знайти дублі.

На шляху вирішення проблеми

Коли ви знайдете всі дублі, перед вами з'явиться завдання усунути їх. Існує кілька можливостей вирішення цієї проблеми та різні способиусунення дублікатів сторінок.

Склеювання сторінок-копій можна зробити за допомогою редиректу 301. Це дієво в тих випадках, коли URL відрізняються відсутністю або наявністю www. Видалити сторінки-копії можна і в ручному режимі, але цей метод успішний лише для дублів, які створювалися вручну.

Вирішити проблему дублів можна за допомогою тега canonical, який використовується для нечітких копій. Так, його можна використовувати в інтернет-магазині для категорій товарів, для яких є дублі і які відрізняються лише сортуванням різним параметрам. До того ж canonical тег підходить для використання на сторінках для друку і в аналогічних випадках. Використовувати його зовсім не складно - для кожної копії задається атрибут у вигляді rel = "canonical", для сторінки, що просувається з найбільш релевантними характеристиками, цей атрибут не вказується. Приблизний вид коду: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Розташовуватись він повинен у області тега head.

Правильно налаштований файл robots.txt також дозволить досягти успіху у боротьбі з дублями. За допомогою директиви Disallow ви можете перекрити доступ пошукових роботів до всіх дубльованих сторінок.

Навіть професійна розробка сайту не допоможе вивести його в ТОП, якщо ресурс міститиме дубльовані сторінки. На сьогоднішній день сторінки-копії є одним з найчастіше зустрічаються підводних каменів, від яких страждають новачки. Їхня велика кількість на вашому сайті створить значні труднощі з виведення його в ТОП, а то й зовсім зроблять його неможливим.

Ви знаєте, що на будь-якому сайті можна знайти дублі? Звісно, якщо їх ніхто до цього не поборов. Ось саме зараз я й розповім, як їх видалити раз і… неназавжди, звичайно, тому що з'являються нові та нові. Це питання потрібно постійно контролювати. Своєчасна реакція на існуючі дублікати, а також запобігання новим окупиться, повірте.

Трохи резюме (“У попередніх серіях”): ми вже дізналися про та їх, про те, чим вони погрожують сайту; про те, які, звичайно, не хочуть бути знайденими. Вони хочуть нацькувати на вас.

Усі наслідки дубльованого контенту зрозумілі, але від цього не легше. Отже, потрібно боротися та брати контроль над індексацією сайту у свої руки.

Методи боротьби із внутрішніми дублікатами

404 помилка

Це просто видалення сторінки-дубліката. Підійде цей метод лише в тому випадку, якщо сторінка не несе користі для відвідувачів сайту. Додатково можна видалити цю сторінку з індексу у Вебмайстрі Google. Важливо, щоб ніякі інші сторінки сайту не посилалися на віддалену, бо робот знову і знову намагатиметься її проіндексувати і справно видавати помилку індексації у Вебмайстрі, а на сайті – 404 (). Якщо все зроблено правильно – через деякий час сторінка кане в Лету.

Плюс:немає сторінки-дублікату – немає проблем.

Мінус:сторінка має бути абсолютно марною (а навіщо такі створювати?), і на неї не повинно бути жодних посилань.

301 редирект

Він означає, що сторінка переміщена назавжди (на відміну від 302, коли сторінка переміщається тимчасово). 301 редирект підходить, якщо сторінка-дулібкат не зовсім марна, а навпаки – приносить трафік і має зворотні посилання. Він передає вагу з однієї сторінки на іншу. Але всупереч поширеній помилці, вага передається не повністю, якась його частина все ж таки втрачається. Прописати 301 редирект можна у файлі .htaccess, Загалом він буде таким:

RedirectPermanent /old-page http://www.site.ru/new-page/

301 редирект підходить не тільки для того, щоб впоратися з дубльованим контентом, але ще й з тимчасовими сторінками (наприклад, сторінками акцій на сайті, які не зберігаються в архівах, а просто видаляються та видають 404 помилку), які знову ж таки можуть мати зворотні посилання . Такі сторінки краще перенаправляти на інші релевантні сторінки сайту. Якщо таких немає – можна і головну.

Плюс:склеює сторінки, він універсальний і добре підійде для вирішення проблеми сайту з www і без www.

Мінус: 301 редирект унеможливлює ту сторінку, з якої він спрямований. Але якщо вам це і потрібно, то це зовсім не мінус.

Rel = сanonical

З 2009 року Google, а пізніше Яндекс ввів цей тег. Він показує пошуковим роботам, яка з двох і більше сторінок повинна ранжуватися. Канонікл прописується у тезі кожній із сторінок, для яких він застосовується. Виглядає він так:

Важливо, щоб кожна з сторінок, що канонізуються (тобто на якій прописаний тег rel=canonical), вказувала на одну і ту ж сторінку (яка і буде ранжуватися), але в жодному разі не на себе саму, а то загубиться весь сенс . Коли робот приходить на сторінку з тегом rel=сanonical, він хіба що приєднує цю сторінку до тієї, що вказана у тезі, склеює їх. Таким чином, якщо ви наберете в Гуглі cache:site.ru/stranitsa-dublicat, а кеш побачите для site.ru/kanon – ви все зробили правильно.

Плюс:дві та більше сторінок будуть доступні користувачам на сайті, але тільки одна – пошукачам, і це без будь-якого шахрайства.

Мінус:не бачу мінусів. Хто підкаже?

Robots.txt

Сторінки-дублікати можна заборонити у файлі robots.txt. Таким чином, вони не індексуватимуться пошуковими роботами, але будуть доступні на сайті.

Плюс:нескладність у зверненні.

Мінус:потрібно добре розібратися, що забороняти і як це відобразити в robots.txt, щоб ненароком не заборонити індексацію частини сайту або всього сайту повністю. Більше того, заборона вже проіндексованих сторінок у robots.txt не видаляє їх з індексу, це доведеться робити вручну у Вебмайстрі, що зовсім незручно, коли таких сторінок багато.

Звідси висновок: краще забороняти «неугодні» сторінки заздалегідь і робити це обережно.

Meta Robots

Контролювати індексацію сайту можна за допомогою meta robots: INDEX/NOINDEXі FOLLOW/NOFOLLOW. Зазвичай, за умовчанням для кожної сторінки стоїть INDEX, FOLLOW, що означає: сторінка індексується і робот проходить за посиланнями з неї. Щоб позбутися сторінки-дубліката, можна укласти її в теги NOINDEX, NOFOLLOW (сторінка не індексується, і робот не проходить за посиланнями з неї), але ще краще - NOINDEX, FOLLOW (сторінка не індексується, але робот проходить за посиланнями, що розташовані на ній). ).

У WordPress існує спеціальний плагін – WordPress Meta Robots – він допоможе налаштувати meta robots для кожної сторінки чи запису.

Укладання сторінки в теги NOINDEX, FOLLOW добре підійде для сторінок з нумерацією (це один із способів боротьби з дублями на них).

Плюс:цей мета тег ще легше, ніж robots.txt, тому що прописується на окремій сторінці, І тут вже випадково не заборониш індексацію цілого розділу.

мінус:в ідеалі, звичайно, роботи правильно повинні зрозуміти те, що ви хочете до них донести. Але, буває, сторінки з NOINDEX однаково потрапляють до індексу.

Видалення сторінки з індексу у Вебмайстрі Google

Цей інструмент видалення сторінок знаходиться у Вебмайстрі > Конфігурація сайту > Доступ робота > Видалити URL-адресу. Цим інструментом потрібно користуватися в останню чергу і краще разом з іншими заходами. Підставою для видалення сторінок (для Гугла) може бути кілька речей: якщо сторінки видають 404 помилку, якщо вони заборонена в robots.txt або за допомогою meta robots. Якщо ж сторінки ніде не заборонені, Google, звичайно, видалить їх, якщо ви попросите, але всього на 90 днів.

Плюс:прискорення видалення сторінок з індексу, якщо ви їх уже заборонили.

Мінус:трудомісткість, тому що кожен URL додається в чергу на видалення вручну, а це може зайняти багато часу. Отже, якщо в індексі непотрібних сторінок багато – видаляти кожну з них вручну не варіант.

Блокування параметрів у Вебмайстрі Google

Заходимо в Вебмайстер> Конфігурація сайту > Параметри URL

Тут можна знайти список динамічних параметрів, які робот Гугла виявив на вашому сайті, а також правила їх індексування. За умовчанням Google сам вирішує, чи індексувати йому сторінки з динамічними параметрами в адресах (тут не відображається заборона індексації за допомогою інших засобів, наприклад robots.txt). Індексацію можна заборонити, вибравши варіант «Ні», який передбачає, що додавання параметрів до адреси сторінки не змінює її вміст, тобто створює дублікат.

Плюс:ви легко можете заборонити індексацію сторінок з динамічними параметрами, які зазвичай є головним болем (наприклад, replytocomна WP). Ще в цьому тулі можна знайти такі параметри про існування на сайті яких ви і не здогадувалися.

Мінус:таку заборону розуміє лише Google, а це означає, що Яндекс все одно проіндексує сторінки з динамічними параметрами, якщо не вжито інших заходів (той же robots.txt).

У вересні 2011 року Google ввів rel=Prev та rel=Next, які покликані допомогти вебмайстрам впоратися з дубльованим контентом за наявності сторінок із нумерацією.

Як і всі інші мета дані, ці теги прописуються в сторінок. Суть така:

Плюс:ви повідомляєте Google, що у вас є сторінки з нумерацією, щоб він не вважав їх дублікатами.

Мінус:знову ж таки ці теги підтримує на Наразітільки Google. Деякі не вважають цей спосіб придатним для боротьби з дублями, так як вага всіх сторінок, на яких стоїть rel = Prev і rel = Next, розподіляється рівномірно, тобто теоретично 15 сторінка має такі ж шанси ранжуватися, як і 1.

Боротьба із зовнішніми дублями

Зовнішні дублі, в основному, створені не вебмайстрами, але їм доводиться боротися з таким явищем. І ось деякі способи.

Метатеги атрибута джерела

У листопаді 2010 року Google ввів мета теги атрибута джерела. Він застосовується для новин, оглядів, які часто публікуються на різних сайтах. Виглядає мета тег атрибута джерела так:

Цей тег проставляється у тезі сторінки, яка копіює текст, а в content вказується першоджерело.

Плюс:Цей мета тег вирішує проблему численних зовнішніх дублів.

Мінус:мета теги атрибута джерела підтримуються лише Google.

Крос-доменний rel-canonical

Система та сама, що й rel-canonical всередині сайту: дублікат канонізує першоджерело будь-якого тексту, новини.

Плюс:незалежно від наявності зовнішніх дублів, ваш сайт не постраждає.

Мінус:підтримується лише Google (десь я це вже чула).

Радіти, отримавши зворотні посилання

Усі знають, що буває дуже складно змусити крадіїв контенту видалити його зі своїх сайтів. Тому можна знайти для себе втіху: зворотні посилання з їх сайтів, оскільки багато злодіїв не тільки залишають посилання на ваш сайт у тексті скопійованих статей, але й не закривають їх від індексації. Тому (ну і не тільки тому, звичайно) не забуваємо робити внутрішню перелінковку між своїми сторінками та статтями.

Насамкінець

Посилання на сторінки-дублікати

Коли сторінки-дублікати «усунуті», потрібно перестати на них посилатися як на зовнішніх джерел, Так і з самого сайту. Якщо ви поставили 301 редирект (або rel=canonical) – посилайтеся на сторінку, на яку він спрямований, щоб отримати максимальний ефект. Заборонивши індексувати сторінку, але посилаючись на неї із зовнішніх джерел, ви передаєте пошуковикам суперечливі вказівки, що може викликати проблеми.

Нічого не робіть

Можна просто заплющити очі на дубльований контент і сподіватися, що пошукові системи самі зрозуміють, що потрібно індексувати, а що ні. Це хороший вихід, якщо у вас всього кілька сторінок-дублікатів, але це може обернутися неприємностями, якщо сайт великий і на ньому багато таких сторінок, або якщо ваш сайт безжально копіюють. Зрештою – вирішувати вам.

Що сказати насамкінець? Кожен з нас хоче бути унікальним і ні на кого не схожим, ніж наші сайти гірші? Вони теж повинні бути єдиними у своєму роді, так що не копіюйте їх та іншим не дозволяйте! І так, підписуйтесь на оновлення!

Що таке дублі сторінок- це сторінки з абсолютно однаковим змістом та різними URL-адресами.

Причин виникнення дублів сторінок на сайті може бути кілька, проте майже всі вони так чи інакше пов'язані із системою керування вмістом сайту. Найкраще вжити заходів, що запобігають появі сторінок-дублів ще на стадії створення сайту. Якщо Ваш сайт вже функціонує - обов'язково перевірте наявність на ньому сторінок, що повторюються, інакше серйозних проблем з індексацією і SEO не уникнути.

Існує кілька способів звільнення від дублів сторінок сайту. Одні можуть допомогти в боротьбі з копіями сторінок, що вже з'явилися, інші допоможуть уникнути їх появи в майбутньому.

Як знайти дублі сторінок на сайті?

Але для початку необхідно перевірити - чи є сторінки, що взагалі повторюються, на Вашому ресурсі і, якщо так, то якого типу ці сторінки. Як це зробити?

Спосіб 1. Запит у пошуку «site:»

Можна скористатися командою "site:". Ця команда видає результати пошуку на певному сайті. Ввівши site:www.yoursite.com/page1, Ви побачите, чи є у пошуку дублі цієї сторінки.

Спосіб 2. Пошук по уривку із статті

Виділяємо невеликий уривок тексту зі сторінки, на яку ми шукаємо дублі, та вставляємо у пошук. Результати пошуку одразу покажуть усі проіндексовані дублі потрібної сторінки.

Як боротися із дублями сторінок?

301 редирект

Одним із найефективніших, але водночас і найнепростіших методів боротьби з дублями є 301-редирект, він склеює зазначені сторінки та дублі з часом зникають з індексу пошукових систем.

При попаданні пошукового робота на дублікат сторінки, на якій прописано 301 редирект, веб-сервер автоматично перенаправить його на сторінку-оригінал. Прописуються всі перенаправлення у файлі.htaccess, що знаходиться в кореневому каталозі сайту. Не варто використовувати 301 перенапрямок (постійний редирект), якщо ви плануєте надалі якось використати сторінку-копію. Для цього можна використовувати 302 перенаправлення (тимчасове). Тоді склеювання сторінок не відбудеться.

При використанні 301 редиректа для видалення дублів сторінокз індексу насамперед треба визначитись із головним дзеркалом сайту. Для прикладу як головне дзеркало вкажемо http://site.ruВам залишиться лише поміняти на адресу свого сайту

301 Редирект з www.site.ru на site.ru

Для цього треба у файлі.htaccess (файл знаходиться в корені сайту) додати наступні рядки відразу після RewriteEngine On :

RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

301 редирект з site.ru/index.php на site.ru

RewriteRule ^index\.php$ http://site.ru/

Аналогічним чином можна позбутися дублів типу:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Якщо Ви, наприклад, хочете склеїти сторінки http://site.ru та http://site.ru/page123, то у файлі.htaccess слід прописати наступне:

Redirect 301 /page123 http://site.ru

Тепер при спробі зайти на сторінку http://site.ru/page123 спрацьовуватиме перенапрямок на головну.

Інший спосіб вказати оригінал – прописувати на сторінках-дублях т.зв. канонічні посилання. Це посилання з атрибутом rel=canonical, іншими словами в блоці head такої сторінки написано:

Якщо пошукові системи стикаються з таким посиланням, то розуміють, яка з численних копій сторінок є оригіналом і індексують її.

Наприклад, у прикладі вище на сайті були 2 сторінки-дублі:

http://site.ru/load
http://site.ru/load/

Вказавши на сторінці http://site.ru/load атрибут rel=canonical ми покажемо пошуковим системам, що ця сторінка є головною і саме її треба індексувати.

Деякі CMS (наприклад Joomla!) можуть автоматично створювати такі посилання, на інших ця операція виконується різними плагінами. Однак, навіть якщо всі новостворені дублі сторінок Вашого сайту будуть з канонічними посиланнями, це не допоможе вирішити проблему дублів, що вже існують.

robots.txt

Частково проблему дублів сторінок вирішує файл robots.txt, в якому містяться рекомендації пошуковим системам з переліком файлів та папок, які не повинні бути проіндексовані. Чому частково? Тому що цей файл містить саме рекомендації, а не правила та деякі пошукові системи ігнорують ці рекомендації.

Наприклад, щоб Яндекс видалив з індексу старі дублі сторінок, достатньо прописати відповідні правила, що забороняють їх індексацію, в robots.txt. З Google ситуація трохи складніша. Ті ж правила доведеться вносити в спеціальний інструментарій від Google, розроблений спеціально для веб-майстрів. У Google вебмайстер знадобиться вказати необхідні нам параметри посилань у розділі «Сканування».

При створенні robots.txt нам знадобиться скористатися забороняючою директивою Disallow.

Правильний robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: http://site.ru /sitemap.xml User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Правильний robots.txt для Wordpress

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: http://site.ru/sitemap.xml User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Що означають ці рядки:

User-agent: *- правила описані в цьому рядку будуть діяти для всіх пошукових роботів
User-agent: Yandex- правила діють лише для робота Яндекса
Allow:- дозволити індексування (зазвичай не пишуть)
Disallow:заборонено індексувати сторінки в адресі яких є те, що описано в рядку.
Host: site.ru- Основне дзеркало сайту
Sitemap:- Посилання на XML-карту сайту
"*" - будь-яка послідовність символів на адресі сторінки

Боротьба з дублями сторінок у Wordpress

Яким має бути файл robots.txt для Wordpress, ми вже розглянули вище. А тепер поговоримо про плагіни, які дозволяють боротися з дублями та взагалі незамінні для оптимізатора сайтів на цьому движку.

Yoast SEO- Один із найпопулярніших плагінів для Wordpress, що дозволяє боротися з проблемою дублів. З його допомогою можна змусити Wordpress прописувати канонічні посилання, заборонити індексацію сторінок зі сторінковим розбиттям (рубрики), приховати архіви автора, видалити /category/ з URL та багато іншого.

All in One Seo Pack- Аналогічний плагін, що не менш популярний і виконує схожі функції. Який із них використовувати - вирішувати вам.

Як прибрати дублі сторінок у Joomla

Незважаючи на те, що Joomla! підтримує автоматичне створення канонічних посилань, деякі дублі все одно можуть потрапляти до індексу пошукових машин. Для боротьби з дублями у Joomla! можна використовувати robots.txt і 301редирект. Правильний файл rorbots.txt описано вище.

Ну, а щоб включити ЧПУ (людино зрозумілі урли) в Joomla достатньо перейменувати htaccess.txt в.htaccess і додати туди відразу після RewriteEngine On:

RewriteCond %(HTTP_HOST) ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

А також у налаштуваннях сайту поставити галочки наступним чином:

Таким чином ми позбудемося дублів типу www.site.ru та site.ru /index.php, тому що у цій CMS виникає така проблема із дублями. І пошукові системи часто индескируют сторінки типу site.ru/index.php. Тепер після всіх маніпуляцій під час спроби зайти сторінку, наприклад, www.site.ru відвідувача перекине на головну, тобто. site.ru.

З плагінів для Джумли можу порадити JL No Doubles- плагін прибирає дублі сторінок у компоненті com_content. Можливий 301 редирект на правильну сторінку, або висновок 404 помилки.

Спеціальні сервіси для створення robots.txt та.htaccess

Якщо Ви тільки починаєте освоювати сайтобудування – спробуйте скористатися послугами спеціалізованих сервісів, які допоможуть Вам згенерувати валідні файли robots.txt та.htaccess:

seolib.ru- На ньому можна не лише створити, а й протестувати Ваш robots.txt

htaccess.ru -один з найбільш популярних сервісів, на якому можна створити і вибрати різні параметри файлу, що генерується.htaccess

Дублі - це сторінки на тому самому домені з ідентичним або дуже схожим вмістом. Найчастіше з'являються через особливості роботи CMS, помилок у директивах robots.txt або налаштування 301 редиректів.

У чому небезпека дублів

1. Неправильна ідентифікація релевантної сторінки пошуковим роботом. Допустимо, у вас одна і та ж сторінка доступна по двох URL:

http://site.ru/kepki/

http://site.ru/catalog/kepki/

Ви вкладали гроші у просування сторінки https://site.ru/kepki/. Тепер на неї посилаються тематичні ресурси, і вона зайняла позиції у топ-10. Але в якийсь момент робот виключає її з індексу і натомість додає https://site.ru/catalog/kepki/. Звичайно, ця сторінка ранжується гірше і приваблює менше трафіку.

2. Збільшення часу, необхідного на перехід сайту роботами. На сканування кожного сайту роботам виділяється обмежений час. Якщо багато дублів, робот може так і не дістатись основного контенту, через що індексація затягнеться. Ця проблема особливо актуальна для сайтів із тисячами сторінок.

3. Накладення санкцій із боку пошукових систем. Самі собою дублі не є приводом до песимізації сайту - до тих пір, поки пошукові алгоритми не вважають, що ви створюєте дублі навмисно з метою маніпуляції видачів.

4. Проблеми для вебмайстра. Якщо роботу над усуненням дублів відкладати в довгу скриньку, їх може накопичитися така кількість, що вебмайстру суто фізично буде важко обробити звіти, систематизувати причини дублів і внести коригування. Великий обсяг роботи збільшує ризик помилок.

Дублі умовно поділяються на дві групи: явні та неявні.

Явні дублі (сторінка доступна на двох або більше URL)

Варіантів таких дублів багато, але всі вони схожі за своєю суттю. Ось найпоширеніші.

1. URL зі слешем в кінці і без нього

http://site.ru/list/

http://site.ru/list

Що робити: налаштувати відповідь сервера "HTTP 301 Moved Permanently" (301-й редирект).

Як це зробити:

- знайти у кореневій папці сайту файл.htaccess та відкрити (якщо його немає – створити у форматі TXT, назвати.htaccess та помістити у корінь сайту);
- прописати у файлі команди для редиректу з URL зі слішем на URL без слеша:

RewriteCond %(REQUEST_FILENAME) !-d
RewriteCond %(REQUEST_URI) ^(.+)/$
RewriteRule ^(.+)/$ /$1

- зворотна операція:

RewriteCond %(REQUEST_FILENAME) !-f
RewriteCond %(REQUEST_URI) !(.*)/$
RewriteRule ^(.*[^/])$ $1/

- якщо файл створюється з нуля, всі редиректи необхідно прописувати всередині таких рядків:

…

Налаштування 301 редагування за допомогою. htaccess підходить тільки для сайтів на Apache.Для nginx та інших серверів редирект настроюється іншими способами.

Який URL кращий: зі слішем чи без? Чисто технічно – жодної різниці. Дивіться по ситуації: якщо проіндексовано більше сторінок зі слішем, залишайте цей варіант і навпаки.

2. URL з WWW та без WWW

http://www.site.ru/1

http://site.ru/1

Що робити: вказати на головне дзеркало сайту на панелі для вебмайстрів.

Як це зробити в Яндексі:

- перейти до Яндекс.Вебмайстер

- вибрати в Панелі сайт, з якого йтиме перенаправлення (найчастіше перенаправляють на URL без WWW);
- перейти до розділу «Індексування / Переїзд сайту», прибрати галочку навпроти пункту «Додати WWW» та зберегти зміни.

Протягом 1,5-2 тижнів Яндекс склеїть дзеркала, переіндексує сторінки і в пошуку з'являться тільки URL без WWW.

Важливо!Раніше для вказівки на головне дзеркало у файлі robots.txt необхідно прописувати директиву Host. Але вона більше не підтримується. Деякі вебмайстри «для підстрахування» досі вказують цю директиву і для ще більшої впевненості налаштовують 301 редирект – у цьому немає необхідності достатньо налаштувати склеювання у Вебмайстрі.

Як склеїти дзеркала в Google:

- перейти в Google Search Consoleта додати 2 версії сайту - з WWW та без WWW;

- вибрати у Search Console сайт, з якого йтиме перенаправлення;
- клацнути по значку шестерні у верхньому правому кутку, вибрати пункт «Налаштування сайту» та вибрати основний домен.

Як і у випадку з Яндексом, додаткові маніпуляції з 301 редиректами не потрібні, хоча реалізувати склейку можна і за його допомогою.

Що потрібно зробити:

- вивантажте список проіндексованих URL із Яндекс.Вебмайстра;
- завантажте цей список в інструмент від SeoPult – списком або за допомогою XLS-файлу (докладна інструкція щодо використання інструменту);

- запустіть аналіз та скачайте результат.

У цьому прикладі сторінки пагінації проіндексовані Яндексом, а Google – ні. Причина в тому, що вони закриті від індексації в robots.txt тільки для робот Yandex. Рішення – налаштувати канонізацію для сторінок пагінації.

Використовуючи парсер від SeoPult, ви зрозумієте, дублюються сторінки в обох пошукових системах або тільки в одному. Це дозволить підібрати оптимальні інструменти вирішення проблеми.

Якщо у вас немає часу чи досвіду на те, щоб розібратися з дублями, замовте аудит – крім наявності дублів ви отримаєте масу корисної інформаціїпро свій ресурс: наявність помилок у HTML-коді, заголовках, мета-тегах, структурі, внутрішній перелінковці, юзабіліті, оптимізації контенту і т. д. У результаті у вас на руках будуть готові рекомендації, виконавши які, ви зробите сайт привабливішим для відвідувачів та підвищите його позиції у пошуку.

Правильна робота з дублями сторінок. Правильні методи видалення дублів сторінок. Як прибрати дублі сторінок - основні методи