Lucru corect cu pagini duplicate. Metode corecte pentru eliminarea paginilor duplicate. Cum să eliminați paginile duplicate - metode de bază

12.04.2021 Sfat

Destul de des, există copii ale paginilor pe același site, iar proprietarul acestuia poate să nu fie conștient de acest lucru. Când le deschideți, totul este afișat corect, dar dacă aruncați o privire la adresa site-ului, atunci veți observa că diferite adrese pot corespunde aceluiași conținut.

Ce înseamnă acest lucru? Pentru utilizatorii obișnuiți la Moscova, nimic, pentru că au venit pe site-ul tău nu să se uite la titlurile paginilor, ci pentru că erau interesați de conținut. Dar acest lucru nu se poate spune despre motoarele de căutare, deoarece ei percep această stare de lucruri într-o lumină complet diferită - văd pagini care sunt diferite unele de altele cu același conținut.

Dacă utilizatori obișnuiți S-ar putea să nu observe pagini duplicate pe site, dar acest lucru cu siguranță nu va scăpa atenției motoarelor de căutare. La ce ar putea duce asta? Roboții de căutare vor identifica copiile ca pagini diferite și, ca urmare, nu vor mai percepe conținutul lor ca fiind unic. Dacă sunteți interesat de promovarea site-ului, atunci știți că acest lucru va afecta cu siguranță clasamentul. În plus, prezența duplicatelor se va reduce greutatea legăturii, rezultat din eforturi considerabile ale optimizatorului care a încercat să evidențieze pagina de destinație. Paginile duplicate pot duce la evidențierea unei părți complet diferite a site-ului. Și acest lucru poate reduce semnificativ eficiența legăturilor externe și a legăturilor interne.

Paginile duplicate pot provoca daune?

Adesea, vinovatul pentru apariția duplicatelor este CMS-ul. setări incorecte care sau lipsa de atenție din partea optimizatorului poate duce la generarea de copii clare. Sistemele de gestionare a site-urilor web, cum ar fi Joomla, suferă adesea de acest lucru. Să notăm imediat că remediu universal Pur și simplu nu există nicio modalitate de a combate acest fenomen, dar puteți instala unul dintre pluginurile concepute pentru a căuta și șterge copii. Cu toate acestea, pot apărea duplicate neclare, al căror conținut nu se potrivește complet. Acest lucru se întâmplă cel mai adesea din cauza deficiențelor webmasterului. Adesea, astfel de pagini pot fi găsite în magazinele online, în care cardurile de produse diferă doar în câteva propoziții de descriere, în timp ce restul conținutului, care constă din diverse elemente și blocuri end-to-end, este același. Experții sunt adesea de acord că un anumit număr de duplicate nu va interfera cu site-ul, dar dacă există aproximativ jumătate sau mai multe dintre ele, atunci promovarea resursei va cauza multe probleme. Dar chiar și în cazurile în care există mai multe copii pe site, este mai bine să le găsiți și să le eliminați - în acest fel veți scăpa cu siguranță de duplicatele de pe resursa dvs.

Găsirea paginilor duplicate

Există mai multe moduri de a găsi pagini duplicat. Dar înainte de căutarea în sine, ar fi bine să te uiți la site-ul tău prin ochii motoarelor de căutare: cum îl imaginează ei. Pentru a face acest lucru, pur și simplu comparați numărul paginilor dvs. cu cele care sunt în indexul lor. Pentru a vedea acest lucru, introduceți pur și simplu expresia host:yoursite.ru în bara de căutare Google sau Yandex, apoi evaluați rezultatele.

Dacă da simpla verificare va furniza diverse date care pot diferi de 10 sau mai multe ori, adică există motive să credem că resursa dumneavoastră electronică conține duplicate. Deși acest lucru nu se poate datora întotdeauna paginilor duplicate, această verificare va oferi o bază bună pentru găsirea acestora. Dacă site-ul dvs. este mic, atunci puteți număra în mod independent numărul de pagini reale și apoi puteți compara rezultatul cu indicatorii motoarelor de căutare. De asemenea, puteți căuta duplicate folosind adresele URL care sunt oferite în rezultatele cautarii. Dacă utilizați CNC, atunci paginile cu caractere ciudate în URL, cum ar fi „index.php?с=0f6b3953d”, vă vor atrage imediat atenția.

O altă metodă pentru a determina prezența duplicatelor este căutarea fragmentelor de text. Pentru a efectua o astfel de verificare, trebuie să introduceți câteva cuvinte de text din fiecare pagină în bara de căutare, apoi pur și simplu analizați rezultatul. În cazurile în care în rezultatele căutării apar două sau mai multe pagini, devine evident că există copii. Dacă există o singură pagină în rezultatele căutării, atunci nu are duplicate. Desigur, această tehnică de verificare este potrivită doar pentru un site mic format din mai multe pagini. Atunci când un site conține sute de ele, optimizatorul său poate folosi programe speciale, de exemplu, Xenu’s Link Sleuth.

Pentru a verifica site-ul, deschideți un nou proiect și accesați meniul „Fișier”, găsiți „Verificare URL”, introduceți adresa site-ului care vă interesează și faceți clic pe „OK”. Programul va începe acum să proceseze toate adresele URL ale resursei specificate. Când lucrarea este finalizată, informațiile primite vor trebui să fie deschise în orice editor convenabil și căutate pentru duplicate. Metodele de găsire a paginilor duplicate nu se termină aici: în bara de instrumente Google Webmaster și Yandex.Webmaster puteți vedea instrumente care vă permit să verificați indexarea paginilor. Cu ajutorul lor puteți găsi și duplicate.

Pe drumul spre rezolvarea problemei

Când găsiți toate duplicatele, veți fi însărcinat să le eliminați. Există mai multe posibilități de a rezolva această problemă și diferite căi eliminarea paginilor duplicate.

Îmbinarea paginilor de copiere se poate face folosind o redirecționare 301. Acest lucru este eficient în cazurile în care adresele URL se disting prin absența sau prezența www. De asemenea, puteți șterge paginile duplicate manual, dar această metodă are succes numai pentru acele duplicate care au fost create manual.

Puteți rezolva problema duplicatelor folosind eticheta canonică, care este folosită pentru copiile neclare. Astfel, poate fi folosit într-un magazin online pentru categorii de produse pentru care există duplicate și care diferă doar prin sortare după parametri diferiți. În plus, eticheta canonică este potrivită pentru utilizarea pe paginile tipărite și în situații similare. Folosirea acestuia nu este deloc dificilă - pentru fiecare copie este setat un atribut sub forma rel=”canonic”; pentru pagina promovată cu cele mai relevante caracteristici, acest atribut nu este specificat. Vedere aproximativă a codului: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Ar trebui să fie amplasat în zona etichetei capului.

Un fișier robots.txt configurat corespunzător vă va permite, de asemenea, să obțineți succes în lupta împotriva duplicaturilor. Folosind directiva Disallow, puteți bloca accesul roboților de căutare la toate paginile duplicat.

Nici măcar dezvoltarea profesională a site-ului web nu va ajuta să-l aducă în TOP dacă resursa conține pagini duplicat. Astăzi, paginile de copiere sunt una dintre cele mai comune capcanele, de care suferă începătorii. Un număr mare de ele pe site-ul dvs. va crea dificultăți semnificative în a-l aduce în TOP sau chiar va face imposibil.

Știți că puteți găsi duplicate pe orice site web? Desigur, dacă nimeni nu le-a depășit până acum. Chiar acum vă voi spune cum să le eliminați o dată și... nu pentru totdeauna, desigur, deoarece apar altele noi. Această problemă trebuie monitorizată constant. Răspunsul în timp util la duplicatele existente, precum și prevenirea altora noi, va da roade, credeți-mă.

Un mic rezumat („În episoadele anterioare”): am aflat deja despre ei, despre modul în care amenință site-ul; despre cei care, desigur, nu vor să fie găsiți. Ei vor să-l pună pe tine.

Toate consecințele conținutului duplicat sunt clare, dar acest lucru nu ușurează. Aceasta înseamnă că trebuie să lupți și să preiei controlul asupra indexării site-ului în propriile mâini.

Metode de tratare a duplicatelor interne

  • eroare 404
  • Aceasta este o simplă ștergere a unei pagini duplicate. Această metodă este potrivită numai dacă pagina nu oferă niciun beneficiu vizitatorilor site-ului. În plus, puteți elimina această pagină din index în Google Webmaster. Este important ca nicio altă pagină de pe site să nu trimită către cea ștearsă, altfel robotul va încerca să o indexeze din nou și din nou și va genera în mod regulat o eroare de indexare în Webmaster și un 404() pe site. Dacă totul este făcut corect, după un timp pagina se va scufunda în uitare.

    La care se adauga: nicio pagină duplicată – nicio problemă.

    Minus: pagina ar trebui să fie complet inutilă (de ce să creați astfel de lucruri?) și să nu existe link-uri către ea.

  • redirecționare 301
  • Înseamnă că pagina s-a mutat permanent (spre deosebire de 302, ceea ce înseamnă că pagina s-a mutat temporar). O redirecționare 301 este potrivită dacă pagina duplicată nu este complet inutilă, ci, dimpotrivă, aduce trafic și are backlink-uri. Transferă greutatea de la o pagină la alta. Dar, contrar credinței populare, greutatea nu este complet transferată; o parte din ea este încă pierdută. Puteți înregistra o redirecționare 301 în fișier .htaccess, în general va fi așa:

    RedirectPermanent /vechea pagină http://www.site.ru/new-page/

    O redirecționare 301 este potrivită nu numai pentru a face față conținutului duplicat, ci și a paginilor temporare (de exemplu, pagini de promovare de pe un site care nu sunt arhivate, ci pur și simplu șterse și afișează o eroare 404), care din nou pot avea backlink . Este mai bine să redirecționați astfel de pagini către alte cele mai relevante pagini de pe site. Dacă nu există, puteți accesa pagina principală.

    La care se adauga: lipește paginile împreună, este universal și este, de asemenea, potrivit pentru rezolvarea problemei unui site cu www și fără www.

    Minus: O redirecționare 301 face ca pagina de la care a fost trimisă să fie indisponibilă. Dar dacă aveți nevoie de asta, atunci acesta nu este deloc un minus.

  • Rel=canonic
  • Din 2009, Google și ulterior Yandex au introdus această etichetă. Le spune roboților de căutare care dintre cele 2 sau mai multe pagini ar trebui să se claseze. Canonical este scris în etichetă fiecare dintre paginile pentru care se aplică. Arata cam asa:

    Este important ca fiecare dintre paginile canonice (adică pe care este scris eticheta rel=canonic) să indice aceeași pagină (care va fi clasată), dar în niciun caz către ea însăși, altfel se va pierde întregul sens. Când robotul ajunge la o pagină cu eticheta rel=canonical, pare să atașeze această pagină la cea indicată în etichetă, lipindu-le între ele. Astfel, dacă tastați cache:site.ru/stranitsa-duplicatat în Google și vedeți cache-ul site.ru/kanon, ați făcut totul corect.

    La care se adauga: Două sau mai multe pagini vor fi disponibile utilizatorilor de pe site, dar doar una va fi disponibilă pentru motoarele de căutare, iar asta fără nicio fraudă.

    Minus: Nu văd niciun dezavantaj. Cine ştie?

  • Robots.txt
  • Paginile duplicate pot fi, de asemenea, interzise în fișierul robots.txt. Astfel, acestea nu vor fi indexate de roboții de căutare, ci vor fi disponibile pe site.

    La care se adauga: ușurință de manipulare.

    Minus: trebuie să înțelegeți cu atenție ce să interziceți și cum să îl reflectați în robots.txt, pentru a nu interzice din greșeală indexarea unei părți a site-ului sau a întregului site. Mai mult, interzicerea paginilor deja indexate în robots.txt nu le elimină din index; acest lucru va trebui făcut manual în Webmaster, ceea ce este complet incomod când există multe astfel de pagini.

    De aici concluzia: cel mai bine este să interziceți paginile „indezirabile” în avans și să o faceți cu atenție.

  • Meta Roboti
  • De asemenea, puteți controla indexarea site-urilor folosind meta-roboți: INDEX/NOINDEXȘi FOLLOW/NOFOLLOW. De obicei, valoarea implicită pentru fiecare pagină este INDEX, FOLLOW, ceea ce înseamnă: pagina este indexată și robotul urmează link-uri de la ea. Pentru a scăpa de o pagină duplicată, o puteți include în etichetele NOINDEX,NOFOLLOW (pagina nu este indexată, iar robotul nu urmărește linkurile de la ea), dar și mai bine - NOINDEX, FOLLOW (pagina nu este indexată , dar robotul urmează linkurile aflate pe el).

    Există un plugin special în WordPress - WordPress Meta Robots - vă va ajuta să configurați meta roboți pentru fiecare pagină sau postare.

    Includerea unei pagini în etichetele NOINDEX, FOLLOW este bună pentru paginile cu numerotare (aceasta este una dintre modalitățile de a combate duplicatele de pe ele).

    La care se adauga: această metaetichetă este chiar mai ușoară decât robots.txt, deoarece este scrisă pe pagină separatăși aici nu veți interzice accidental indexarea unei întregi secțiuni.

    minus:În mod ideal, desigur, roboții ar trebui să înțeleagă corect ceea ce doriți să le transmiteți. Dar uneori paginile cu NOINDEX încă ajung în index.

  • Eliminarea unei pagini din index în Google Webmaster
  • Acest instrument de eliminare a paginii se află în Webmaster > Configurare site > Acces robot > Eliminare URL. Acest instrument ar trebui utilizat ultimul și cel mai bine împreună cu alte măsuri. Mai multe lucruri pot servi ca bază pentru ștergerea paginilor (pentru Google): dacă paginile dau o eroare 404, dacă sunt interzise în robots.txt sau folosind meta roboți. Dacă paginile nu sunt interzise nicăieri, Google, desigur, le va șterge dacă veți cere, dar numai pentru 90 de zile.

    La care se adauga: accelerarea ștergerii paginilor din index dacă le-ați interzis deja undeva.

    Minus: necesită multă muncă, deoarece fiecare adresă URL este adăugată manual la coada de ștergere, iar acest lucru poate dura mult timp. Deci, dacă există o mulțime de pagini inutile în index, ștergerea manuală a fiecăreia dintre ele nu este o opțiune.

  • Blocarea parametrilor în Google Webmaster
  • Să mergem la Webmaster> Configurare site> Parametri URL

    Aici găsești o listă cu parametrii dinamici pe care robotul Google i-a detectat pe site-ul tău, precum și regulile de indexare a acestora. În mod implicit, Google însuși decide dacă indexează paginile cu parametri dinamici în adrese (interzicerea indexării folosind alte mijloace, cum ar fi robots.txt, nu este afișată aici). Indexarea poate fi dezactivată selectând opțiunea „Nu”, ceea ce implică faptul că adăugarea de parametri la adresa paginii nu modifică conținutul acesteia, adică creează o duplicare.

    La care se adauga: puteți împiedica cu ușurință indexarea paginilor cu parametri dinamici, care sunt de obicei o durere de cap (de ex. replytocom pe WP). În acest instrument puteți găsi, de asemenea, parametrii despre care habar nu aveați că există pe site.

    Minus: Doar Google înțelege o astfel de interdicție, ceea ce înseamnă că Yandex va indexa în continuare paginile cu parametri dinamici, dacă nu se iau alte măsuri (același robots.txt).

    În septembrie 2011, Google a introdus rel=Prev și rel=Next, care sunt concepute pentru a ajuta webmasterii să facă față conținutului duplicat atunci când au pagini numerotate.

    La fel ca toate celelalte metadate, aceste etichete sunt scrise pagini. Esenta este aceasta:

    La care se adauga:îi spuneți Google că aveți pagini numerotate, astfel încât să nu le socotească drept duplicate.

    Minus: din nou aceste etichete sunt acceptate de acest moment doar Google. Unii oameni nu consideră această metodă potrivită pentru a trata duplicatele, deoarece ponderea tuturor paginilor cu rel=Prev și rel=Next este distribuită uniform, adică, teoretic, pagina a 15-a are aceeași șansă de clasare ca și prima.

    Combaterea duplicatelor externe

    Dublatele externe nu sunt create în mare parte de webmasteri, dar ei sunt cei care trebuie să se ocupe de acest fenomen. Și iată câteva moduri.

  • Etichete meta atribute sursă
  • În noiembrie 2010, Google a introdus metaetichete pentru atributul sursă. Este folosit pentru știri și recenzii, care sunt adesea republicate pe diferite site-uri. Metaeticheta atributului sursă arată astfel:

    Această etichetă este plasată în etichetă pagina care copiază textul, iar conținutul indică sursa originală.

    La care se adauga: Această metaetichetă rezolvă problema numeroaselor duplicate externe.

    Minus: Metaetichetele atributului sursă sunt acceptate numai de Google.

  • Rel-canonic între domenii
  • Sistemul este același cu rel-canonic în cadrul site-ului: un duplicat canonizează sursa originală a oricărui text, știri.

    La care se adauga: Indiferent de prezența duplicatelor externe, site-ul dvs. nu va fi afectat.

    Minus: doar Google este acceptat (am auzit deja pe undeva).

  • Bucură-te de a primi backlink-uri
  • Toată lumea știe că poate fi foarte dificil să-i convingi pe hoții de conținut să îl elimine de pe site-urile lor. Prin urmare, vă puteți găsi consolare: backlink-uri de pe site-urile lor, deoarece mulți hoți nu numai că lasă link-uri către site-ul dvs. în textul articolelor copiate, dar nici nu le blochează indexarea. Prin urmare (și nu numai din acest motiv, desigur) nu uităm să facem link-uri interne între paginile și articolele noastre.

    In cele din urma

  • Link-uri către pagini duplicate
  • Odată ce paginile duplicate sunt „eliminate”, trebuie să nu mai legați la ele ca surse externe, și de pe site-ul propriu-zis. Dacă ați setat o redirecționare 301 (sau rel=canonic) - link către pagina către care este direcționat pentru a obține un efect maxim. Prin împiedicarea indexării unei pagini, dar prin crearea de legături către ea din surse externe, trimiteți instrucțiuni contradictorii către motoarele de căutare, ceea ce poate cauza probleme.

  • Nu face nimic
  • Puteți pur și simplu să închideți ochii pentru a duplica conținut și să sperați că motoarele de căutare înșiși vor înțelege ce trebuie indexat și ce nu. Aceasta este o soluție bună dacă aveți doar câteva pagini duplicate, dar poate fi o problemă dacă site-ul dvs. este mare și are multe pagini duplicate sau dacă site-ul dvs. este copiat fără milă. În cele din urmă, depinde de tine.

    O ultimă vorbă? Fiecare dintre noi vrea să fie unic și, spre deosebire de oricine altcineva, de ce site-urile noastre sunt mai rele? Ar trebui să fie și unice, așa că nu le copiați și nu lăsați pe alții! Și da, abonați-vă la actualizări!

    Ce sunt paginile duplicate- acestea sunt pagini cu absolut același conținut și adrese URL diferite.

    Pot exista mai multe motive pentru duplicarea paginilor pe un site web, dar aproape toate sunt legate într-un fel sau altul de sistemul de management al conținutului site-ului. Cel mai bine este să luați măsuri pentru a preveni apariția paginilor duplicate în etapa de creare a site-ului. Dacă site-ul dvs. funcționează deja, asigurați-vă că verificați dacă există pagini duplicate, altfel problemele serioase cu indexarea și SEO nu pot fi evitate.

    Există mai multe moduri de a scăpa de paginile site-ului web duplicat. Unele pot ajuta la combaterea copiilor existente ale paginilor, în timp ce altele pot ajuta la prevenirea apariției lor în viitor.

    Cum să găsești pagini duplicate pe un site web?

    Dar mai întâi trebuie să verificați dacă există pagini duplicate pe resursa dvs. și, dacă da, ce tip de pagini sunt acestea. Cum să o facă?

    • Metoda 1. Interogarea de căutare „site:”

    Puteți folosi comanda „site:”. Această comandă returnează rezultatele căutării pentru un anumit site. Introducând site:www.yoursite.com/page1, veți vedea dacă există duplicate ale acestei pagini în căutare.

    • Metoda 2. Căutare după fragment de articol

    Selectăm o mică bucată de text din pagina pentru care căutăm duplicate și o lipim în căutare. Rezultatele căutării vor afișa imediat toate duplicatele indexate ale paginii dorite.

    Cum să faci față paginilor duplicate?

    redirecționare 301

    Una dintre cele mai eficiente, dar în același timp cele mai dificile metode de a trata duplicatele este o redirecționare 301; lipește paginile specificate și duplicatele dispar din index în timp. motoare de căutare.

    Când un robot de căutare lovește o pagină duplicată cu o redirecționare 301, serverul web o va redirecționa automat către pagina originală. Toate redirecționările sunt scrise în fișierul .htaccess, care se află în directorul rădăcină al site-ului. Nu ar trebui să utilizați o redirecționare 301 (redirecționare permanentă) dacă intenționați să utilizați pagina de copiere într-un fel în viitor. Puteți utiliza o redirecționare 302 (temporară) pentru aceasta. Atunci paginile nu se vor lipi împreună.

    Când utilizați o redirecționare 301 pentru a șterge pagini duplicate Din index, în primul rând, trebuie să vă decideți asupra oglinzii principale a site-ului. De exemplu, indicăm ca oglindă principală http://site.ru Tot ce trebuie să faci este să o schimbi la adresa site-ului tău web

    • 301 Redirecționare de la www.site.ru la site.ru

    Pentru a face acest lucru, trebuie să adăugați următoarele linii în fișierul .htaccess (fișierul se află în rădăcina site-ului) imediat după RewriteEngine On :

    RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

    • 301 redirecționare de la site.ru/index.php la site.ru


    RewriteRule ^index\.php$ http://site.ru/

    Într-un mod similar, puteți scăpa de duplicatele precum:

    http://site.ru/index
    http://site.ru/index.html
    http://site.ru/index.htm

    Dacă, de exemplu, doriți să îmbinați paginile http://site.ru și http://site.ru /page123, atunci următoarele ar trebui să fie scrise în fișierul .htaccess:

    Redirecționare 301 /page123 http://site.ru

    Acum, când încercați să accesați pagina http://site.ru/page123, veți fi redirecționat către pagina principală.

    O altă modalitate de a indica originalul este să scrieți așa-numitul pe pagini duplicate. legături canonice. Acestea sunt legături cu atributul rel=canonic, cu alte cuvinte, în blocul de cap al unei astfel de pagini scrie:

    Dacă motoarele de căutare întâlnesc un astfel de link, ei înțeleg care dintre numeroasele copii ale paginilor este originalul și îl indexează.

    De exemplu, în exemplul de mai sus, site-ul avea 2 pagini duplicat:

    http://site.ru/load
    http://site.ru/load/

    Prin specificarea atributului rel=canonical pe pagina http://site.ru/load, vom arăta motoarelor de căutare că această pagină este cea principală și este această pagină care trebuie indexată.

    Unele CMS (de exemplu, Joomla!) pot crea automat astfel de link-uri, în timp ce la altele această operațiune este efectuată de diverse plugin-uri. Cu toate acestea, chiar dacă toate paginile duplicat nou create pe site-ul dvs. au linkuri canonice, acest lucru nu va ajuta la rezolvarea problemei duplicatelor existente.

    robots.txt

    Parțial, problema paginilor duplicate este rezolvată de fișierul robots.txt, care conține recomandări către motoarele de căutare cu o listă de fișiere și foldere care nu trebuie indexate. De ce parțial? Deoarece acest fișier conține recomandări, nu reguli, iar unele motoare de căutare ignoră aceste recomandări.

    De exemplu, pentru ca Yandex să elimine paginile vechi duplicat din index, este suficient să scrieți regulile adecvate care interzic indexarea lor în robots.txt. Cu Google situația este puțin mai complicată. Aceleași reguli vor trebui incluse într-un set de instrumente special de la Google, conceput special pentru webmasteri. În Google, webmasterul va trebui să seteze parametrii de link de care avem nevoie în secțiunea „Crawling”.

    Când creăm robots.txt, va trebui să folosim directiva Disallow.

    • Robots.txt corect pentru Joomla

    Agent utilizator: *
    Nu permiteți: /administrator/
    Nu permiteți: /cache/
    Nu permite: /include/
    Nu permiteți: /limba/
    Nu permiteți: /biblioteci/
    Nu permiteți: /media/
    Nu permiteți: /module/
    Nu permiteți: /plugins/
    Nu permiteți: /șabloane/
    Nu permiteți: /tmp/
    Harta site-ului: http://site.ru /sitemap.xml Agent utilizator: Yandex
    Nu permiteți: /administrator/
    Nu permiteți: /cache/
    Nu permite: /include/
    Nu permiteți: /limba/
    Nu permiteți: /biblioteci/
    Nu permiteți: /media/
    Nu permiteți: /module/
    Nu permiteți: /plugins/
    Nu permiteți: /șabloane/
    Nu permiteți: /tmp/
    Nu permiteți: /xmlrpc/
    Gazdă: site.ru
    Harta site-ului: http:// site.ru /sitemap.xml

    • Corectați robots.txt pentru Wordpress

    Agent utilizator: *
    Nu permiteți: /wp-admin
    Nu permiteți: /wp-includes
    Nu permiteți: /wp-content/cache
    Nu permiteți: /wp-content/themes
    Disallow: /trackback
    Nu permite: */trackback
    Nu permiteți: */*/trackback
    Nu permiteți: */*/feed/*/
    Nu permiteți: */feed
    Nu permite: /*?*
    Nu permiteți: /tag
    Harta site-ului: http://site.ru/sitemap.xml Agent utilizator: Yandex
    Nu permiteți: /wp-admin
    Nu permiteți: /wp-includes
    Nu permiteți: /wp-content/plugins
    Nu permiteți: /wp-content/cache
    Nu permiteți: /wp-content/themes
    Disallow: /trackback
    Nu permite: */trackback
    Nu permiteți: */*/trackback
    Nu permiteți: */*/feed/*/
    Nu permiteți: */feed
    Nu permite: /*?*
    Nu permiteți: /tag
    Gazdă: site.ru
    Harta site-ului: http://site.ru/sitemap.xml

    Ce înseamnă aceste rânduri:

    • Agent utilizator: *- regulile descrise mai jos de acest rând se vor aplica tuturor roboților de căutare
    • Agent utilizator: Yandex- regulile se aplică numai robotului Yandex
    • Permite:- permite indexarea (de obicei nu este scris)
    • Nu permiteți: Este interzisă indexarea paginilor ale căror adrese conţin ceea ce este descris în rând.
    • Gazdă: site.ru- Oglinda site-ului principal
    • Harta site-ului:- link către harta site-ului XML
    • "*" - orice succesiune de caractere din adresa paginii

    Combaterea paginilor duplicate în Wordpress

    Am discutat deja mai sus care ar trebui să fie fișierul robots.txt pentru Wordpress. Acum să vorbim despre plugin-uri care vă permit să vă ocupați de duplicate și sunt în general indispensabile pentru un optimizator de site-uri pe acest motor.

    Yoast SEO- Unul dintre cele mai populare plugin-uri pentru Wordpress, care vă permite să vă ocupați de problema duplicatelor. Cu ajutorul acestuia, puteți forța Wordpress să înregistreze linkuri canonice, să dezactiveze indexarea paginilor paginate (categorii), să ascundă arhivele autorului, să elimine /categoria/ din URL și multe altele.

    Tot într-un pachet SEO- Un plugin similar, nu mai puțin popular și care realizează funcții similare. Pe care să-l folosiți depinde de dvs.

    Cum să eliminați paginile duplicate în Joomla

    Chiar dacă Joomla! acceptă crearea automată de link-uri canonice; unele duplicate pot fi încă incluse în indexul motorului de căutare. Pentru a combate duplicatele în Joomla! puteți folosi robots.txt și redirecționarea 301. Fișier corect rorbots.txt este descris mai sus.

    Ei bine, pentru a activa CNC (URL-uri care pot fi citite de oameni) în Joomla, trebuie doar să redenumiți htaccess.txt în .htaccess și să-l adăugați imediat după RewriteEngine On:

    RewriteCond %(HTTP_HOST) ^www.site.ru$
    RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
    RewriteRule ^index\.php$ http://site.ru/

    Și, de asemenea, în setările site-ului, bifați următoarele casete:

    În acest fel vom scăpa de duplicatele ca www.site.ru și site.ru /index.php deoarece acest CMS are această problemă cu duplicatele. Și motoarele de căutare adesea indexează pagini precum site.ru/index.php. Acum, după toate manipulările, atunci când încercați să accesați o pagină, de exemplu, www.site.ru, vizitatorul va fi redirecționat către pagina principală, adică. site.ru.

    Printre pluginurile pentru Joomla le pot recomanda JL Fără dublu- pluginul elimină paginile duplicate în componenta com_content. Este posibilă o redirecționare 301 către pagina corectă sau o eroare 404.

    Servicii speciale pentru crearea robots.txt și .htaccess

    Dacă abia începeți să stăpâniți construirea de site-uri web, încercați să utilizați serviciile de servicii specializate care vă vor ajuta să generați fișiere valide robots.txt și .htaccess:

    seolib.ru- Pe el nu puteți doar să creați, ci și să vă testați robots.txt

    htaccess.ru - unul dintre cele mai populare servicii unde puteți crea și selecta diverși parametri pentru fișierul .htaccess generat

    Duplicatele sunt pagini de pe același domeniu cu conținut identic sau foarte asemănător. Cel mai adesea ele apar din cauza particularităților CMS-ului, erori în directivele robots.txt sau în configurarea redirecționărilor 301.

    Care este pericolul duplicaturilor?

    1. Identificarea incorectă a paginii relevante de către robotul de căutare. Să presupunem că aveți aceeași pagină disponibilă la două adrese URL:

    https://site.ru/kepki/

    https://site.ru/catalog/kepki/

    Ai investit bani în promovarea paginii https://site.ru/kepki/. Acum este referit prin resurse tematice și a ocupat poziții în top 10. Dar la un moment dat robotul îl exclude din index și în schimb adaugă https://site.ru/catalog/kepki/. Desigur, această pagină se clasează mai prost și atrage mai puțin trafic.

    2. Creșterea timpului necesar roboților pentru a accesa cu crawlere site-ul. Roboții au un timp limitat pentru a scana fiecare site. Dacă există multe duplicate, robotul s-ar putea să nu ajungă niciodată la conținutul principal, ceea ce va întârzia indexarea. Această problemă este valabilă mai ales pentru site-urile cu mii de pagini.

    3. Impunerea de sancțiuni de către motoarele de căutare. Duplicatele în sine nu reprezintă un motiv pentru a pesimiza site-ul - până când algoritmii de căutare consideră că creați duplicate în mod intenționat în scopul manipulării rezultatelor.

    4. Probleme pentru webmaster. Dacă lucrările de eliminare a duplicaturilor sunt suspendate, se pot acumula atât de multe, încât va fi dificil din punct de vedere fizic pentru webmaster să proceseze rapoarte, să sistematizeze cauzele dublelor și să facă ajustări. O cantitate mare de muncă crește riscul de erori.

    Duplicatele sunt împărțite în mod convențional în două grupuri: explicite și implicite.

    Dubluri evidente (pagina accesibilă de la două sau mai multe adrese URL)

    Există multe opțiuni pentru astfel de luări, dar toate sunt similare în esență. Iată cele mai comune.

    1. URL cu și fără bară oblică finală

    https://site.ru/list/

    https://site.ru/list

    Ce trebuie să faceți: configurați răspunsul serverului „HTTP 301 mutat permanent” (redirecționarea 301).

    Cum să o facă:

      • găsiți fișierul .htaccess în folderul rădăcină al site-ului și deschideți-l (dacă nu este acolo, creați-l în format TXT, denumiți-l .htaccess și plasați-l în rădăcina site-ului);
      • scrieți comenzi în fișier pentru a redirecționa de la o adresă URL cu bară oblică la o adresă URL fără bară oblică:

    RewriteCond %(REQUEST_FILENAME) !-d
    RewriteCond %(REQUEST_URI) ^(.+)/$
    RewriteRule ^(.+)/$ /$1

      • operare inversa:

    RewriteCond %(REQUEST_FILENAME) !-f
    RewriteCond %(REQUEST_URI) !(.*)/$
    RewriteRule ^(.*[^/])$ $1/

      • dacă fișierul este creat de la zero, toate redirecționările trebuie să fie scrise în următoarele rânduri:



    Configurarea unei redirecționări 301 folosind .htaccess este potrivită numai pentru site-urile Apache. Pentru nginx și alte servere, redirecționarea este configurată în alte moduri.

    Care adresă URL este de preferat: cu sau fără bară oblică? Pur tehnic nu există nicio diferență. Priviți situația: dacă sunt indexate mai multe pagini cu bare oblice, lăsați această opțiune și invers.

    2. URL-uri cu și fără WWW

    https://www.site.ru/1

    https://site.ru/1

    Ce trebuie să faceți: indicați spre oglinda principală a site-ului din panoul pentru webmasteri.

    Cum să faci asta în Yandex:

      • accesați Yandex.Webmaster
      • selectați în Panou site-ul de pe care va avea loc redirecționarea (cel mai adesea redirecționează către o adresă URL fără WWW);
      • accesați secțiunea „Indexare / Mutare site”, debifați caseta de lângă „Adăugați WWW” și salvați modificările.

    În decurs de 1,5-2 săptămâni, Yandex va îmbina oglinzile, va reindexa paginile și numai adresele URL fără WWW vor apărea în căutare.

    Important! Anterior, pentru a indica oglinda principală din fișierul robots.txt, era necesar să specificați directiva Host. Dar nu mai este suportat. Unii webmasteri „pentru a fi în siguranță” indică în continuare această directivă și, pentru o încredere și mai mare, configurează o redirecționare 301 - acest lucru nu este necesar, este suficient să configurați lipirea în Webmaster.

    Cum să lipiți oglinzi pe Google:

      • selectați în Search Console site-ul de pe care se va face redirecționarea;
      • Faceți clic pe pictograma roată din colțul din dreapta sus, selectați „Setări site” și selectați domeniul principal.

    Ca și în cazul Yandex, nu sunt necesare manipulări suplimentare cu redirecționări 301, deși lipirea poate fi implementată cu ajutorul acesteia.

    Ce ar trebui făcut:

      • descărcați lista de adrese URL indexate de pe Yandex.Webmaster;
      • încărcați această listă în instrument din SeoPult - ca o listă sau folosind un fișier XLS (instrucțiuni detaliate pentru utilizarea instrumentului);

      • rulați analiza și descărcați rezultatul.

    În acest exemplu, paginile de paginare sunt indexate de Yandex, dar Google nu. Motivul este că sunt închise de la indexare în robots.txt numai pentru botul Yandex. Soluția este configurarea canonizării pentru paginile de paginare.

    Folosind analizatorul de la SeoPult, veți înțelege dacă paginile sunt duplicate în ambele motoare de căutare sau doar într-unul singur. Acest lucru vă va permite să selectați instrumentele optime pentru a rezolva problema.

    Dacă nu aveți timp sau experiență pentru a vă ocupa de duplicate, comandați un audit - pe lângă prezența duplicatelor, veți obține multe Informatii utile despre resursa dvs.: prezența erorilor în codul HTML, antete, meta tag-uri, structură, legături interne, uzabilitate, optimizarea conținutului etc. Ca urmare, veți avea recomandări gata făcute, în urma cărora veți face site-ul mai mult atractiv pentru vizitatori și să-și mărească poziția în căutare.