Ispravan rad s dupliciranim stranicama. Ispravne metode za uklanjanje dupliciranih stranica. Kako ukloniti duplicirane stranice - osnovne metode

12.04.2021 Savjet

Vrlo često postoje kopije stranica na istoj stranici, a njen vlasnik toga možda nije ni svjestan. Kada ih otvorite, sve se prikazuje ispravno, ali ako pogledate adresu stranice, primijetit ćete da različite adrese mogu odgovarati istom sadržaju.

Što to znači? Za obični korisnici u Moskvi ništa, jer nisu došli na vašu stranicu da bi pogledali naslove stranica, već zato što ih je zanimao sadržaj. Ali to se ne može reći za tražilice, budući da oni ovo stanje stvari doživljavaju u potpuno drugačijem svjetlu - vide stranice koje se razlikuju jedna od druge s istim sadržajem.

Ako redovni korisnici Možda neće primijetiti duplicirane stranice na stranici, ali to definitivno neće izbjeći pažnji tražilica. Do čega bi to moglo dovesti? Roboti za pretraživanje identificirat će kopije kao različite stranice i kao rezultat toga njihov sadržaj više neće doživljavati kao jedinstven. Ako ste zainteresirani za promociju web stranice, znajte da će to sigurno utjecati na rangiranje. Osim toga, smanjit će se prisutnost duplikata težina veze, što je rezultat znatnih napora optimizatora koji je pokušao istaknuti odredišnu stranicu. Duplicirane stranice mogu rezultirati isticanjem potpuno drugog dijela stranice. A to može znatno smanjiti učinkovitost vanjskih poveznica i internih poveznica.

Mogu li duplicirane stranice uzrokovati štetu?

Često je krivac za pojavu duplikata upravo CMS. netočne postavkešto ili nedostatak pažnje od strane optimizatora može dovesti do stvaranja jasnih kopija. Sustavi za upravljanje web stranicama kao što je Joomla često pate od toga. Odmah napomenimo da univerzalni lijek Jednostavno ne postoji način za borbu protiv ove pojave, ali možete instalirati jedan od dodataka namijenjenih pretraživanju i brisanju kopija. Međutim, mogu se pojaviti nejasni duplikati čiji se sadržaji ne podudaraju u potpunosti. To se najčešće događa zbog nedostataka webmastera. Često se takve stranice mogu naći u online trgovinama, u kojima se kartice proizvoda razlikuju samo u nekoliko rečenica opisa, dok je ostatak sadržaja, koji se sastoji od raznih elemenata i end-to-end blokova, isti. Stručnjaci se često slažu da određeni broj duplikata neće ometati web mjesto, ali ako ih ima oko pola ili više, tada će promicanje resursa uzrokovati mnoge probleme. Ali čak iu slučajevima kada na web mjestu postoji nekoliko kopija, bolje ih je pronaći i ukloniti - na taj način ćete se sigurno riješiti duplikata na svom resursu.

Pronalaženje dupliciranih stranica

Postoji nekoliko načina za pronalaženje dupliciranih stranica. No prije same pretrage bilo bi dobro pogledati svoju stranicu očima tražilica: kako je one zamišljaju. Da biste to učinili, jednostavno usporedite broj svojih stranica s onima koje su u njihovom indeksu. Da biste to vidjeli, jednostavno unesite frazu host:yoursite.ru u Google ili Yandex traku za pretraživanje, a zatim procijenite rezultate.

Ako je tako jednostavna provjeraće pružiti različite podatke koji se mogu razlikovati 10 ili više puta, odnosno postoji razlog za vjerovanje da vaš elektronički izvor sadrži duplikate. Iako to možda nije uvijek posljedica dupliciranih stranica, ova će provjera pružiti dobru osnovu za njihovo pronalaženje. Ako je vaše web mjesto malo, tada možete samostalno prebrojati broj stvarnih stranica, a zatim usporediti rezultat s pokazateljima tražilice. Također možete pretraživati ​​duplikate koristeći URL-ove koji se nude u Rezultati pretraživanja. Ako koristite CNC, tada će stranice s čudnim znakovima u URL-u, kao što je “index.php?s=0f6b3953d”, odmah privući vašu pozornost.

Druga metoda za utvrđivanje prisutnosti duplikata je traženje fragmenata teksta. Da biste izvršili takvu provjeru, trebate unijeti nekoliko riječi teksta sa svake stranice u traku za pretraživanje, a zatim jednostavno analizirati rezultat. U slučajevima kada se u rezultatima pretraživanja pojavljuju dvije ili više stranica, postaje očito da postoje kopije. Ako postoji samo jedna stranica u rezultatima pretraživanja, tada nema duplikata. Naravno, ova tehnika provjere prikladna je samo za male stranice koje se sastoje od nekoliko stranica. Kada ih web-mjesto sadrži stotine, optimizator može koristiti posebni programi, na primjer, Xenuov Link Sleuth.

Da biste provjerili web mjesto, otvorite novi projekt i idite na izbornik "File", pronađite "Check URL", unesite adresu web mjesta koje vas zanima i kliknite "OK". Program će sada početi obrađivati ​​sve URL-ove navedenog izvora. Kada je posao dovršen, primljene informacije morat će se otvoriti u bilo kojem prikladnom uređivaču i potražiti duplikate. Metode za pronalaženje dupliciranih stranica tu ne završavaju: na alatnoj traci Google Webmaster i Yandex.Webmaster možete vidjeti alate koji vam omogućuju provjeru indeksiranja stranica. Uz njihovu pomoć također možete pronaći duplikate.

Na putu do rješenja problema

Kada pronađete sve duplikate, dobit ćete zadatak eliminirati ih. Postoji nekoliko mogućnosti za rješavanje ovog problema i razne načine uklanjanje dupliciranih stranica.

Spajanje kopiranih stranica može se izvršiti pomoću preusmjeravanja 301. Ovo je učinkovito u slučajevima kada se URL-ovi razlikuju po odsutnosti ili prisutnosti www. Duplicirane stranice možete izbrisati i ručno, ali ova je metoda uspješna samo za one duplikate koji su ručno stvoreni.

Problem duplikata možete riješiti pomoću oznake canonical koja se koristi za nejasne kopije. Stoga se može koristiti u internetskoj trgovini za kategorije proizvoda za koje postoje duplikati i koje se razlikuju samo u sortiranju prema različite parametre. Osim toga, kanonska oznaka prikladna je za korištenje na stranicama za ispis i sličnim situacijama. Korištenje nije nimalo teško - za svaku kopiju postavljen je atribut u obliku rel=”canonical”; za promoviranu stranicu s najrelevantnijim karakteristikama ovaj atribut nije naveden. Približan prikaz koda: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Trebao bi se nalaziti u području oznake glave.

Ispravno konfigurirana datoteka robots.txt također će vam omogućiti postizanje uspjeha u borbi protiv duplikata. Pomoću naredbe Disallow možete robotima za pretraživanje onemogućiti pristup svim dupliciranim stranicama.

Čak ni profesionalni razvoj web stranica neće pomoći da ga dovedete na TOP ako resurs sadrži duplicirane stranice. Danas su stranice za kopiranje jedne od najčešćih zamke, od koje pate početnici. Velik broj njih na vašoj stranici stvorit će značajne poteškoće u dovođenju na TOP, ili čak onemogućiti.

Znate li da na bilo kojoj web stranici možete pronaći duplikate? Naravno, ako ih nitko prije nije prevladao. Upravo sada ću vam reći kako ih ukloniti jednom i ... ne zauvijek, naravno, budući da se pojavljuju novi. Ovo pitanje treba stalno pratiti. Pravovremeno reagiranje na postojeće duplikate, kao i sprječavanje novih, isplatit će se, vjerujte.

Mali sažetak (“U prethodnim epizodama”): već smo saznali o njima, o tome kako prijete stranici; o onima koji, naravno, ne žele da budu pronađeni. Žele vam to namjeriti.

Sve posljedice dupliciranog sadržaja su jasne, ali to ne olakšava. To znači da se trebate boriti i preuzeti kontrolu nad indeksiranjem stranice u svoje ruke.

Metode za rješavanje internih duplikata

  • 404 pogreška
  • Ovo je jednostavno brisanje duplicirane stranice. Ova je metoda prikladna samo ako stranica ne pruža nikakvu korist posjetiteljima stranice. Osim toga, ovu stranicu možete ukloniti iz indeksa u Google Webmasteru. Važno je da nijedna druga stranica na web-mjestu ne vodi vezu na izbrisanu, jer će je u suprotnom robot pokušati indeksirati iznova i iznova i redovito generirati pogrešku indeksiranja u Webmasteru i 404() na web-mjestu. Ako je sve učinjeno kako treba, nakon nekog vremena stranica će potonuti u zaborav.

    Plus: nema duplicirane stranice – nema problema.

    Minus: stranica bi trebala biti potpuno beskorisna (zašto stvarati takve stvari?), i ne bi smjele postojati poveznice na nju.

  • 301 preusmjeriti
  • To znači da je stranica trajno premještena (za razliku od 302, što znači da je stranica premještena privremeno). Preusmjeravanje 301 prikladno je ako duplicirana stranica nije potpuno beskorisna, već, naprotiv, donosi promet i ima povratne veze. Prenosi težinu s jedne stranice na drugu. No, suprotno uvriježenom mišljenju, težina se ne prenosi u potpunosti, dio se ipak gubi. Možete registrirati 301 preusmjeravanje u datoteci .htaccess, općenito će biti ovako:

    RedirectPermanent /stara-stranica http://www.site.ru/new-page/

    Preusmjeravanje 301 prikladno je ne samo za rad s dvostrukim sadržajem, već i za privremene stranice (na primjer, promotivne stranice na web-mjestu koje nisu arhivirane, već su jednostavno izbrisane i prikazuju pogrešku 404), koje opet mogu imati povratne veze. Bolje je preusmjeriti takve stranice na druge najrelevantnije stranice na web mjestu. Ako ih nema, možete otići na glavnu stranicu.

    Plus: lijepi stranice, univerzalan je i također je vrlo pogodan za rješavanje problema web stranice s www i bez www.

    Minus: Preusmjeravanje 301 čini stranicu s koje je poslan nedostupnom. Ali ako vam ovo treba, onda to uopće nije minus.

  • Rel=kanonski
  • Od 2009. Google, a kasnije i Yandex, uveli su ovu oznaku. On govori robotima za pretraživanje koju od 2 ili više stranica treba rangirati. U oznaci je napisano Canonical svaku od stranica za koje se primjenjuje. Ovako izgleda:

    Važno je da svaka od kanonskih stranica (tj. na kojoj je napisana oznaka rel=canonical) ukazuje na istu stranicu (koja će biti rangirana), ali ni u kojem slučaju na samu sebe, inače će se izgubiti cijelo značenje. Kada robot dođe do stranice s oznakom rel=canonical, čini se da tu stranicu pričvršćuje na onu naznačenu u oznaci, spajajući ih zajedno. Dakle, ako u Google upišete cache:site.ru/stranitsa-duplicatat i vidite cache za site.ru/kanon, sve ste ispravno napravili.

    Plus: Korisnicima će na stranici biti dostupne dvije ili više stranica, a tražilicama će biti dostupna samo jedna, i to bez prijevare.

    Minus: Ne vidim nikakve nedostatke. Tko može reći?

  • Roboti.txt
  • Dvostruke stranice također mogu biti zabranjene u datoteci robots.txt. Stoga ih roboti za pretraživanje neće indeksirati, ali će biti dostupni na stranici.

    Plus: jednostavnost rukovanja.

    Minus: morate pažljivo razumjeti što zabraniti i kako to prikazati u robots.txt, kako ne bi slučajno zabranili indeksiranje dijela stranice ili cijele stranice. Štoviše, zabrana već indeksiranih stranica u robots.txt ne uklanja ih iz indeksa; to će se morati učiniti ručno u Webmasteru, što je potpuno nezgodno kada takvih stranica ima mnogo.

    Stoga zaključak: najbolje je zabraniti “nepoželjne” stranice unaprijed i to pažljivo.

  • Meta roboti
  • Također možete kontrolirati indeksiranje stranice pomoću meta robota: INDEX/NOINDEX I PRATI/NE PRATI. Obično je zadana postavka za svaku stranicu INDEX, FOLLOW, što znači: stranica je indeksirana i robot slijedi poveznice s nje. Da biste se riješili duplicirane stranice, možete je staviti u oznake NOINDEX,NOFOLLOW (stranica nije indeksirana, a robot ne prati poveznice s nje), ali još bolje - NOINDEX, FOLLOW (stranica nije indeksirana , ali robot slijedi poveznice koje se nalaze na njemu ).

    U WordPressu postoji poseban dodatak - WordPress Meta Robots - koji će vam pomoći da postavite meta robote za svaku stranicu ili post.

    Zatvaranje stranice u oznake NOINDEX, FOLLOW dobro je za stranice s numeriranjem (ovo je jedan od načina borbe protiv duplikata na njima).

    Plus: ovaj meta tag je čak lakši od robots.txt, jer je napisan zasebna stranica, a ovdje nećete slučajno zabraniti indeksiranje cijele sekcije.

    minus: U idealnom slučaju, naravno, roboti bi trebali ispravno razumjeti što im želite prenijeti. Ali ponekad stranice s NOINDEX ipak završe u indeksu.

  • Uklanjanje stranice iz indeksa u Google Webmasteru
  • Ovaj alat za uklanjanje stranica nalazi se u Webmaster > Konfiguracija web mjesta > Pristup robota > Ukloni URL. Ovaj alat treba koristiti zadnji i najbolji u kombinaciji s drugim mjerama. Nekoliko stvari može poslužiti kao osnova za brisanje stranica (za Google): ako stranice daju grešku 404, ako su zabranjene u robots.txt ili korištenje meta robota. Ako stranice nigdje nisu zabranjene, Google će ih, naravno, izbrisati ako tražite, ali samo na 90 dana.

    Plus: ubrzavanje uklanjanja stranica iz indeksa ako ste ih već negdje zabranili.

    Minus: zahtjevno jer se svaki URL ručno dodaje u red čekanja za brisanje, a to može potrajati dosta vremena. Dakle, ako u indeksu postoji mnogo nepotrebnih stranica, ručno brisanje svake od njih nije opcija.

  • Parametri blokiranja u Google Webmasteru
  • Idemo Webmaster> Konfiguracija stranice> Parametri URL-a

    Ovdje možete pronaći popis dinamičkih parametara koje je Googleov robot otkrio na vašoj stranici, kao i pravila za njihovo indeksiranje. Prema zadanim postavkama, Google sam odlučuje hoće li indeksirati stranice s dinamičkim parametrima u adresama (ovdje nije prikazana zabrana indeksiranja drugim sredstvima, poput robots.txt). Indeksiranje se može onemogućiti odabirom opcije “Ne”, što znači da se dodavanjem parametara na adresu stranice ne mijenja njen sadržaj, odnosno stvara se duplikat.

    Plus: lako možete spriječiti indeksiranje stranica s dinamičkim parametrima, koji obično zadaju glavobolju (npr. replytocom na WP). U ovom alatu također možete pronaći parametre za koje niste imali pojma da postoje na stranici.

    Minus: Samo Google razumije takvu zabranu, što znači da će Yandex i dalje indeksirati stranice s dinamičkim parametrima osim ako se ne poduzmu druge mjere (isti robots.txt).

    U rujnu 2011. Google je predstavio rel=Prev i rel=Next, koji su osmišljeni kako bi pomogli webmasterima da se nose s dvostrukim sadržajem kada imaju numerirane stranice.

    Kao i svi drugi meta podaci, ove oznake su upisane u stranice. Bit je ovo:

    Plus: govorite Googleu da ste numerirali stranice tako da ih ne računa kao duplikate.

    Minus: ponovno ove oznake podržava ovaj trenutak samo Google. Neki ljudi ovu metodu ne smatraju prikladnom za rješavanje duplikata, budući da je težina svih stranica s rel=Prev i rel=Next ravnomjerno raspoređena, odnosno, teoretski, 15. stranica ima iste šanse za rangiranje kao i prva.

    Borba protiv vanjskih duplikata

    Vanjske duplikate uglavnom ne stvaraju webmasteri, ali oni su ti koji se moraju nositi s ovom pojavom. A evo nekoliko načina.

  • Meta oznake izvornih atributa
  • U studenom 2010. Google je uveo meta oznake izvornih atributa. Koristi se za vijesti i recenzije, koje se često ponovno objavljuju na različitim stranicama. Meta oznaka izvornog atributa izgleda ovako:

    Ova oznaka se nalazi u oznaci stranica koja kopira tekst, a sadržaj označava izvorni izvor.

    Plus: Ova meta oznaka rješava problem brojnih vanjskih duplikata.

    Minus: Metaoznake atributa izvora podržava samo Google.

  • Međudomenski rel-kanonski
  • Sustav je isti kao rel-canonical unutar stranice: duplikat kanonizira izvorni izvor bilo kojeg teksta, vijesti.

    Plus: Bez obzira na prisutnost vanjskih duplikata, vaša stranica neće biti pogođena.

    Minus: jedino je Google podržan (ovo sam već negdje čuo).

  • Uživajte u dobivanju povratnih veza
  • Svi znaju da može biti vrlo teško natjerati kradljivce sadržaja da ga uklone sa svojih stranica. Stoga možete pronaći utjehu za sebe: povratne veze s njihovih stranica, jer mnogi lopovi ne samo da ostavljaju poveznice na vašu stranicu u tekstu kopiranih članaka, već ih i ne blokiraju od indeksiranja. Stoga (i ne samo zbog toga, naravno) ne zaboravljamo stvoriti interne poveznice između naših stranica i članaka.

    Konačno

  • Veze na duplicirane stranice
  • Nakon što su duplicirane stranice "eliminirane", morate prestati povezivati ​​ih kao vanjski izvori, i sa same stranice. Ako ste postavili 301 preusmjeravanje (ili rel=canonical) - povežite se na stranicu na koju je usmjereno kako biste postigli maksimalan učinak. Spriječavanjem indeksiranja stranice, ali povezivanjem na nju iz vanjskih izvora, šaljete proturječne upute tražilicama, što može uzrokovati probleme.

  • Ne čini ništa
  • Možete jednostavno zatvoriti oči pred dupliciranim sadržajem i nadati se da će tražilice same shvatiti što treba indeksirati, a što ne. Ovo je dobro rješenje ako imate samo nekoliko dupliciranih stranica, ali može predstavljati problem ako je vaše web mjesto veliko i ima puno dupliciranih stranica ili ako se vaše web mjesto nemilosrdno kopira. U konačnici, ovisi o vama.

    Završne riječi? Svatko od nas želi biti jedinstven i za razliku od bilo koga drugog, zašto su naše stranice lošije? Također bi trebali biti jedinstveni, stoga ih nemojte kopirati i ne dopustite drugima! I da, pretplatite se na ažuriranja!

    Što su duplicirane stranice- to su stranice s apsolutno istim sadržajem i različitim URL-ovima.

    Može postojati nekoliko razloga za dupliciranje stranica na web stranici, ali gotovo svi su na ovaj ili onaj način povezani sa sustavom za upravljanje sadržajem stranice. Najbolje je poduzeti mjere za sprječavanje pojavljivanja dupliciranih stranica u fazi izrade stranice. Ako vaša stranica već radi, svakako provjerite postoje li duplicirane stranice, inače se ne mogu izbjeći ozbiljni problemi s indeksiranjem i SEO-om.

    Postoji nekoliko načina da se riješite dupliciranih web stranica. Neki mogu pomoći u borbi protiv postojećih kopija stranica, dok drugi mogu spriječiti njihovo pojavljivanje u budućnosti.

    Kako pronaći duplicirane stranice na web stranici?

    Ali prvo morate provjeriti postoje li duplicirane stranice na vašem resursu i, ako postoje, koja je to vrsta stranica. Kako to učiniti?

    • Metoda 1. Upit za pretraživanje "site:"

    Možete koristiti naredbu "site:". Ova naredba vraća rezultate pretraživanja za određenu stranicu. Unosom site:www.yoursite.com/page1, vidjet ćete postoje li duplikati ove stranice u pretrazi.

    • Metoda 2. Pretraživanje po izvatku članka

    Odaberemo mali dio teksta sa stranice za koji tražimo duplikate i zalijepimo ga u pretragu. Rezultati pretraživanja odmah će prikazati sve indeksirane duplikate željene stranice.

    Kako se nositi s dupliciranim stranicama?

    301 preusmjeriti

    Jedna od najučinkovitijih, ali ujedno i najtežih metoda rješavanja duplikata je 301 preusmjeravanje; ono spaja navedene stranice i duplikati s vremenom nestaju iz indeksa tražilice.

    Kada robot za pretraživanje pogodi dupliciranu stranicu s preusmjeravanjem 301, web poslužitelj će ga automatski preusmjeriti na originalnu stranicu. Sva preusmjeravanja zapisana su u .htaccess datoteci koja se nalazi u korijenskom direktoriju stranice. Ne biste trebali koristiti 301 preusmjeravanje (trajno preusmjeravanje) ako planirate koristiti kopiju stranice na neki način u budućnosti. Za to možete koristiti 302 preusmjeravanje (privremeno). Tada se stranice neće lijepiti.

    Kada koristite 301 preusmjeravanje za brisanje duplicirane stranice Iz indeksa, prije svega, morate odlučiti o glavnom ogledalu stranice. Na primjer, kao glavno ogledalo koje označavamo http://site.ru Sve što trebate učiniti je promijeniti adresu svoje web stranice

    • 301 Preusmjeravanje s www.site.ru na site.ru

    Da biste to učinili, trebate dodati sljedeće retke u .htaccess datoteci (datoteka se nalazi u korijenu stranice) odmah nakon RewriteEngine On :

    RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

    • 301 preusmjeravanje sa site.ru/index.php na site.ru


    RewriteRule ^index\.php$ http://site.ru/

    Na sličan način možete se riješiti duplikata kao što su:

    http://site.ru/index
    http://site.ru/index.html
    http://site.ru/index.htm

    Ako, na primjer, želite spojiti stranice http://site.ru i http://site.ru /page123, tada u .htaccess datoteku treba napisati sljedeće:

    Preusmjeri 301 /stranica123 http://site.ru

    Sada, kada pokušate pristupiti stranici http://site.ru/page123, bit ćete preusmjereni na glavnu stranicu.

    Drugi način označavanja izvornika je ispisivanje tzv. kanonske veze. Ovo su poveznice s atributom rel=kanonski, drugim riječima, u bloku glave takve stranice piše:

    Ako tražilice naiđu na takvu vezu, razumiju koja je od brojnih kopija stranica original i indeksiraju je.

    Na primjer, u gornjem primjeru, web mjesto je imalo 2 duplicirane stranice:

    http://site.ru/load
    http://site.ru/load/

    Određivanjem atributa rel=canonical na stranici http://site.ru/load pokazat ćemo tražilicama da je ova stranica glavna i da je ta stranica ta koja treba biti indeksirana.

    Neki CMS (primjerice Joomla!) mogu automatski kreirati takve poveznice, dok na drugima ovu operaciju izvode različiti dodaci. Međutim, čak i ako sve novostvorene duplicirane stranice na vašem web-mjestu imaju kanonske veze, to neće pomoći u rješavanju problema postojećih duplikata.

    roboti.txt

    Djelomično problem dupliciranih stranica rješava datoteka robots.txt koja sadrži preporuke tražilicama s popisom datoteka i mapa koje ne treba indeksirati. Zašto djelomično? Budući da ova datoteka sadrži preporuke, a ne pravila, a neke tražilice ignoriraju te preporuke.

    Na primjer, kako bi Yandex uklonio stare duplicirane stranice iz indeksa, dovoljno je napisati odgovarajuća pravila koja zabranjuju njihovo indeksiranje u robots.txt. S Googleom je situacija malo kompliciranija. Ista pravila morat će biti uključena u Googleov poseban alat, osmišljen posebno za webmastere. U Googleu, webmaster će morati postaviti parametre veze koji su nam potrebni u odjeljku "Crawling".

    Prilikom izrade datoteke robots.txt morat ćemo koristiti naredbu Disallow.

    • Ispravan robots.txt za Joomla

    Korisnički agent: *
    Zabrani: /administrator/
    Disallow: /cache/
    Disallow: /uključuje/
    Disallow: /jezik/
    Zabrani: /knjižnice/
    Zabrani: /mediji/
    Zabrani: /moduli/
    Onemogući: /dodaci/
    Zabrani: /predlošci/
    Zabrani: /tmp/
    Sitemap: http://site.ru /sitemap.xml Korisnički agent: Yandex
    Zabrani: /administrator/
    Disallow: /cache/
    Disallow: /uključuje/
    Disallow: /jezik/
    Zabrani: /knjižnice/
    Zabrani: /mediji/
    Zabrani: /moduli/
    Onemogući: /dodaci/
    Zabrani: /predlošci/
    Zabrani: /tmp/
    Onemogući: /xmlrpc/
    Domaćin: site.ru
    Karta web-mjesta: http:// site.ru /sitemap.xml

    • Ispravan robots.txt za Wordpress

    Korisnički agent: *
    Onemogući: /wp-admin
    Onemogući: /wp-includes
    Onemogući: /wp-content/cache
    Zabrani: /wp-content/themes
    Zabrani: /trackback
    Zabrani: */trackback
    Disallow: */*/trackback
    Zabrani: */*/feed/*/
    Zabrani: */feed
    Zabrani: /*?*
    Zabrani: /tag
    Sitemap: http://site.ru/sitemap.xml Korisnički agent: Yandex
    Onemogući: /wp-admin
    Onemogući: /wp-includes
    Onemogući: /wp-content/plugins
    Onemogući: /wp-content/cache
    Zabrani: /wp-content/themes
    Zabrani: /trackback
    Zabrani: */trackback
    Disallow: */*/trackback
    Zabrani: */*/feed/*/
    Zabrani: */feed
    Zabrani: /*?*
    Zabrani: /tag
    Domaćin: site.ru
    Karta web-mjesta: http://site.ru/sitemap.xml

    Što znače ovi redovi:

    • Korisnički agent: *- pravila opisana ispod ovog retka primjenjivat će se na sve robote za pretraživanje
    • Korisnički agent: Yandex- pravila se odnose samo na Yandex robota
    • Dopusti:- dopustiti indeksiranje (obično nije napisano)
    • Zabrani: Zabranjeno je indeksiranje stranica čije adrese sadrže ono što je opisano u retku.
    • Domaćin: site.ru- Glavno ogledalo stranice
    • Sitemap:- poveznica na XML kartu web stranice
    • "*" - bilo koji niz znakova u adresi stranice

    Borba protiv dupliciranih stranica u Wordpressu

    Već smo gore raspravljali o tome kakva bi trebala biti datoteka robots.txt za Wordpress. Razgovarajmo sada o dodacima koji vam omogućuju da se nosite s duplikatima i općenito su neophodni za optimizaciju web stranice na ovom motoru.

    Yoast SEO- Jedan od najpopularnijih dodataka za Wordpress, koji vam omogućuje da se nosite s problemom duplikata. Uz njegovu pomoć možete prisiliti Wordpress da registrira kanonske poveznice, onemogućiti indeksiranje paginiranih stranica (kategorija), sakriti arhive autora, ukloniti /kategoriju/ iz URL-a i još mnogo toga.

    Sve u jednom SEO paketu- Sličan dodatak, ne manje popularan i obavlja slične funkcije. Koji ćete koristiti ovisi o vama.

    Kako ukloniti duplicirane stranice u Joomli

    Iako Joomla! podržava automatsko stvaranje kanonskih veza; neki duplikati još uvijek mogu biti uključeni u indeks tražilice. Za borbu protiv duplikata u Joomla! možete koristiti robots.txt i 301 redirect. Ispravna datoteka rorbots.txt opisan je gore.

    Pa, da omogućite CNC (ljudski čitljive URL-ove) u Joomli, samo preimenujte htaccess.txt u .htaccess i dodajte ga odmah nakon RewriteEngine On:

    RewriteCond %(HTTP_HOST) ^www.site.ru$
    RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
    RewriteRule ^index\.php$ http://site.ru/

    Također u postavkama web mjesta potvrdite sljedeće okvire:

    Na ovaj način ćemo se riješiti duplikata poput www.site.ru i site.ru /index.php jer ovaj CMS ima problem s duplikatima. I tražilice često indeksiraju stranice poput site.ru/index.php. Sada, nakon svih manipulacija, prilikom pokušaja pristupa stranici, na primjer, www.site.ru, posjetitelj će biti preusmjeren na glavnu stranicu, tj. site.ru.

    Među dodacima za Joomlu mogu preporučiti JL Nema parova- dodatak uklanja duplicirane stranice u komponenti com_content. Moguće je preusmjeravanje 301 na ispravnu stranicu ili pogreška 404.

    Posebne usluge za izradu robots.txt i .htaccess

    Ako tek počinjete svladavati izradu web stranica, pokušajte koristiti usluge specijaliziranih servisa koji će vam pomoći u generiranju valjanih datoteka robots.txt i .htaccess:

    seolib.ru- Na njemu možete ne samo kreirati, već i testirati svoj robots.txt

    htaccess.ru - jedan od najpopularnijih servisa gdje možete kreirati i odabrati različite parametre za generiranu .htaccess datoteku

    Duplikati su stranice na istoj domeni s identičnim ili vrlo sličnim sadržajem. Najčešće se pojavljuju zbog osobitosti CMS-a, grešaka u direktivama robots.txt ili u postavljanju 301 preusmjeravanja.

    Koja je opasnost od duplikata?

    1. Netočna identifikacija relevantne stranice od strane robota za pretraživanje. Recimo da imate istu stranicu dostupnu na dva URL-a:

    https://site.ru/kepki/

    https://site.ru/catalog/kepki/

    Uložili ste novac u promociju stranice https://site.ru/kepki/. Sada se spominje u tematskim izvorima i zauzeo je pozicije u prvih 10. Ali u nekom trenutku robot ga isključuje iz indeksa i umjesto toga dodaje https://site.ru/catalog/kepki/. Naravno, ova stranica ima lošiji rang i privlači manje prometa.

    2. Povećanje vremena potrebnog robotima za indeksiranje stranice. Roboti imaju ograničeno vrijeme za skeniranje svake stranice. Ako postoji mnogo duplikata, robot možda nikada neće doći do glavnog sadržaja, što će odgoditi indeksiranje. Ovaj problem posebno vrijedi za stranice s tisućama stranica.

    3. Izricanje sankcija od strane tražilica. Sami duplikati nisu razlog za pesimiziranje stranice - sve dok algoritmi pretraživanja ne procijene da duplikate stvarate namjerno u svrhu manipuliranja rezultatima.

    4. Problemi za webmastera. Ako se rad na uklanjanju duplikata stavi na čekanje, može ih se nakupiti toliko da će webmasteru biti fizički teško obraditi izvješća, sistematizirati uzroke duplikata i napraviti prilagodbe. Velika količina posla povećava rizik od grešaka.

    Duplikati se konvencionalno dijele u dvije skupine: eksplicitne i implicitne.

    Očigledni duplikati (stranica dostupna s dva ili više URL-ova)

    Postoji mnogo opcija za takve poteze, ali sve su slične u biti. Evo onih najčešćih.

    1. URL sa i bez kose crte na kraju

    https://site.ru/list/

    https://site.ru/list

    Što učiniti: konfigurirajte odgovor poslužitelja "HTTP 301 trajno premješten" (301. preusmjeravanje).

    Kako to učiniti:

      • pronađite .htaccess datoteku u korijenskoj mapi stranice i otvorite je (ako je nema, napravite je u TXT formatu, nazovite je .htaccess i smjestite u korijen stranice);
      • upišite naredbe u datoteku za preusmjeravanje s URL-a s kosom crtom na URL bez kose crte:

    RewriteCond %(REQUEST_FILENAME) !-d
    RewriteCond %(REQUEST_URI) ^(.+)/$
    RewriteRule ^(.+)/$ /$1

      • obrnuti rad:

    RewriteCond %(REQUEST_FILENAME) !-f
    RewriteCond %(REQUEST_URI) !(.*)/$
    RewriteRule ^(.*[^/])$ $1/

      • ako je datoteka stvorena od nule, sva preusmjeravanja moraju biti zapisana unutar sljedećih redaka:



    Postavljanje 301 preusmjeravanja pomoću .htaccess prikladno je samo za Apache stranice. Za nginx i druge poslužitelje, preusmjeravanje je konfigurirano na druge načine.

    Koji URL je poželjniji: sa ili bez kose crte? Čisto tehnički nema razlike. Pogledajte situaciju: ako je indeksirano više stranica s kosim crtama, ostavite ovu opciju i obrnuto.

    2. URL-ovi sa i bez WWW-a

    https://www.site.ru/1

    https://site.ru/1

    Što učiniti: pokažite na glavno ogledalo stranice na ploči webmastera.

    Kako to učiniti u Yandexu:

      • idite na Yandex.Webmaster
      • u panelu odaberite mjesto s kojeg će se dogoditi preusmjeravanje (najčešće preusmjeravaju na URL bez WWW-a);
      • idite na odjeljak "Indeksiranje / premještanje web-mjesta", poništite okvir pored "Dodaj WWW" i spremite promjene.

    U roku od 1,5-2 tjedna, Yandex će spojiti ogledala, ponovno indeksirati stranice, au pretraživanju će se pojaviti samo URL-ovi bez WWW-a.

    Važno! Prethodno je za usmjeravanje na glavno ogledalo u datoteci robots.txt bilo potrebno navesti direktivu Host. Ali više nije podržan. Neki webmasteri "radi sigurnosti" još uvijek označavaju ovu direktivu i, za još veće povjerenje, postavljaju preusmjeravanje 301 - to nije potrebno, dovoljno je konfigurirati lijepljenje u Webmasteru.

    Kako zalijepiti ogledala na Google:

      • odaberite u Search Consoleu mjesto s kojeg će se izvršiti preusmjeravanje;
      • Kliknite na ikonu zupčanika u gornjem desnom kutu, odaberite “Site Settings” i odaberite glavnu domenu.

    Kao iu slučaju Yandexa, dodatne manipulacije s 301 preusmjeravanjem nisu potrebne, iako se lijepljenje može implementirati uz njegovu pomoć.

    Što treba učiniti:

      • preuzmite popis indeksiranih URL-ova s ​​Yandex.Webmastera;
      • uploadajte ovaj popis u alat sa SeoPult-a - kao popis ili pomoću XLS datoteke (detaljne upute za korištenje alata);

      • pokrenite analizu i preuzmite rezultat.

    U ovom primjeru stranice s paginacijom indeksira Yandex, ali Google ne. Razlog je taj što su zatvoreni za indeksiranje u robots.txt samo za Yandex bot. Rješenje je postaviti kanonizaciju za stranice s paginacijom.

    Pomoću parsera iz SeoPulta shvatit ćete dupliciraju li se stranice u obje tražilice ili samo u jednoj. To će vam omogućiti odabir optimalnih alata za rješavanje problema.

    Ako nemate vremena ili iskustva za rješavanje duplikata, naručite reviziju - osim prisutnosti duplikata, dobit ćete puno korisna informacija o vašem resursu: prisutnost pogrešaka u HTML kodu, zaglavlja, meta oznaka, struktura, interno povezivanje, upotrebljivost, optimizacija sadržaja itd. Kao rezultat toga, imat ćete gotove preporuke, slijedeći koje ćete web mjesto učiniti još boljim privlačan posjetiteljima i povećati svoju poziciju u pretraživanju.