Korrekt munka duplikált oldalakkal. Megfelelő módszerek az ismétlődő oldalak eltávolítására. Az ismétlődő oldalak eltávolítása

Gyakran előfordul, hogy ugyanazon a webhelyen találhatók másolatok az oldalakról, és előfordulhat, hogy tulajdonosa nem tud erről. Amikor megnyitja őket, minden helyesen jelenik meg, de ha megnézi a webhely címét, akkor észreveheti, hogy különböző címek felelhetnek meg ugyanannak a tartalomnak.

Mit is jelent ez? Mert hétköznapi felhasználók semmi Moszkvában, mert nem azért jöttek az oldalára, hogy megnézzék az oldalak címét, hanem mert a tartalom érdekelte őket. De ez nem mondható el a keresőmotorokról, mert ők egészen más megvilágításban érzékelik ezt az állapotot - azonos tartalmú, egymástól eltérő oldalakat látnak.

Ha egy hétköznapi felhasználók nem veszi észre a duplikált oldalakat az oldalon, ez biztosan nem fogja elkerülni a keresők figyelmét. Mihez vezethet ez? A keresőrobotok a másolatokat különböző oldalakként azonosítják, ennek eredményeként többé nem fogják egyedinek érzékelni a tartalmukat. Ha érdekli a webhely promóciója, akkor tudja, hogy ez minden bizonnyal befolyásolja a helyezést. Ezenkívül csökken a duplikátumok jelenléte referencia tömeg, ami az optimalizáló jelentős erőfeszítéseinek eredménye, aki megpróbálta kiemelni a céloldalt. Az ismétlődő oldalak azt eredményezhetik, hogy a webhely teljesen más része kerül kiemelésre. Ez pedig jelentősen csökkentheti a külső hivatkozások és a belső linkek hatékonyságát.

Károsak lehetnek az ismétlődő oldalak?

Az ismétlődések megjelenéséért gyakran a CMS a felelős, rossz beállítások ami vagy az optimalizáló figyelmének hiánya éles másolatok generálásához vezethet. Az olyan webhelykezelő rendszerek, mint a Joomla, gyakran ezt teszik. Azonnal jegyezzük meg univerzális gyógymód A jelenség leküzdésére egyszerűen nem létezik, de telepítheti a másolatok megkeresésére és törlésére tervezett beépülő modulok egyikét. Előfordulhatnak azonban homályos ismétlődések, amelyek tartalma nem egyezik teljesen. Ez leggyakrabban a webmester hibái miatt történik. Az internetes áruházakban gyakran megtalálhatók olyan oldalak, amelyekben a termékkártyák csak néhány mondatos leírásban különböznek egymástól, míg a többi, különböző elemekből és blokkokból álló tartalom ugyanaz. A szakértők gyakran egyetértenek abban, hogy bizonyos számú ismétlődés nem zavarja a webhelyet, de ha körülbelül fele vagy több van, akkor az erőforrás népszerűsítése sok problémát okoz. De még olyan esetekben is, amikor több példány is található a webhelyen, jobb, ha megtalálja és megszünteti őket - így biztosan megszabadul az erőforrásának ismétlődéseitől.

Ismétlődő oldalak keresése

Az ismétlődő oldalak megtalálásának többféle módja van. Maga a keresés előtt azonban jó lenne a keresők szemével megnézni az oldalát: hogyan képzelik el. Ehhez egyszerűen hasonlítsa össze oldalainak számát az indexükben szereplő oldalakkal. Ennek megtekintéséhez egyszerűen írja be a host:yoursite.ru kifejezést a Google vagy a Yandex keresőmezőjébe, majd értékelje az eredményeket.

Ha ilyen egyszerű ellenőrzés különböző adatokat szolgáltat, amelyek 10-szeres vagy többszörös eltérést mutathatnak, vagyis okkal feltételezhető, hogy az Ön elektronikus forrása ismétlődőket tartalmaz. Bár ez nem mindig a duplikált oldalak hibája, ez az ellenőrzés jó alapot nyújt a megtalálásukhoz. Ha a webhely kicsi, akkor önállóan kiszámíthatja a valódi oldalak számát, majd összehasonlíthatja az eredményt a keresőmotorokkal. A keresési eredményekben felkínált URL-ek használatával is kereshet ismétlődéseket. Ha CNC-t használ, akkor az URL-ben homályos karaktereket tartalmazó oldalak, például "index.php?c=0f6b3953d", azonnal felkeltik a figyelmét.

Egy másik módszer a másolatok jelenlétének meghatározására a szövegtöredékek keresése. Egy ilyen ellenőrzés végrehajtásához be kell írnia az egyes oldalak több szavából származó szöveget a keresőmezőbe, majd egyszerűen elemeznie kell az eredményt. Azokban az esetekben, amikor két vagy több oldal kerül bele a kérdésbe, nyilvánvalóvá válik, hogy vannak másolatok. Ha csak egy oldal van a keresési eredmények között, akkor annak nincsenek ismétlődései. Természetesen ez az ellenőrzési technika csak egy kisebb, több oldalból álló webhelyen használható. Ha egy webhely több száz ilyet tartalmaz, az optimalizáló használhatja speciális programok, például a Xenu`s Link Sleuth.

A webhely ellenőrzéséhez nyisson meg egy új projektet, lépjen a "Fájl" menübe, keresse meg az "URL ellenőrzése" lehetőséget, írja be az Önt érdeklő webhely címét, majd kattintson az "OK" gombra. Most a program elkezdi feldolgozni a megadott erőforrás összes URL-jét. A munka végeztével a kapott információkat bármely kényelmes szerkesztőben meg kell nyitni, és meg kell keresni a másolatokat. Az ismétlődő oldalak megtalálásának módszerei nem érnek véget: a Google Webmaster és a Yandex.Webmaster eszköztárában olyan eszközöket láthat, amelyek lehetővé teszik az oldalak indexelésének ellenőrzését. Segítségükkel másolatokat is találhat.

Útban a probléma megoldása felé

Ha megtalálja az összes másolatot, akkor az Ön feladata lesz eltüntetni őket. Számos módja van ennek a probléma megoldásának és különböző módokon duplikált oldalak megszüntetése.

A másolt oldalak ragasztása 301-es átirányítással történhet. Ez olyan esetekben hatékony, amikor az URL-ek a www hiányában vagy meglétében különböznek. A másolt oldalakat kézzel is törölheti, de ez a módszer csak a manuálisan létrehozott ismétlődéseknél sikeres.

A duplikátumok problémáját a fuzzy másolatokhoz használt kanonikus címkével oldhatja meg. Tehát egy online áruházban használható olyan árukategóriákhoz, amelyeknek ismétlődései vannak, és amelyek csak a rendezésben különböznek egymástól. különböző paraméterek. Ezenkívül a kanonikus címke alkalmas nyomtatható oldalakon és hasonlókon való használatra. Használata egyáltalán nem nehéz - minden példányhoz egy attribútum rel="canonical" formában van beállítva, a legrelevánsabb jellemzőkkel rendelkező kiemelt oldalhoz ez az attribútum nincs megadva. A kód hozzávetőleges nézete: link rel="canonical" href="http://site.ru/stranica-kopiya"/. A fejcímke területén kell elhelyezkednie.

A megfelelően konfigurált robots.txt fájl azt is lehetővé teszi, hogy sikeres legyen a duplikációk elleni küzdelemben. A Disallow direktíva segítségével letilthatja a keresőrobotok hozzáférését az összes duplikált oldalhoz.

Még a webhely szakmai fejlesztése sem segít a TOP-ra jutni, ha az erőforrás ismétlődő oldalakat tartalmaz. Manapság az oldalak másolása az egyik leggyakoribb buktató, amelytől a kezdők szenvednek. Ezek nagy száma az Ön webhelyén jelentős nehézségeket okoz a TOP-ra jutásban, vagy akár lehetetlenné is teszi.

Tudja, hogy bármely webhelyen találhat másolatokat? Persze, ha előtte senki nem győzte le őket. Most elmondom, hogyan távolítsd el őket egyszer és… persze nem örökre, ahogy újak jelennek meg. Ezt a problémát folyamatosan figyelemmel kell kísérni. Hidd el nekem, kifizetődő lesz a meglévő ismétlődésekre adott időben adott válasz, valamint az újak megelőzése.

Egy kis összefoglaló („Az előző sorozatban”): már értesültünk róluk, arról, hogy mivel fenyegetik az oldalt; amelyekről természetesen nem akarnak megtalálni. Rád akarnak szállni.

A duplikált tartalom minden következménye érthető, de ez nem könnyíti meg a dolgot. Tehát harcolnia kell, és saját kezébe kell vennie a webhely indexelését.

A belső másolatok kezelésének módszerei

404-es hiba

Ez egy egyszerű eltávolítása az ismétlődő oldalnak. Ez a módszer csak akkor alkalmas, ha az oldal nem hoz semmilyen hasznot az oldal látogatóinak. Opcionálisan eltávolíthatja ezt az oldalt a Google Webmester indexéből. Fontos, hogy a webhely más oldalai ne hivatkozzanak a törölt oldalra, ellenkező esetben a robot újra és újra megpróbálja indexelni, és rendszeresen indexelési hibát ad ki a Webmesterben és a webhelyen - 404 (). Ha mindent helyesen csinálunk, egy idő után az oldal feledésbe merül.

Egy plusz: nincs ismétlődő oldal - nincs probléma.

Mínusz: az oldal legyen teljesen használhatatlan (miért készítsünk ilyet?), és ne legyenek linkek rá.

301-es átirányítás

Ez azt jelenti, hogy az oldal véglegesen elköltözött (szemben a 302-vel, amikor az oldalt ideiglenesen áthelyezték). A 301-es átirányítás akkor megfelelő, ha a duplikált oldal nem teljesen használhatatlan, hanem éppen ellenkezőleg, forgalmat hoz, és visszamutató hivatkozásokkal rendelkezik. A súlyt egyik oldalról a másikra viszi át. Ám az elterjedt tévhittel ellentétben a súly nem kerül át teljesen, egy része mégis elveszik. 301-es átirányítást írhat egy fájlba .htaccess, általában így fog kinézni:

RedirectPermanent /old-page http://www.site.ru/new-page/

A 301-es átirányítások nem csak a duplikált tartalom kezelésére alkalmasak, hanem ideiglenes oldalakhoz is (például a webhely olyan állományoldalaihoz, amelyeket nem archiválnak, hanem egyszerűen törölnek és 404-es hibát adnak), amelyeken ismét lehetnek visszamutató hivatkozások . Jobb, ha az ilyen oldalakat a webhely más, legrelevánsabb oldalaira irányítja át. Ha nincs ilyen, mehet a főbe.

Egy plusz: oldalakat ragaszt, univerzális és kiválóan alkalmas a www-vel és www nélküli oldalak problémáinak megoldására is.

Mínusz: A 301-es átirányítás elérhetetlenné teszi azt az oldalt, amelyről küldték. De ha szüksége van rá, akkor ez egyáltalán nem mínusz.

Rel=canonical

2009 óta a Google, majd a Yandex bevezette ezt a címkét. Megmondja a keresőrobotoknak, hogy 2 vagy több oldal közül melyiket kell rangsorolni. A címkébe írt kanonikus minden oldal, amelyre vonatkozik. Ez így néz ki:

Fontos, hogy a kanonizált oldalak mindegyike (azaz, amelyen a rel=canonical címke regisztrálva van) ugyanarra az oldalra mutasson (amely rangsorolódik), de semmi esetre sem önmagára, különben az egész lényeg elvész . Amikor a robot egy rel=canonical címkét tartalmazó oldalra érkezik, ezt az oldalt hozzákapcsolja a címkében megadotthoz, és összeragasztja őket. Így, ha beírja a cache:site.ru/stranitsa-dublicat a Google-ba, és látja a site.ru/kanon gyorsítótárát, mindent jól csinált.

Egy plusz: két vagy több oldal lesz elérhető a felhasználók számára az oldalon, de csak egy - a keresőmotorok számára, és ez csalás nélkül történik.

Mínusz: Nem látok semmilyen hátrányt. Ki fogja megmondani?

Robots.txt

Az ismétlődő oldalak a robots.txt fájlban is letilthatók. Így nem fogják őket indexelni a keresőrobotok, hanem elérhetőek lesznek az oldalon.

Egy plusz: könnyű kezelhetőség.

Mínusz: alaposan meg kell értenie, hogy mit tiltson meg, és hogyan jelenítse meg azt a robots.txt fájlban, hogy véletlenül ne tiltsa meg a webhely egy részének vagy az egész webhely indexelését. Sőt, a már indexelt oldalak robots.txt-ben való tiltása nem távolítja el őket az indexből, ezt manuálisan kell megtennie a Webmesterben, ami meglehetősen kényelmetlen, ha sok ilyen oldal van.

Innen a következtetés: a legjobb, ha előre betiltja a "kifogásolható" oldalakat, és ezt óvatosan tedd.

Meta robotok

A webhely indexelését metarobotokkal is szabályozhatja: INDEX/NOINDEXés FOLLOW/NOFOLLOW. Általában minden oldal alapértelmezett értéke az INDEX, FOLLOW, ami azt jelenti: az oldal indexelve van, és a robot követi a hivatkozásokat. A duplikált oldal eltávolításához beépítheti NOINDEX, NOFOLLOW címkék közé (az oldal nincs indexelve, és a robot nem követi a linkeket), de még jobb - NOINDEX, FOLLOW (az oldal nincs indexelve, hanem a robot követi a rajta található linkeket).

A WordPress rendelkezik egy speciális bővítménnyel - WordPress Meta Robots -, amely segít metarobotok beállításában minden oldalhoz vagy bejegyzéshez.

Az oldal NOINDEX-be zárása, a FOLLOW címkék jók a számozással ellátott oldalakhoz (ez az egyik módja a rajtuk lévő ismétlődések kezelésének).

Egy plusz: ez a metacímke még könnyebb, mint a robots.txt, mert rá van írva külön oldal, és itt véletlenül sem tilthatja meg egy teljes szakasz indexelését.

mínusz: Ideális esetben természetesen a robotoknak helyesen kell megérteniük, hogy mit akarnak közölni velük. De előfordul, hogy a NOINDEX-et tartalmazó oldalak mégis bekerülnek az indexbe.

Oldal eltávolítása az indexből a Google Webmesterben

Ez az oldaleltávolító eszköz a Webmester > Webhelykonfiguráció > Robothozzáférés > URL eltávolítása menüpontban található. Ezt az eszközt utoljára és jobban kell használni más intézkedésekkel együtt. Az oldalak törlésének oka (a Google esetében) több dolog lehet: ha az oldalak 404-es hibát adnak, ha tiltják a robots.txt-ben vagy meta robotok használata. Ha nem tiltják sehol az oldalakat, akkor a Google természetesen kérésre eltávolítja őket, de csak 90 napra.

Egy plusz: az oldalak indexből való eltávolításának felgyorsítása, ha már letiltotta őket valahol.

Mínusz: munkaigényes, mivel minden URL-t manuálisan adnak hozzá a törlési sorhoz, és ez sokáig tarthat. Tehát ha sok szükségtelen oldal van az indexben, nem lehetséges mindegyik manuális törlése.

Blokkolási beállítások a Google Webmesterben

Megyünk Webmester > Webhely konfigurációja > URL-paraméterek

Itt találja azoknak a dinamikus paramétereknek a listáját, amelyeket a Googlebot talált az Ön webhelyén, valamint ezek indexelési szabályait. Alapértelmezés szerint a Google maga dönti el, hogy indexeli-e a dinamikus paraméterekkel rendelkező oldalakat a címekben (az egyéb eszközökkel, például a robots.txt fájllal történő indexelés tilalma itt nem jelenik meg). Az indexelést a "Nem" opció kiválasztásával lehet letiltani, ami azt jelenti, hogy az oldal címéhez adott paraméterek nem változtatják meg annak tartalmát, azaz duplikált hoz létre.

Egy plusz: könnyen letilthatja a dinamikus paraméterekkel rendelkező oldalak indexelését, amelyek általában fejfájást okoznak (pl. replytocom a WP-n). Még ebben az eszközben is találhat olyan paramétereket, amelyekről nem is tudta, hogy léteznek az oldalon.

Mínusz: csak a Google érti ezt a tilalmat, ami azt jelenti, hogy a Yandex továbbra is indexeli a dinamikus paraméterekkel rendelkező oldalakat, hacsak nem tesznek más intézkedéseket (ugyanaz a robots.txt).

2011 szeptemberében a Google bevezette a rel=Prev és a rel=Next funkciót, hogy segítsen a webmestereknek kezelni az ismétlődő tartalmat oldalszámozott oldalak jelenlétében.

Mint minden más metaadat, ezek a címkék is be vannak írva oldalakat. A lényeg a következő:

Egy plusz:Ön azt mondja a Google-nak, hogy oldalszámmal ellátott oldalai vannak, így nem tekinti ismétlődőnek azokat.

Mínusz: ezek a címkék ismét támogatottak Ebben a pillanatban csak a google. Vannak, akik ezt a módszert nem tartják alkalmasnak a duplikátumok kezelésére, mivel az összes rel=Prev és rel=Next oldal súlya egyenletesen oszlik el, vagyis elméletileg a 15. oldalnak ugyanannyi esélye van a rangsorolásra, mint az 1.-nek.

Küzdelem a külső másolatok ellen

A külső másolatokat többnyire nem webmesterek készítik, de ezzel a jelenséggel nekik kell megküzdeniük. És itt van néhány módszer.

Forrás attribútum metacímkéi

2010 novemberében a Google bevezette a metaforrás attribútumcímkéket. Hírekhez, ismertetőkhöz használják, amelyeket gyakran újra közzétesznek különböző oldalakon. A forrásattribútum metacímke így néz ki:

Ez a címke a címkében van elhelyezve oldal, amely másolja a szöveget, és a tartalom határozza meg elsődleges forrás.

Egy plusz: ez a metacímke megoldja a számos külső ismétlődés problémáját.

Mínusz: A forrás attribútum metacímkéit csak a Google támogatja.

Domainek közötti rel-canonical

A rendszer ugyanaz, mint az oldalon belüli rel-canonical: a duplikátum kanonizálja bármely szöveg, hír eredeti forrását.

Egy plusz: a külső ismétlődések jelenlététől függetlenül webhelye nem fog szenvedni.

Mínusz: csak a Google támogatja (valahol már hallottam ezt).

Élvezze a visszamutató linkek beszerzését

Mindenki tudja, hogy nagyon nehéz lehet rávenni a tartalomtolvajokat, hogy eltávolítsák webhelyükről. Ezért megnyugvást találhat magának: a webhelyükről származó visszamutató linkek, mivel sok tolvaj nemcsak a másolt cikkek szövegében hagy hivatkozásokat az Ön webhelyére, hanem nem zárja el őket az indexeléstől. Ezért (persze nem csak ezért) nem feledkezünk meg belső linkelésről sem oldalaink és cikkeink között.

Végül

Hivatkozások ismétlődő oldalakra

Ha az ismétlődő oldalakat „megszünteti”, le kell állítania a rájuk mutató hivatkozást, mint ahogyan a következőnél is külső források valamint magáról az oldalról. Ha 301-es átirányítást (vagy rel=canonical) állít be - a maximális hatás elérése érdekében hivatkozzon arra az oldalra, amelyre átirányítja. Ha nem indexel egy oldalt, hanem külső forrásból hivatkozik rá, akkor egymásnak ellentmondó utasításokat ad a keresőmotoroknak, ami problémákat okozhat.

Ne csinálj semmit

Csak szemet hunyhat a megkettőzött tartalom felett, és remélheti, hogy maguk a keresőmotorok is megértik, mit kell indexelni és mit nem. Ez egy jó megoldás, ha csak néhány ismétlődő oldala van, de bajba kerülhet, ha az oldal nagy és sok ilyen oldal van, vagy ha az oldalát kíméletlenül másolják. Végső soron ez rajtad múlik.

Mit mondjunk a végén? Mindannyian egyediek akarunk lenni, és nem olyanok, mint bárki más. Miért rosszabbak a webhelyeink? Nekik is egyedinek kell lenniük, úgyhogy ne másold le őket, és ne engedd másoknak! És igen, iratkozz fel a frissítésekre!

Mik azok az ismétlődő oldalak- ezek teljesen azonos tartalmú és eltérő URL-című oldalak.

Több oka is lehet annak, hogy az oldalon ismétlődő oldalak jelennek meg, de ezek szinte mindegyike valamilyen módon kapcsolódik az oldal tartalomkezelő rendszeréhez. A legjobb, ha intézkedéseket tesz az ismétlődő oldalak megjelenésének megakadályozására a webhely létrehozásának szakaszában. Ha webhelye már működik, feltétlenül ellenőrizze, hogy nincsenek-e rajta duplikált oldalak, különben nem kerülhetők el az indexeléssel és a SEO-val kapcsolatos komoly problémák.

Számos módja van a webhely ismétlődő oldalainak eltávolítására. Egyesek segíthetnek a már megjelent oldalak másolatai elleni küzdelemben, mások segítenek elkerülni a jövőbeni megjelenésüket.

Hogyan találhatunk ismétlődő oldalakat a webhelyen?

Először azonban ellenőriznie kell, hogy vannak-e ismétlődő oldalak az erőforráson, és ha igen, milyen típusúak ezek az oldalak. Hogyan kell csinálni?

1. módszer. Keresés a "site:" keresésben

Használhatja a "site:" parancsot. Ez a parancs egy adott webhely keresési eredményeit adja vissza. Ha beírja a site:www.yoursite.com/page1 címet, látni fogja, hogy vannak-e ismétlődései ennek az oldalnak a keresésben.

2. módszer. Keresés cikkrészlet alapján

Kiválasztunk egy kis szövegrészt az oldalról, amelyhez ismétlődést keresünk, és beillesztjük a keresésbe. A keresési eredmények azonnal megjelenítik a kívánt oldal összes indexelt másolatát.

Hogyan kezeljük az ismétlődő oldalakat?

301-es átirányítás

Az egyik leghatékonyabb, de egyben a legnehezebb módszer a duplikátumok kezelésére a 301-es átirányítás, amely összeragasztja a megadott oldalakat, és a duplikátumok idővel eltűnnek az indexből. kereső motorok.

Amikor egy keresőrobot egy ismétlődő oldalra talál 301-es átirányítással, a webszerver automatikusan átirányítja az eredeti oldalra. Minden átirányítás a .htaccess fájlban van regisztrálva, amely a webhely gyökérkönyvtárában található. Ne használjon 301-es átirányítást (állandó átirányítást), ha a jövőben valamilyen módon használni kívánja a másolóoldalt. Ehhez használhat 302-es (ideiglenes) átirányítást. Akkor az oldalak nem tapadnak össze.

Ha 301-es átirányítást használ a törléshez oldal ismétlődései Az indexből mindenekelőtt el kell döntenie a webhely fő tükrét. Például főtükörként jelezzük http://site.ru Csak módosítania kell webhelye címét

301 Átirányítás a www.site.ru webhelyről a site.ru oldalra

Ehhez a .htaccess fájlban (a fájl a webhely gyökerében található) adja hozzá a következő sorokat közvetlenül a RewriteEngine On után:

RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

301 átirányítás a site.ru/index.php webhelyről a site.ru oldalra

RewriteRule ^index\.php$ http://site.ru/

Hasonlóképpen megszabadulhat a következő típusú ismétlődésektől:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Ha például a http://site.ru és a http://site.ru /page123 oldalakat szeretné összeragasztani, akkor a következőket kell beírni a .htaccess fájlba:

Átirányítás 301 /page123 http://site.ru

Most, amikor megpróbál felkeresni a http://site.ru/page123 oldalt, működni fog az átirányítás a fő oldalra.

Az eredeti feltüntetésének másik módja, hogy a duplikált oldalakra írjuk az ún. kanonikus linkek. Ezek hivatkozások az attribútumhoz rel=canonical Más szóval egy ilyen oldal fejblokkja ezt írja:

Ha a keresőmotorok találkoznak egy ilyen hivatkozással, megértik, hogy a számos oldal másolata közül melyik az eredeti, és indexelik.

Például a fenti példában a webhelynek 2 ismétlődő oldala volt:

http://site.ru/load
http://site.ru/load/

A rel=canonical attribútum megadásával a http://site.ru/load oldalon megmutatjuk a keresőmotoroknak, hogy ez az oldal a fő oldal, és indexelni kell.

Egyes CMS-ek (például a Joomla!) automatikusan létrehozhatnak ilyen hivatkozásokat, mások számára ezt a műveletet különféle bővítmények hajtják végre. Azonban még akkor sem, ha webhelyének minden újonnan létrehozott oldala gyűjtőhivatkozásokkal rendelkezik, ez nem segít megoldani a már meglévő duplikátumok problémáját.

robots.txt

Az ismétlődő oldalak problémáját részben megoldja a robots.txt fájl, amely ajánlásokat tartalmaz a keresőmotorok számára a nem indexelendő fájlok és mappák listájával. Miért részben? Mivel ez a fájl ajánlásokat tartalmaz, nem szabályokat, és egyes keresőmotorok figyelmen kívül hagyják ezeket az ajánlásokat.

Például ahhoz, hogy a Yandex eltávolítsa a régi ismétlődő oldalakat az indexből, elegendő regisztrálni az indexelést tiltó megfelelő szabályokat a robots.txt fájlban. A Google esetében kicsit bonyolultabb a helyzet. Ugyanezeket a szabályokat bele kell foglalni a Google speciális eszköztárába is, amelyet kifejezetten a webmesterek számára készítettek. A Google-ban a webmesternek be kell állítania a szükséges linkparamétereket a „Feltérképezés” részben.

A robots.txt létrehozásakor a disallow direktívát kell használnunk.

Javítsa ki a robots.txt fájlt a Joomla számára

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Webhelytérkép: http://site.ru/sitemap.xml Felhasználói ügynök: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

Javítsa ki a robots.txt fájlt a Wordpress számára

Felhasználói ügynök: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Webhelytérkép: http://site.ru/sitemap.xml Felhasználói ügynök: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

Mit jelentenek ezek a sorok:

User-agent: *- az e sor alatt leírt szabályok minden keresőrobotra érvényesek
Felhasználói ügynök: Yandex- a szabályok csak a Yandex robotra vonatkoznak
lehetővé teszi:- indexelés engedélyezése (általában nem írt)
Letiltás: tilos indexelni azokat az oldalakat, amelyek címében a sorban leírtak szerepelnek.
Házigazda: site.ru- Főoldali tükör
oldaltérkép:- link XML oldaltérképre
"*" - bármilyen karaktersorozat az oldal címében

Duplikált oldalak kezelése a Wordpressben

Mi legyen a robots.txt fájl a Wordpress számára, fentebb már tárgyaltuk. És most beszéljünk azokról a bővítményekről, amelyek lehetővé teszik az ismétlődések kezelését, és általában nélkülözhetetlenek a webhely-optimalizáló számára ezen a motoron.

Yoast SEO- A Wordpress egyik legnépszerűbb bővítménye, amely lehetővé teszi az ismétlődések problémájának kezelését. Használható arra, hogy a Wordpresst kanonikus linkek írására kényszerítse, oldalszámozott oldalak (kategóriák) indexelésének letiltására, szerzői archívumok elrejtésére, /kategória/ eltávolítására az URL-ekből és még sok másra.

Minden egy Seo Packben- Hasonló bővítmény, nem kevésbé népszerű és hasonló funkciókat lát el. Hogy melyiket használja, az Önön múlik.

Az ismétlődő oldalak eltávolítása a Joomlában

Annak ellenére, hogy a Joomla! támogatja a kanonikus hivatkozások automatikus létrehozását, egyes ismétlődések továbbra is a keresőmotor indexébe kerülhetnek. A Joomla! használhatja a robots.txt fájlt és a 301-es átirányítást. Helyes fájl A rorbots.txt fájlt fent leírtuk.

Nos, a CNC (ember által érthető URL-ek) engedélyezéséhez a Joomlában, egyszerűen nevezze át a htaccess.txt fájlt .htaccess névre, és adja hozzá közvetlenül a RewriteEngine On után:

RewriteCond %(HTTP_HOST) ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

A webhely beállításaiban is jelölje be a négyzeteket az alábbiak szerint:

Így megszabadulunk a duplikátumoktól, mint pl www.site.ru és site.ru /index.php, mert ennek a CMS-nek ilyen problémái vannak a duplikátumokkal. A keresőmotorok gyakran indexelnek olyan oldalakat, mint a site.ru/index.php. Most, az összes manipuláció után, amikor megpróbál belépni egy oldalra, például a www.site.ru oldalra, a látogató átkerül a fő oldalra, azaz. site.ru.

A Joomla bővítményei közül tudok tanácsot adni JL Nincs páros- A bővítmény eltávolítja az ismétlődő oldalakat a com_content komponensben. Lehetséges 301-es átirányítás a megfelelő oldalra, vagy 404-es hibaüzenet.

Speciális szolgáltatások robots.txt és .htaccess létrehozásához

Ha még csak most kezdi el elsajátítani a webhelyépítést, próbálja meg igénybe venni a speciális szolgáltatások szolgáltatásait, amelyek segítenek érvényes robots.txt és .htaccess fájlok létrehozásában:

seolib.ru- Rajta nemcsak létrehozhatod, hanem tesztelheted is a robots.txt-edet

htaccess.com - az egyik legnépszerűbb szolgáltatás, ahol a generált .htaccess fájl különféle beállításait hozhatja létre és választhatja ki

Az ismétlődések ugyanazon a domainen lévő oldalak, amelyek tartalma megegyezik vagy nagyon hasonló. Leggyakrabban a CMS sajátosságai, a robots.txt direktívák vagy a 301-es átirányítások beállításának hibái miatt jelennek meg.

Mi a veszélye a duplikációknak

1. Az érintett oldal helytelen azonosítása a keresőrobot által. Tegyük fel, hogy ugyanaz az oldal két URL-en érhető el:

https://site.ru/kepki/

https://site.ru/catalog/kepki/

Befektetett a https://site.ru/kepki/ oldal reklámozásába. Most a tematikus források kapcsolódnak hozzá, és az első 10-ben foglalt helyet. De egy bizonyos ponton a robot kizárja az indexből, és helyette hozzáadja a https://site.ru/catalog/kepki/ címet. Természetesen ez az oldal rosszabb helyen szerepel, és kevesebb forgalmat vonz.

2. A robotok által a webhely feltérképezéséhez szükséges idő növelése. A robotok korlátozott ideig kapnak időt az egyes webhelyek feltérképezésére. Ha sok az ismétlődés, előfordulhat, hogy a robot nem jut el a fő tartalomhoz, ami késlelteti az indexelést. Ez a probléma különösen fontos a több ezer oldalt tartalmazó webhelyek esetében.

3. Szankciók kiszabása keresőmotorok által. Az ismétlődések önmagukban nem adnak okot a webhely pesszimizálására – mindaddig, amíg a keresési algoritmusok nem veszik figyelembe, hogy szándékosan hoz létre másolatokat az eredmények manipulálása érdekében.

4. Problémák a webmester számára. Ha az ismétlődések kiküszöbölésére irányuló munkát elhalasztják, akkor azok annyira felhalmozódhatnak, hogy a webmester fizikailag megnehezíti a jelentések feldolgozását, az ismétlődések okainak rendszerezését és a kiigazításokat. A nagy mennyiségű munka növeli a hibák kockázatát.

A duplikátumokat feltételesen két csoportra osztják: explicit és implicit.

Explicit ismétlődések (az oldal két vagy több URL-ről érhető el)

Az ilyen párosoknak számos változata létezik, de lényegükben mindegyik hasonló. Itt vannak a leggyakoribbak.

1. URL záró perjellel és anélkül

https://site.ru/list/

https://site.ru/list

Mi a teendő: konfigurálja a "HTTP 301 végleg áthelyezve" (301-es átirányítás) kiszolgálóválaszt.

Hogyan kell csinálni:

- keresse meg a .htaccess fájlt az oldal gyökérmappájában és nyissa meg (ha nincs ott, hozza létre TXT formátumban, nevezze el .htaccess-nek és helyezze el a webhely gyökérkönyvtárába);
- írja be a fájlba azokat a parancsokat, amelyek egy perjeles URL-ről perjel nélküli URL-re irányítanak át:

RewriteCond %(REQUEST_FILENAME) !-d
RewriteCond %(REQUEST_URI) ^(.+)/$
Újraírási szabály ^(.+)/$ /$1

- fordított működés:

RewriteCond %(REQUEST_FILENAME) !-f
RewriteCond %(REQUEST_URI) !(.*)/$
Újraírási szabály ^(.*[^/])$1/

- ha a fájlt a semmiből hozzák létre, minden átirányítást a következő sorokba kell írni:

…

A 301-es átirányítás beállítása .htaccess-szel csak Apache webhelyeken használható. Az nginx és más kiszolgálók esetében az átirányítást más módon konfigurálják.

Melyik URL-t részesítjük előnyben: perjellel vagy anélkül? Pusztán technikailag – nincs különbség. Nézze meg a helyzetet: ha több perjeles oldal van indexelve, hagyja ezt a lehetőséget, és fordítva.

2. URL WWW-vel és WWW nélkül

https://www.site.ru/1

https://site.ru/1

Mi a teendő: mutasson a fő webhelytükörre a webmesterpanelen.

Hogyan kell csinálni a Yandexben:

- lépjen a Yandex.Webmaster oldalra

- válassza ki a Panelben azt a webhelyet, ahonnan az átirányítás indul (leggyakrabban egy WWW nélküli URL-re irányítanak át);
- lépjen az "Indexelés / áthelyezés" szakaszba, törölje a jelölést a "WWW hozzáadása" melletti négyzetből, és mentse a változtatásokat.

A Yandex 1,5-2 héten belül felragasztja a tükröket, újraindexeli az oldalakat, és csak a WWW nélküli URL-ek jelennek meg a keresésben.

Fontos! Korábban ahhoz, hogy a robots.txt fájlban a fő tükörre mutassunk, meg kellett írni a Host direktívát. De már nem támogatott. Egyes webmesterek továbbra is „biztonsági hálóért” jelzik ezt az utasítást, és a még nagyobb bizalom érdekében 301-es átirányítást kell beállítani - ez nem szükséges, elég beállítani a ragasztást a Webmesterben.

Tükrök ragasztása a Google-on:

- menj Google Search Consoleés add hozzá a webhely 2 verzióját - WWW-vel és WWW nélkül;

- válassza ki a webhelyet, ahonnan az átirányítás elindul a Search Console-ból;
- kattintson a fogaskerék ikonra a jobb felső sarokban, válassza a "Webhelybeállítások" lehetőséget, és válassza ki a fő domaint.

Mint a Yandex esetében, nincs szükség további manipulációkra a 301-es átirányításokkal, bár a ragasztást a segítségével megvalósíthatja.

Mit kell tenni:

- töltse fel az indexelt URL-ek listáját a Yandex.Webmaster webhelyről;
- töltse fel ezt a listát az eszközbe a SeoPultból - listaként vagy XLS fájl használatával (az eszköz használatának részletes utasításai);

- futtassa az elemzést, és töltse le az eredményt.

Ebben a példában az oldalszámozási oldalakat a Yandex indexeli, de a Google nem. Ennek az az oka, hogy csak a Yandex bot esetében le vannak zárva a robots.txt-ben való indexeléstől. A megoldás az oldalszámozási oldalak kanonizálásának beállítása.

A SeoPult elemzőjének használatával megtudhatja, hogy az oldalak mindkét keresőmotorban duplikálódnak-e, vagy csak az egyikben. Így kiválaszthatja a legjobb eszközöket a probléma megoldására.

Ha nincs ideje vagy tapasztalata a duplikátumokkal foglalkozni, rendeljen auditot – a duplikátumok mellett sok hasznos információ az erőforrásról: hibák a HTML-kódban, fejlécek, metacímkék, szerkezet, belső linkelés, használhatóság, tartalomoptimalizálás stb. Ennek eredményeként kész ajánlások lesznek a kezében, amelyeket követve elkészíti vonzóbbá tegye a webhelyet a látogatók számára, és növelje pozícióját a keresésben.

Korrekt munka duplikált oldalakkal. Megfelelő módszerek az ismétlődő oldalak eltávolítására. Az ismétlődő oldalak eltávolítása - alapvető módszerek