Fișier PHP pentru verificarea greutății roboților txt

04.08.2021 Interesant

Ele apar pe internet în fiecare zi soluții gata făcute pe o problemă sau alta. Nu există bani pentru un designer? Folosiți unul dintre mii șabloane gratuite. Nu vrei să angajezi un specialist SEO? Folosiți serviciile unui cunoscut serviciu gratuit, citește și tu câteva articole.

De multă vreme nu este nevoie să scrieți singur același robots.txt de la zero. Apropo, asta dosar special, care este disponibil pe aproape orice site și conține instrucțiuni pentru roboții de căutare. Sintaxa comenzii este foarte simplă, dar totuși dificil de compus propriul dosar timpul va trece. Mai bine te uiti pe alt site. Există câteva avertismente aici:

Site-ul trebuie să fie pe același motor cu al tău. În principiu, astăzi există o mulțime de servicii pe Internet unde puteți afla numele cms-urilor aproape oricărei resurse web.

Acesta ar trebui să fie un site mai mult sau mai puțin de succes, care să aibă totul în ordine cu traficul de căutare. Acest lucru sugerează că robots.txt este compus în mod normal.

Deci, pentru a vizualiza acest fișier trebuie să tastați în bara de adrese: domain-name.zone/robots.txt

Totul este incredibil de simplu, nu? Dacă adresa nu este găsită, înseamnă că un astfel de fișier nu există pe site, sau accesul la acesta este interzis. Dar, în cele mai multe cazuri, veți vedea conținutul fișierului în fața dvs.:

În principiu, chiar și o persoană care nu este deosebit de versată în cod va înțelege rapid ce să scrie aici. Comanda allow permite ceva să fie indexat, în timp ce comanda disallow o interzice. User-agent este o indicație a roboților de căutare cărora le sunt adresate instrucțiunile. Acest lucru este necesar atunci când trebuie să specificați comenzi pentru un motor de căutare separat.

Ce e de facut in continuare?

Copiați totul și schimbați-l pentru site-ul dvs. Cum să schimb? Am spus deja că motoarele site-ului trebuie să se potrivească, altfel nu are rost să schimbi nimic - trebuie să rescrii absolut totul.

Deci, va trebui să parcurgeți liniile și să determinați ce secțiuni dintre acestea sunt prezente pe site-ul dvs. și care nu sunt. În captura de ecran de mai sus vedeți un exemplu de robots.txt pentru un site wordpress și există un forum într-un director separat. Concluzie? Dacă nu aveți un forum, toate aceste rânduri trebuie șterse, deoarece astfel de secțiuni și pagini pur și simplu nu există pentru dvs., atunci de ce să le închideți?

Cel mai simplu robots.txt ar putea arăta astfel:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Allow: /wp-content/uploads/

Agent utilizator: *

Nu permiteți: /wp - admin

Nu permite: /wp - include

Nu permiteți: /wp-content

Permite: /wp-content/uploads/

Cu toții probabil cunoașteți structura standard de foldere în Wordpress dacă ați instalat acest motor cel puțin o dată. Acestea sunt dosarele wp-admin, wp-content și wp-includes. De obicei, toate cele 3 sunt închise de la indexare deoarece conțin fișiere pur tehnice necesare funcționării motorului, plugin-uri și șabloane.

Directorul de încărcări este deschis deoarece conține imagini și sunt de obicei indexate.

Practic, trebuie să parcurgeți fișierul robots.txt copiat și să vedeți ce este de fapt pe site-ul dvs. și ce nu. Desigur, va fi dificil de determinat singur. Pot spune doar că dacă nu ștergeți ceva, atunci este în regulă, va exista doar o linie suplimentară, care nu dăunează în niciun fel (pentru că nu există nicio secțiune).

Este atât de importantă configurarea robots.txt?

Desigur, trebuie să aveți acest fișier și cel puțin să închideți directoarele principale prin el. Dar este compilația sa critică? După cum arată practica, nu. Eu personal văd site-uri pe aceleași motoare cu robots.txt complet diferite, care sunt promovate la fel de cu succes în motoare de căutare Oh.

Nu susțin că poți face vreun fel de greșeală. De exemplu, închideți imaginile sau lăsați un director inutil deschis, dar ceva super groaznic nu se va întâmpla. În primul rând, pentru că motoarele de căutare sunt mai inteligente astăzi și pot ignora unele indicații din fișier. În al doilea rând, s-au scris sute de articole despre configurarea robots.txt și puteți înțelege ceva din ele.

Am văzut fișiere care aveau 6-7 linii care interziceau indexarea câtorva directoare. Am văzut și fișiere cu o sută-două linii de cod, unde totul era posibil. Ambele site-uri au evoluat normal.

WordPress are așa-numitele duplicate. Asta e rău. Mulți oameni luptă împotriva acestui lucru închizând duplicate similare astfel:

Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/

Nu permiteți: /wp-feed

Aici trebuie să luptăm altfel. De exemplu, folosind redirecționări sau plugin-uri care vor distruge duplicatele. Cu toate acestea, acesta este un subiect pentru un articol separat.

Unde se află robots.txt?

Acest fișier se află întotdeauna la rădăcina site-ului, așa că îl putem accesa scriind adresa site-ului și numele fișierului separate printr-o bară oblică. După părerea mea, totul este cât se poate de simplu.

În general, astăzi am analizat întrebarea cum să vizualizați conținutul fișierului robots.txt, să îl copiați și să îl modificați pentru a se potrivi nevoilor dvs. De asemenea, voi mai scrie 1-2 articole despre configurare în viitorul apropiat, pentru că nu am acoperit totul în acest articol. Apropo, puteți găsi și o mulțime de informații despre promovarea site-urilor de bloguri la noi. Și cu asta, îmi iau rămas bun de la tine deocamdată.

Trebuie doar să specificați adresa URL dorită. După care instrument de verificare va procesa fișierul robots.txt ca un robot Google și va determina dacă accesul la această adresă este blocat.

Procedura de verificare

  1. În Google Search Console, selectați site-ul dvs., accesați instrumentul de verificare și examinați conținutul fișierului robots.txt. SintacticȘi joc de inteligență erorile din acesta vor fi evidențiate, iar numărul acestora este indicat sub fereastra de editare.
  2. În partea de jos a paginii interfeței, specificați adresa URL dorită în fereastra corespunzătoare.
  3. Din meniul drop-down din dreapta, selectați robot.
  4. Faceți clic pe butonul VERIFICA.
  5. Va fi afișată starea DISPONIBIL sau NU ESTE DISPONIBIL. În primul caz, roboții Google pot merge la adresa pe care ați specificat-o, dar în al doilea - nu.
  6. Dacă este necesar, faceți modificări în meniu și efectuați din nou testul. Atenţie! Aceste corecții nu vor fi adăugate automat în fișierul robots.txt de pe site-ul dvs.
  7. Copiați conținutul modificat și adăugați-l în fișierul robots.txt de pe serverul dvs. web.

La ce să fii atent

  • Modificările făcute în editor nu sunt salvate pe serverul web. Trebuie să copiați codul rezultat și să-l inserați în fișierul robots.txt.
  • Instrument de inspecție a fișierelor Robots.txt oferă rezultate numai pentru agenții de utilizare Google și roboții specifici Google (de ex. Robot Google bot). Nu putem garanta că alți roboți de căutare vor interpreta conținutul fișierului dvs. în același mod.
Generator de vânzări

Timp de citit: 18 minute

Dacă faceți o greșeală când creați un fișier robots.txt, se poate dovedi inutil să căutați roboți. Va exista riscul transmiterii incorecte a comenzilor necesare roboților de căutare, ceea ce va duce la o scădere a ratingurilor și la o modificare a indicatorilor de utilizatori ai platformei virtuale. Chiar dacă site-ul funcționează bine și este complet, verificarea robots.txt nu-l va răni, ci doar îl va face să funcționeze mai bine.

Din acest articol veți învăța:

De ce este necesară verificarea robots.txt?

Uneori, sistemul include pagini inutile ale resursei dvs. de Internet în rezultatele căutării, ceea ce nu este necesar. Poate părea că nu este nimic rău în a avea prea multe pagini în indexul motorului de căutare, dar nu este nimic în neregulă:

  • Pe paginile suplimentare utilizatorul nu va găsi niciuna Informatii utile pentru mine. Cu un grad mai mare de probabilitate, el nu va vizita deloc aceste pagini sau nu va rămâne mult timp pe ele;
  • Rezultatele motorului de căutare conțin aceleași pagini, ale căror adrese sunt diferite (adică conținutul este duplicat);
  • Roboții de căutare trebuie să petreacă mult timp indexând pagini complet inutile. În loc de indexare continut util se vor plimba pe site inutil. Întrucât robotul nu poate indexa întreaga resursă și o face pagină cu pagină (deoarece există o mulțime de site-uri), informațiile necesare pe care ați dori să le primiți după efectuarea unei solicitări s-ar putea să nu fie găsite foarte repede;
  • Serverul este foarte încărcat.

În acest sens, este recomandabil să blocați accesul roboților de căutare la unele pagini de resurse web.

Ce fișiere și foldere pot fi interzise să fie indexate:

  1. Pagini de căutare. Acesta este un punct controversat. Uneori este necesară utilizarea căutării interne pe un site web pentru a crea pagini relevante. Dar acest lucru nu se face întotdeauna. Adesea, rezultatul căutării este apariția unui număr mare de pagini duplicat. Prin urmare, se recomandă închiderea paginilor de căutare pentru indexare.
  2. Cosul de cumparaturi si pagina pe care este plasata/confirmata comanda. Închiderea acestora este recomandată pentru site-urile de tranzacționare online și alte resurse comerciale care utilizează un formular de comandă. Este extrem de nedorit ca aceste pagini să fie incluse în indexul motorului de căutare.
  3. Pagini de paginare. De regulă, acestea se caracterizează prin înregistrarea automată a acelorași metaetichete. În plus, sunt folosite pentru a plasa continut dinamic, astfel încât duplicatele apar în rezultatele căutării. În acest sens, paginarea ar trebui să fie închisă pentru indexare.
  4. Filtre și comparație de produse. Magazinele online și site-urile de catalog trebuie să le închidă.
  5. Pagini de înregistrare și autentificare. Acestea trebuie să fie închise din cauza confidențialității datelor introduse de utilizatori în timpul înregistrării sau autorizării. Indisponibilitatea acestor pagini pentru indexare va fi evaluată de Google.
  6. directoarele și fișierele de sistem. Fiecare resursă de pe Internet constă dintr-o mulțime de date (scripturi, tabele CSS, părți administrative) care nu ar trebui să fie vizualizate de roboți.

Fișierul robots.txt vă va ajuta să închideți fișierele și paginile pentru indexare.

robots.txt este normal fisier text, care conține instrucțiuni pentru roboții de căutare. Când un robot de căutare ajunge pe un site, mai întâi caută fișierul robots.txt. Dacă lipsește (sau este gol), atunci robotul va merge la toate paginile și directoarele resursei (inclusiv cele de sistem) care sunt disponibile gratuit și va încerca să le indexeze. Cu toate acestea, nu există nicio garanție că pagina de care aveți nevoie va fi indexată, deoarece este posibil să nu ajungă acolo.

robots.txt vă permite să direcționați roboții de căutare către paginile necesare și nu către cele care nu ar trebui să fie indexate. Fișierul poate instrui atât toți roboții simultan, cât și fiecare separat. Dacă o pagină de site este închisă de la indexare, nu va apărea niciodată în rezultatele motorului de căutare. Crearea unui fișier robots.txt este esențială.

Locația fișierului robots.txt ar trebui să fie serverul, rădăcina resursei dvs. Fișierul robots.txt al oricărui site web este disponibil pentru vizualizare pe Internet. Pentru a-l vedea, trebuie să adăugați /robots.txt după adresa resursei.

De regulă, fișierele robots.txt ale diferitelor resurse diferă unele de altele. Dacă copiați fără gânduri un fișier de pe site-ul altcuiva, atunci vor apărea probleme atunci când roboții de căutare îl indexează pe al dvs. Prin urmare, este atât de necesar să știți pentru ce este fișierul robots.txt și instrucțiunile (directivele) folosite pentru a-l crea.


Trimiteți cererea dvs

Cum este verificat robots.txt de Yandex

  • Un serviciu special Yandex.Webmaster „Analiză Robots.txt” vă va ajuta să verificați fișierul. Îl puteți găsi la linkul: http://webmaster.yandex.ru/robots.xml
  • În formularul propus, trebuie să introduceți conținutul fișierului robots.txt, care trebuie verificat pentru erori. Există două moduri de a introduce date:
    1. Accesați site-ul folosind linkul http://your-site.ru/robots.txt, copiați conținutul în câmpul gol al serviciului (dacă nu există fișier robots.txt, trebuie neapărat să-l creați!);
    2. Lipiți linkul către fișierul pe care îl verificați în câmpul „Nume gazdă”, faceți clic pe „Descărcați robots.txt de pe site” sau pe Enter.
  • Verificarea este pornită făcând clic pe comanda „Verificare”.
  • După lansarea scanării, puteți analiza rezultatele.

Odată ce începe scanarea, analizorul analizează fiecare linie de conținut din câmpul Robots.txt Text și analizează directivele pe care le conține. În plus, veți ști dacă robotul va accesa cu crawlere paginile din câmpul „Lista de adrese URL”.

Puteți crea un fișier robots.txt potrivit pentru resursa dvs. prin editarea regulilor. Nu uitați că fișierul de resurse în sine rămâne neschimbat. Pentru ca modificările să intre în vigoare, va fi necesară o descărcare automată. versiune noua fișier pe site.

La verificarea directivelor de secțiune care sunt destinate robotului Yandex (User-agent: Yandex sau User-agent:*), analizorul este ghidat de regulile de utilizare a robots.txt. Secțiunile rămase sunt verificate în conformitate cu cerințele standardului. Când analizorul analizează un fișier, afișează un mesaj despre erorile găsite, avertizează dacă există inexactități în scrierea regulilor și enumeră ce părți ale fișierului sunt destinate robotului Yandex.

Analizorul poate trimite două tipuri de mesaje: erori și avertismente.

Este afișat un mesaj de eroare dacă orice linie, secțiune sau întreg fișier nu poate fi procesat de analizor din cauza prezenței unor erori de sintaxă grave care au fost făcute la alcătuirea directivelor.

Un avertisment raportează de obicei o abatere de la reguli care nu poate fi corectată de analizor sau o problemă potențială (s-ar putea să nu fie), a cărei cauză este o greșeală accidentală sau reguli elaborate incorect.

Mesajul de eroare „Această adresă URL nu aparține domeniului dvs.” indică faptul că lista de adrese URL conține adresa uneia dintre oglinzile resursei dvs., de exemplu, http://example.com în loc de http://www.example .com (în mod oficial, aceste adrese URL sunt diferite). Este necesar ca adresele de verificat să se refere la site-ul al cărui fișier robots.txt este analizat.

Cum este verificat robots.txt în Google

Instrumentul Google Search Console vă permite să verificați dacă fișierul dvs. robots.txt împiedică Googlebot să acceseze cu crawlere anumite adrese URL de pe proprietatea dvs. De exemplu, aveți o imagine pe care nu doriți să o vedeți în rezultate rezultatele cautarii Imagini Google. Folosind instrumentul, veți afla dacă Googlebot-Image are acces la această imagine.

Pentru a face acest lucru, specificați adresa URL de interes. După aceasta, fișierul robots.txt este procesat de instrumentul de verificare, similar verificării de către robotul Googlebot. Acest lucru face posibil să se determine dacă această adresă este accesibilă.

Procedura de verificare:

  • După ce ați selectat proprietatea în Google Search Console, accesați instrumentul de verificare, care vă va oferi conținutul fișierului robots.txt. Textul evidențiat este erori de sintaxă sau logice. Numărul lor este indicat sub fereastra de editare.
  • În partea de jos a paginii de interfață veți vedea o fereastră specială în care trebuie să introduceți adresa URL.
  • În dreapta va apărea un meniu din care trebuie să selectați un robot.
  • Faceți clic pe butonul „Verifică”.
  • Dacă verificarea are ca rezultat un mesaj cu textul „disponibil”, aceasta înseamnă că roboții Google au voie să viziteze pagina specificată. Starea „indisponibil” înseamnă că roboții nu au voie să îl acceseze.
  • Dacă este necesar, puteți schimba meniul și cec nou. Atenţie! Modificările automate ale fișierului robots.txt din resursa dvs. nu vor avea loc.
  • Copiați modificările și adăugați-le în fișierul robots.txt de pe serverul dvs. web.

La ce trebuie să fii atent:

  1. Modificările făcute în editor nu sunt salvate pe serverul web. Va trebui să copiați codul rezultat și să-l inserați în fișierul robots.txt.
  2. Numai agenții utilizatori Google și roboții afiliați la Google (cum ar fi Googlebot) pot primi rezultate din inspecția fișierului robots.txt a instrumentului. Cu toate acestea, nu există nicio garanție că interpretarea conținutului fișierului dvs. de către roboții altor motoare de căutare va fi similară.

15 greșeli la verificarea fișierului robots.txt

Greșeala 1: instrucțiuni amestecate

Cea mai frecventă greșeală dintr-un fișier robots.txt este instrucțiunile amestecate. De exemplu:

  • Agent utilizator: /
  • Nu permiteți: Yandex

Opțiunea corectă este:

  • Agent utilizator: Yandex
  • Nu permite: /

Eroare 2: specificarea mai multor directoare într-o singură instrucțiune Disallow

Adesea, proprietarii de resurse de Internet încearcă să enumere toate directoarele pe care doresc să le împiedice să fie indexate într-o declarație Disallow.

Nu permiteți: /css/ /cgi-bin/ /images/

O astfel de înregistrare nu îndeplinește cerințele standardului; este imposibil de prezis cum va fi procesată de diferiți roboți. Unii dintre ei pot ignora spațiile. Interpretarea lor a intrării ar fi: „Disallow: /css/cgi-bin/images/”. Doar primul sau ultimul folder poate fi folosit de alții. Alții pot renunța complet la instrucțiuni fără a le înțelege.

Există posibilitatea ca procesarea acestui design să fie exact ceea ce se aștepta maestrul, dar este mai bine să scrieți corect:

  • Nu permiteți: /css/
  • Nu permiteți: /cgi-bin/
  • Nu permiteți: /imagini/

Eroare 3. Numele fișierului conține majuscule

Numele corect de fișier este robots.txt, nu Robots.txt sau ROBOTS.TXT.

Greșeala 4: scrierea numelui fișierului ca robot.txt în loc de robots.txt

Rețineți că numele corect pentru fișier este robots.txt.

Eroare 5. Lăsând linia User-agent goală

Opțiune incorectă:

  • Agent utilizator:
  • Nu permiteți:
  • Agent utilizator: *
  • Nu permiteți:

Eroare 6. Scrierea URL în directiva Gazdă

Adresa URL trebuie specificată fără a utiliza abrevierea Hypertext Transfer Protocol (http://) sau o bară oblică finală (/).

Inregistrare invalida:

Opțiunea corectă:

Utilizarea corectă a directivei gazdă este numai pentru robotul Yandex.

Eroare 7: Utilizarea metacaracterelor în declarația Disallow

Uneori, pentru a enumera toate fișierele file1.html, file2.html, file3.html etc., webmasterul poate scrie:

  • Agent utilizator: *
  • Disallow: fișier*.html

Dar acest lucru nu se poate face, deoarece unii roboți nu acceptă caractere wildcard.

Greșeala 8. Folosind o singură linie pentru a scrie comentarii și instrucțiuni

Standardul permite următoarele intrări:

Disallow: /cgi-bin/ #disable robots from indexing cgi-bin

Anterior, procesarea unor astfel de șiruri era imposibilă pentru unii roboți. Poate că în prezent niciun motor de căutare nu va avea probleme cu asta, dar merită să-ți asume riscul? Este mai bine să plasați comentariile pe o linie separată.

Eroare 9. Redirecționați către pagina de eroare 404

Adesea, dacă un site nu are un fișier robots.txt, atunci când îl solicitați, motorul de căutare va redirecționa către o altă pagină. Uneori, acest lucru nu returnează starea 404 Not Found. Robotul trebuie să-și dea seama dacă a primit robots.txt sau un fișier html obișnuit. Aceasta nu este o problemă, dar este mai bine dacă este plasat în rădăcina site-ului dosar gol robots.txt.

Greșeala 10: Folosirea majusculelor este un semn de stil prost

AGENT UTILIZATOR: GOOGLEBOT

Deși standardul nu reglementează sensibilitatea cu majuscule și minuscule a robots.txt, este adesea cazul pentru numele fișierelor și directoarelor. În plus, dacă fișierul robots.txt este scris complet cu litere mari, atunci acesta este considerat stil prost.

Agent utilizator: googlebot

Eroare 11: Listarea tuturor fișierelor

Ar fi incorect să enumerați fiecare fișier dintr-un director individual:

  • Agent utilizator: *
  • Nu permiteți: /AL/Alabama.html
  • Nu permiteți: /AL/AR.html
  • Nu permiteți: /Az/AZ.html
  • Nu permiteți: /Az/bali.html
  • Nu permiteți: /Az/bed-breakfast.html

Abordarea corectă ar fi blocarea întregului director de la indexare:

  • Agent utilizator: *
  • Nu permiteți: /AL/
  • Nu permiteți: /Az/

Eroare 12. Utilizarea directivelor suplimentare în secțiunea *

Este posibil ca unii roboți să nu răspundă corect atunci când sunt utilizate directive suplimentare. Prin urmare, utilizarea lor în secțiunea „*” este nedorită.

Dacă directiva nu este standard (cum ar fi „Gazdă”), atunci este mai bine să creați o secțiune specială pentru aceasta.

Opțiune incorectă:

Corect ar fi sa scriu:

Eroare 13. Lipsește instrucțiunea Disallow

Chiar dacă doriți să utilizați o directivă suplimentară și să nu setați nicio interdicție, este recomandat să specificați un Disallow gol. Standardul specifică faptul că instrucțiunea Disallow este obligatorie; dacă este absentă, robotul poate să vă „înțeleagă greșit”.

Gresit:

Dreapta:

Eroare 14. Nu folosiți bare oblice când specificați un director

Ce va face robotul în acest caz?

  • Agent utilizator: Yandex
  • Nu permite: John

Conform standardului, indexarea nu va fi efectuată atât pentru fișierul, cât și pentru directorul numit „john”. Pentru a specifica doar directorul, trebuie să scrieți:

  • Agent utilizator: Yandex
  • Nu permiteți: /john/

Eroare 15. Ortografie incorectă a antetului HTTP

Serverul ar trebui să returneze „Content-Type: text/plain” în antetul HTTP pentru robots.txt și, de exemplu, nu „Content-Type: text/html”. Dacă antetul este scris incorect, unii roboți nu vor putea procesa fișierul.

Cum să compuneți corect un fișier, astfel încât verificarea robots.txt să nu detecteze erori

Ce ar trebui să fie fisierul corect robots.txt pentru o resursă de internet? Să ne uităm la structura sa:

1. User-agent

Această directivă este cea principală; ea determină pentru ce roboți sunt scrise regulile.

Dacă pentru orice robot, scriem:

Dacă pentru un anumit bot:

Agent utilizator: GoogleBot

Este demn de remarcat faptul că caracterele minuscule nu contează în robots.txt. De exemplu, agentul utilizator pentru Google poate fi scris astfel:

user-agent: googlebot

Iată un tabel cu principalii agenți de utilizator ai diferitelor motoare de căutare.

Principalul robot de indexare al Google

Stiri google

imagini Google

Mediapartners-Google

Google AdSense, Google Mobile AdSense

verificarea calității paginii de destinație

AdsBot-Google-Mobile-Apps

Googlebot pentru aplicații

Robotul principal de indexare al lui Yandex

Yandex.Imagini

Yandex.Video

date multimedia

robot de căutare blog

un robot care accesează o pagină atunci când o adaugă prin formularul „Adăugați URL”.

robot care indexează pictogramele site-ului web (favicons)

Yandex.Direct

Yandex.Metrica

Yandex.Catalog

Yandex.News

YandexImageResizer

robot servicii mobile

Robotul principal de indexare al lui Bing

robot de indexare principal Yahoo!

robot de indexare principal Mail.Ru

2. Dezactivați și Permiteți

Disallow vă permite să interziceți indexarea paginilor și a secțiunilor unei resurse de Internet.

Allow este folosit pentru a le forța să se deschidă pentru indexare.

Dar sunt destul de greu de folosit.

În primul rând, trebuie să vă familiarizați cu operatori suplimentariși regulile de utilizare a acestora. Acestea includ: *, $ și #.

  • * - orice număr de caractere, chiar și absența acestora. Nu este necesar să plasați acest operator la sfârșitul liniei, se presupune că este acolo implicit;
  • $ - indică faptul că caracterul din fața lui trebuie să fie ultimul;
  • # - acest operator servește la indicarea unui comentariu; orice informație ulterioară nu este luată în considerare de robot.

Cum să utilizați acești operatori:

  • Nu permite: *?s=
  • Nu permiteți: /categorie/$

În al doilea rând, trebuie să înțelegeți cum sunt executate regulile incluse în fișierul robots.txt.

Nu contează în ce ordine sunt scrise directivele. Determinarea moștenirii regulilor (ce se deschide sau se închide de la indexare) se efectuează în funcție de directoarele specificate. Să dăm un exemplu.

Permite: *.css

Nu permiteți: /șablon/

Dacă trebuie să deschideți toate fișierele .css pentru indexare, va trebui să specificați acest lucru suplimentar pentru fiecare folder la care accesul este refuzat. În cazul nostru:

  • Permite: *.css
  • Permite: /template/*.css
  • Nu permiteți: /șablon/

Să vă reamintim din nou: nu contează în ce ordine sunt scrise directivele.

3. Harta site-ului

Această directivă specifică calea către fișierul XML Sitemap. Adresa URL arată la fel cum apare în bara de adrese.

Directiva Sitemap poate fi specificată oriunde în fișierul robots.txt, fără a fi nevoie să o legați la un anumit user-agent. Aveți voie să specificați mai multe reguli Sitemap.

Această directivă specifică oglinda principală a resursei (de obicei, cu sau fără www). Amintiți-vă: atunci când specificați oglinda principală, este scris nu http://, ci https://. Dacă este necesar, este indicat și portul.

Această directivă poate fi susținută numai de roboții Yandex și Mail.Ru. Alți roboți, inclusiv GoogleBot, nu iau în considerare această comandă. Vă puteți înregistra gazdă o singură dată!

5. Crawl-întârziere

Vă permite să setați perioada de timp după care robotul trebuie să descarce paginile de resurse. Directiva este susținută de roboți de la Yandex, Mail.Ru, Bing, Yahoo. Când setați intervalul, puteți utiliza atât valori întregi, cât și valori fracționale, folosind un punct ca separator. Unitatea de măsură este secundele.

Întârziere crawler: 0,5

Dacă sarcina pe site este ușoară, atunci nu este nevoie să setați această regulă. Dar dacă rezultatul paginilor de indexare a robotului depășește limitele sau o creștere serioasă a încărcării, ceea ce duce la întreruperi în server, atunci folosirea acestei directive este recomandabilă: vă permite să reduceți încărcarea.

Cu cât intervalul pe care îl setați este mai lung, cu atât va fi mai mic numărul de descărcări în timpul unei sesiuni. Valoarea optimă pentru fiecare resursă este diferită. La început se recomandă să setați valori mici (0,1, 0,2, 0,5), apoi să le creșteți treptat. Pentru roboții motoarelor de căutare care nu sunt deosebit de importanți pentru rezultatele promovării (de exemplu, Mail.Ru, Bing și Yahoo), puteți seta imediat valori mai mari decât pentru roboții Yandex.

6. Clean-param

Această directivă este necesară pentru a informa crawler-ul (robotul de căutare) că indexarea adreselor URL cu parametrii specificați nu este necesară. Regula necesită două argumente: un parametru și adresa URL a secțiunii. Yandex sprijină directiva.

http://site.ru/articles/?author_id=267539 - nu va fi indexat

http://site.ru/articles/?author_id=267539&sid=0995823627 - nu va fi indexat

Clean-Param: utm_source utm_medium utm_campaign

7. Alți parametri

Specificația extinsă robots.txt conține, de asemenea, următorii parametri: Rata cererii și Timpul vizitei. Dar în prezent nu există suport pentru ele de către motoarele de căutare de top.

Sunt necesare directive pentru următoarele:

  • Rata de solicitare: 1/5 - permite încărcarea a nu mai mult de 1 pagină în 5 secunde
  • Timp de vizită: 0600-0845 - permite încărcarea paginii numai de la 6:00 la 8:45 GMT

Pentru setări corecteÎn fișierul robots.txt, vă recomandăm să utilizați următorul algoritm:

2) Interziceți accesul roboților la cont personal, pagini de autorizare și înregistrare;

4) Închideți scripturile ajax și json de la indexare;

6) Interziceți indexarea pluginurilor, temelor, js, css pentru roboții tuturor motoarelor de căutare, cu excepția Yandex și Google;

7) Blocați accesul roboților la funcționalitatea de căutare;

8) Interzicerea indexării secțiunilor de servicii care nu sunt valoroase pentru resursa în căutare (eroare 404, lista autorilor);

9) Blocați paginile duplicate tehnice și paginile al căror conținut dublează într-o măsură sau alta conținutul altor pagini (calendare, arhive, RSS) de la indexare;

12) Utilizați parametrul „site:” pentru a verifica ce au indexat Yandex și Google. Pentru a face acest lucru, introduceți „site:site.ru” în bara de căutare. Dacă există pagini în rezultatele căutării care nu trebuie indexate, adăugați-le la robots.txt;

13) Notați Harta site-ului și regulile de gazdă;

14) Dacă este necesar, specificați Crawl-Delay și Clean-Param;

15) Verificați corectitudinea fișierului robots.txt folosind instrumentele Google și Yandex;

16) După 14 zile, verificați din nou pentru a vă asigura că nu există pagini în rezultatele motorului de căutare care să nu fie indexate. Dacă există, repetați toate punctele de mai sus.

Verificarea fișierului robots.txt are sens numai dacă site-ul dvs. este sănătos. Un audit de șantier efectuat de specialiști calificați va ajuta la determinarea acestui lucru.

Sperăm că articolul nostru despre idei de afaceri vă va fi de folos. Și dacă ați decis deja direcția activității dvs. și sunteți implicat activ în dezvoltare, atunci vă sfătuim să faceți un audit al site-ului pentru a prezenta o imagine reală a capacităților resursei dumneavoastră.


Array ( => 21 [~ID] => 21 => 28.09.2019 13:01:03 [~TIMESTAMP_X] => 28.09.2019 13:01:03 => 1 [~MODIFIED_BY] => 1 => 09.21. 2019 10:35:17 [~DATE_CREATE] => 21/09/2019 10:35:17 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Articole de Dmitry Svistunov [~NAME] => Articole de Dmitry Svistunov => 11076 [ ~PICTURE] => 11076 => 7 [~LEFT_MARGIN] => 7 => 8 [~RIGHT_MARGIN] => 8 => 1 [~DEPTH_LEVEL] => 1 => Dmitry Svistunov [~DESCRIPTION] => Dmitry Svistunov => text [~DESCRIPTION_TYPE ] => text => Articole de Dmitri Svistunov Dmitri Svistunov [~SEARCHABLE_CONTENT] => Articole de Dmitri Svistunov Dmitri Svistunov => statyi-dmitriya-svistunova [~CODE] => statyi-dmitriya-svistunova => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=21 [~SECTION_PAGE_URL] => /blog/list.php?SECTION_ID=21 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE ] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)

Buna din nou! În continuare, aș dori să subliniez un astfel de aspect precum verificarea drepturilor de acces ale roboților de căutare la paginile site-ului. Cu alte cuvinte, un robot de căutare are dreptul de a indexa o pagină și de a o plasa în rezultatele căutării?

De ce este necesar acest lucru și unde poate fi util? Principala aplicație practică este verificarea directivelor care blochează accesul la secțiuni sau pagini individuale site-ul, adică Control dacă pagina poate fi indexată sau nu. Pe lângă roboți, pot fi folosite și alte metode pentru a restricționa accesul, de exemplu.htaccess, metaeticheta noindex.

Uneori se întâmplă ca un autor de blog începător sau un administrator de site să nu înțeleagă pe deplin cum să compilați un robot și să nu fie sigur dacă a făcut totul corect - ei vin în ajutor instrumente convenabile pentru verificare. Să ne uităm la exemple, iar aceste instrumente de astăzi sunt Analysis of robots.txt și View as Googlebot în Yandex și, respectiv, Google.

Analiza robots.txt în Yandex

Pentru a verifica accesul robotului Yandex la pagină, ar trebui să utilizați un instrument numit Robots.txt Analysis din panoul Yandex Webmaster. Îl puteți găsi prin linkul de pe pagina principală a panoului YaV.

În câmpul Nume gazdă trebuie să introduceți adresa pagina principalași faceți clic pe butonul Download robots.txt de pe site, după care conținutul fișierului va fi afișat în câmpul de text de mai jos. Următorul pas este să adăugați o listă de adrese URL - o adresă pe linie și să faceți clic pe butonul de verificare. Chiar și mai jos, va apărea rezultatul verificării adresei URL - accesul este permis sau refuzat. În acest fel puteți verifica dacă directivele roboților sunt procesate corect și dacă toate paginile inutile sunt blocate de la indexare.

Vedeți ca Googlebot

Pentru a verifica accesul robotului Google la pagini, vom folosi un instrument similar de la panouri pentru webmasteri Care e numit Vedeți ca Googlebot. În câmpul de text, introduceți adresa paginii, selectați tipul de bot de căutare și faceți clic pe butonul Obțineți conținut. După câteva secunde, cererea va fi procesată și starea de primire va fi indicată - reușită sau refuzată în fișierul robots.txt. Există o limită a vizualizărilor de pagină: 500 de adrese la fiecare zece zile.

Relativ recent, a apărut funcția Send to Index - o pagină care a fost trimisă spre revizuire poate fi trimisă pentru indexare. Când faceți clic pe linkul corespunzător, se va deschide o fereastră cu dreptul de a alege, constând din două opțiuni: trimiteți numai această adresă URL pentru indexare sau adresa URL și toate paginile aferente.

În acest articol ne vom uita la:

Ce este robots.txt?

Robots.txt este un fișier text care conține recomandări pentru acțiunile roboților de căutare. Acest fișier conține instrucțiuni (directive) cu ajutorul cărora puteți limita accesul roboților de căutare la anumite foldere, pagini și fișiere, puteți seta viteza de scanare a site-ului, puteți specifica oglinda principală sau adresa sitemap-ului.

Roboții de căutare accesează cu crawlere un site căutând fișierul roboți. Lipsa unui dosar nu este eroare critica. În acest caz, roboții cred că nu există restricții pentru ei și pot scana complet site-ul.
Fișierul trebuie să fie plasat în directorul rădăcină al site-ului și să fie accesibil la https://mysite.com/robots.txt.

Instrucțiunile Standardului de excepție pentru roboți sunt de natură consultativă și nu sunt comenzi directe către roboți. Adică, există posibilitatea ca, chiar dacă închideți o pagină în robots.txt, aceasta să ajungă în continuare în index.

Trebuie să indicați directivele în fișier numai în latină; utilizarea chirilice este interzisă. rușii nume de domenii poate fi convertit folosind codificarea Punycode.

Ce trebuie să fie blocat de la indexare în robots.txt?

  • pagini cu informații personale ale utilizatorilor;
  • coș de cumpărături și comparație de produse;
  • corespondența utilizatorului;
  • partea administrativă a site-ului;
  • scenarii.

Cum se creează robots.txt?

Puteți crea un fișier în orice editor de text(notepad, TextEdit etc.). Puteți crea un fișier robots.txt pentru un site online utilizând un generator de fișiere, cum ar fi instrumentul de service.

Este necesar robots.txt?

Înregistrându-se instructiuni corecte, roboții nu își vor pierde bugetul de accesare cu crawlere (numărul de adrese URL pe care un robot de căutare le poate accesa cu crawlere într-un singur acces cu crawlere) pentru accesarea cu crawlere a paginilor inutile, ci vor indexa doar paginile necesare pentru căutare. În plus, serverul nu va fi supraîncărcat.

Directive Robots.txt

Fișierul robots este format din directivele principale: User-agent și Disallow și altele suplimentare: Allow, Sitemap, Host, Crawl-delay, Clean-param. Mai jos vom analiza toate regulile, de ce sunt necesare și cum să le scriem corect.

User-agent - salut cu un robot

Există mulți roboți care pot accesa cu crawlere un site web. Cei mai populari sunt roboții motoarelor de căutare sistemele Googleși Yandex.

Google Bots:

  • Googlebot;
  • Googlebot-Video;
  • Googlebot-News;
  • Googlebot-Imagine.

Roboți Yandex:

  • YandexBot;
  • YandexDirect;
  • YandexDirectDyn;
  • YandexMedia;
  • YandexImagini;
  • YaDirectFetcher;
  • YandexBlogs;
  • YandexNews;
  • YandexPagechecker;
  • YandexMetrika;
  • YandexMarket;
  • YandexCalendar.

Directiva User-agent indică cărui robot îi sunt adresate instrucțiunile.
Pentru a accesa toți roboții, trebuie doar să scrieți următoarea linie în fișier:

Pentru a contacta un anumit robot, de exemplu, Google, trebuie să introduceți numele acestuia în acest rând:

Spre deosebire de Google, pentru a nu prescrie reguli pentru fiecare robot Yandex, puteți specifica următoarele în User-agent:

În RuNet, este obișnuit să scrieți instrucțiuni pentru doi agenți de utilizator: pentru toată lumea și separat pentru Yandex.

Directivele Disallow și Allow

Pentru a împiedica un robot să acceseze un site, un director sau o pagină, utilizați Disallow.

Cum se aplică regula de respingere în diferite situații

Blocați întregul site de la indexare: Folosiți o bară oblică (/) pentru a bloca accesul la întregul site.

Merită să blocați complet accesul la roboți în primele etape de lucru cu site-ul, astfel încât acesta să apară gata făcut în rezultatele căutării.

Blocați accesul la folder și conținutul acestuia: Folosiți o bară oblică după numele folderului.

Închideți o anumită pagină sau fișier: specificați o adresă URL fără gazdă.

Distribuie pagina de la dosar închis : După respingere, utilizați regula Permite.

Interziceți accesul la fișiere de un tip: pentru a preveni accesarea cu crawlere a fișierelor de același tip, utilizați caractere speciale* și $.

Adresa sitemapului în robots.txt

Dacă site-ul are Fișier Sitemap, indicați adresa acestuia în directiva corespunzătoare. Dacă există mai multe sitemap-uri, notează-le pe toate.

Această regulă este luată în considerare de roboți, indiferent de locația sa.

Directiva gazdă pentru Yandex

UPD: Pe 20 martie, Yandex a anunțat oficial abolirea directivei Gazdă. Puteți citi mai multe despre acest lucru în blogul Yandex pentru webmasteri. Ce să faceți acum cu directiva Gazdă:

  • eliminați din robots.txt;
  • pleacă - robotul îl va ignora.

În ambele cazuri, trebuie să configurați o redirecționare 301.

Roboții Yandex acceptă robots.txt cu capabilități avansate. Instrucțiunea Gazdă este una dintre ele. Indică oglinda principală a site-ului.

Important:

  • 1. utilizați www (dacă adresa site-ului începe așa);
  • 2. utilizați HTTPS (dacă site-ul este pe un protocol securizat, dacă nu, HTTP poate fi omis).

Ca și în cazul Sitemap-ului, locația regulii nu afectează funcționarea robotului; aceasta poate fi indicată fie la începutul fișierului, fie la sfârșit.

O directivă gazdă specificată incorect este ignorată de robot.

Crawl-întârziere

Directiva Crawl-delay specifică timpul pe care roboții ar trebui să aștepte între încărcarea a două pagini. Această instrucțiune va reduce semnificativ sarcina de pe server dacă are probleme în procesarea cererilor.

Linia cu Crawl-delay trebuie să fie localizată după toate directivele cu Allow și Disallow.

Deoarece Google nu ia în considerare această regulă, există o altă metodă prin care Googlebot poate schimba viteza de accesare cu crawlere.

Clean-param

Pentru a exclude paginile de site care conțin parametri dinamici (GET) (de exemplu, sortarea produselor sau identificatorii de sesiune), utilizați directiva Clean-param.

De exemplu, există următoarele pagini:

https://mysite.com/shop/all/good1?partner_fid=3

https://mysite.com/shop/all/good1?partner_fid=4

https://mysite.com/shop/all/good1?partner_fid=1

Folosind datele de la Clean-param, robotul nu va reîncărca informații duplicate.

Caractere speciale $, *, /, #

Caracterul special * (asterisc) înseamnă orice succesiune de caractere. Adică, utilizarea unui asterisc va interzice accesul la toate adresele URL care conțin cuvântul „obmanki”.

Acest caracter special este plasat implicit la sfârșitul fiecărei linii.

Pentru a anula *, trebuie să specificați caracterul special $ (semnul dolar) la sfârșitul regulii.

Caracterul special / (slash) este folosit în fiecare directivă Allow și Disallow. Folosind o bară oblică, puteți refuza accesul la folder și conținutul acestuia /category/ sau la toate paginile care încep cu /category.

Simbol special # (hash).
Folosit pentru a comenta într-un fișier pentru dvs., utilizatori sau alți webmasteri. Roboții de căutare nu iau în considerare aceste informații.

Verificarea funcționării fișierului

Pentru a verifica erorile în fișierul robots.txt, puteți utiliza instrumente de la Google și/sau Yandex.

Cum se verifică robots.txt în Google Search Console?

Accesați instrumentul de verificare a fișierelor. Erorile și avertismentele vor fi evidențiate în conținutul robots.txt, iar numărul total va fi indicat sub fereastra de editare.

Pentru a verifica dacă o pagină este accesibilă unui robot, introduceți în fereastra corespunzătoare Adresa URL a paginiiși faceți clic pe butonul „verificare”. După verificare, instrumentul va afișa starea paginii: disponibilă sau indisponibilă.

Cum se verifică robots.txt în Yandex.Webmaster?

Pentru a verifica fișierul, trebuie să mergeți la „Instrumente” - „Analizați robots.txt”.

Aboneaza-te la newsletter-ul nostru