Txt robota za provjeru težine php datoteke

04.08.2021 Zanimljiv

Svakodnevno se pojavljuju na internetu gotova rješenja o jednom ili drugom pitanju. Nema novca za dizajnera? Koristite jedan od tisuća besplatni predlošci. Ne želite angažirati SEO stručnjaka? Koristite usluge poznatog besplatna usluga, pročitajte sami par članaka.

Već dugo vremena nema potrebe da sami pišete isti robots.txt od nule. Usput, ovo posebna datoteka, koji je dostupan na gotovo svim stranicama, a sadrži upute za robote za pretraživanje. Sintaksa naredbe je vrlo jednostavna, ali još uvijek ju je teško sastaviti vlastitu datoteku vrijeme će proći. Bolje pogledati na neko drugo mjesto. Ovdje postoji nekoliko upozorenja:

Stranica mora biti na istom motoru kao i vaša. U principu, danas postoji mnogo usluga na Internetu na kojima možete saznati naziv cms-a gotovo bilo kojeg web izvora.

Ovo bi trebala biti više-manje uspješna stranica koja ima sve u redu s prometom pretraživanja. Ovo sugerira da je robots.txt normalno sastavljen.

Dakle, da biste vidjeli ovu datoteku morate u adresnu traku upisati: naziv-domain.zone/robots.txt

Sve je nevjerojatno jednostavno, zar ne? Ako adresa nije pronađena, to znači da takva datoteka ne postoji na stranici ili joj je pristup odbijen. Ali u većini slučajeva vidjet ćete sadržaj datoteke ispred sebe:

U principu, čak i osoba koja nije posebno upućena u kod brzo će razumjeti što ovdje napisati. Allow naredba dopušta da se nešto indeksira, dok disallow naredba to zabranjuje. Korisnički agent je indikacija robota za pretraživanje kojima su upute upućene. Ovo je neophodno kada trebate navesti naredbe za zasebnu tražilicu.

Što učiniti sljedeće?

Kopirajte sve i promijenite za svoju stranicu. Kako promijeniti? Već sam rekao da se motori stranice moraju podudarati, inače nema smisla ništa mijenjati - trebate prepisati apsolutno sve.

Dakle, morat ćete proći kroz retke i odrediti koji su dijelovi prisutni na vašoj web stranici, a koji nisu. Na gornjoj snimci zaslona vidite primjer robots.txt za wordpress stranicu, a tu je i forum u zasebnom direktoriju. Zaključak? Ako nemate forum, sve ove retke morate izbrisati, jer takvi odjeljci i stranice jednostavno ne postoje za vas, zašto ih onda zatvoriti?

Najjednostavniji robots.txt mogao bi izgledati ovako:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Allow: /wp-content/uploads/

Korisnički agent: *

Onemogući: /wp - admin

Disallow: /wp - uključuje

Onemogući: /wp-content

Dopusti: /wp-content/uploads/

Svi vjerojatno znate standardnu ​​strukturu mapa u Wordpressu ako ste barem jednom instalirali ovaj mehanizam. To su mape wp-admin, wp-content i wp-includes. Obično su sve 3 zatvorene za indeksiranje jer sadrže čisto tehničke datoteke potrebne za rad motora, dodataka i predložaka.

Direktorij za uploads je otvoren jer sadrži slike, a one su obično indeksirane.

Uglavnom, morate proći kroz kopirani robots.txt i vidjeti što je zapravo na vašoj stranici, a što nije. Naravno, teško ćete to sami odrediti. Mogu samo reći da ako nešto ne izbrišete, onda je u redu, samo će biti dodatna linija, koja nikako ne šteti (jer nema odjeljka).

Je li postavljanje robots.txt toliko važno?

Naravno, morate imati ovu datoteku i barem zatvoriti glavne direktorije kroz nju. Ali je li njegova kompilacija kritična? Kao što praksa pokazuje, ne. Osobno vidim stranice na istim tražilicama s potpuno različitim robots.txt, koje se jednako uspješno promoviraju u tražilice Oh.

Ne tvrdim da možete napraviti neku grešku. Na primjer, zatvorite slike ili ostavite otvorenim nepotrebni direktorij, ali neće se dogoditi nešto super užasno. Prvo, jer su tražilice danas pametnije i mogu zanemariti neke naznake iz datoteke. Drugo, stotine članaka su napisane o postavljanju robots.txt i možete nešto razumjeti iz njih.

Vidio sam datoteke koje su imale 6-7 redaka koji su zabranjivali nekoliko direktorija da budu indeksirani. Vidio sam i datoteke sa stotinu-dvije linije koda, gdje je sve moguće zatvoreno. Oba su mjesta normalno napredovala.

WordPress ima takozvane duplikate. To je loše. Mnogi ljudi se bore protiv toga zatvaranjem sličnih duplikata poput ovog:

Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/

Onemogući: /wp-feed

Ovdje se treba drugačije boriti. Na primjer, korištenje preusmjeravanja ili dodataka koji će uništiti duplikate. Međutim, ovo je tema za poseban članak.

Gdje se nalazi robots.txt?

Ova se datoteka uvijek nalazi u korijenu stranice, tako da joj možemo pristupiti pisanjem adrese stranice i naziva datoteke odvojenih kosom crtom. Po mom mišljenju, sve je najjednostavnije moguće.

Općenito, danas smo pogledali pitanje kako pregledati sadržaj datoteke robots.txt, kopirati ga i promijeniti kako bi odgovarao vašim potrebama. Također ću napisati još 1-2 članka o postavljanju u bliskoj budućnosti, jer nismo sve pokrili u ovom članku. Usput, također možete pronaći mnogo informacija o promoviranju blog stranica u našem. I time se za sada opraštam od tebe.

Potrebno je samo navesti željeni URL. Nakon toga alat za provjeru obradit će datoteku robots.txt kao Googlebot i utvrditi je li pristup ovoj adresi blokiran.

Postupak provjere

  1. U Google Search Consoleu odaberite svoju stranicu, idite na alat za provjeru i pregledajte sadržaj datoteke robots.txt. Sintaktički I mozgalica greške u njemu bit će istaknute, a njihov broj je naznačen ispod prozora za uređivanje.
  2. Na dnu stranice sučelja navedite željeni URL u odgovarajućem prozoru.
  3. S padajućeg izbornika s desne strane odaberite robot.
  4. Pritisnite gumb ČEK.
  5. Prikazat će se status DOSTUPNO ili NIJE DOSTUPNO. U prvom slučaju, Google roboti mogu otići na adresu koju ste naveli, ali u drugom - ne.
  6. Ako je potrebno, napravite promjene u jelovniku i ponovite test. Pažnja! Ovi ispravci neće biti automatski dodani u datoteku robots.txt na vašoj web stranici.
  7. Kopirajte izmijenjeni sadržaj i dodajte ga u datoteku robots.txt na svom web poslužitelju.

Na što obratiti pozornost

  • Promjene napravljene u uređivaču ne spremaju se na web poslužitelj. Morate kopirati dobiveni kod i zalijepiti ga u datoteku robots.txt.
  • Alat za pregled datoteka Robots.txt daje rezultate samo za Google korisničke agente i robote specifične za Google (npr. Googleov robot bot). Ne možemo jamčiti da će drugi roboti za pretraživanje interpretirati sadržaj vaše datoteke na isti način.
Generator prodaje

Vrijeme za čitanje: 18 minuta

Ako pogriješite prilikom izrade datoteke robots.txt, može se pokazati da je beskorisna za pretraživanje robota. Postojat će rizik od netočnog prijenosa potrebnih naredbi robotima za pretraživanje, što će dovesti do smanjenja ocjena i promjene korisničkih pokazatelja virtualne platforme. Čak i ako stranica radi dobro i potpuna je, provjera datoteke robots.txt joj neće naškoditi, već će samo poboljšati njen rad.

Iz ovog članka ćete naučiti:

Zašto je potrebna provjera datoteke robots.txt?

Ponekad sustav uključuje nepotrebne stranice vašeg internetskog izvora u rezultate pretraživanja, što nije potrebno. Možda se čini da nema ništa loše u tome što imate previše stranica u indeksu tražilice, ali nema ništa loše u tome:

  • Na dodatnim stranicama korisnik ih neće pronaći korisna informacija Za sebe. S većim stupnjem vjerojatnosti te stranice uopće neće posjetiti ili se na njima neće dugo zadržati;
  • Rezultati tražilice sadrže iste stranice, čije su adrese različite (odnosno, sadržaj je dupliciran);
  • Roboti za pretraživanje moraju potrošiti puno vremena na indeksiranje potpuno nepotrebnih stranica. Umjesto indeksiranja koristan sadržaj beskorisno će lutati mjestom. Budući da robot ne može indeksirati cijeli resurs i to čini stranicu po stranicu (budući da ima mnogo stranica), potrebne informacije koje biste željeli primiti nakon provođenja zahtjeva možda se neće pronaći vrlo brzo;
  • Poslužitelj je jako opterećen.

U tom smislu, preporučljivo je blokirati pristup robota za pretraživanje nekim stranicama web resursa.

Za koje se datoteke i mape može zabraniti indeksiranje:

  1. Stranice pretraživanja. Ovo je kontroverzna točka. Ponekad je korištenje internog pretraživanja na web stranici neophodno kako bi se stvorile relevantne stranice. Ali to se ne radi uvijek. Često je rezultat pretraživanja pojava velikog broja dupliciranih stranica. Stoga se preporučuje zatvaranje stranica za pretraživanje radi indeksiranja.
  2. Košarica i stranica na kojoj je izvršena/potvrđena narudžba. Njihovo zatvaranje preporučuje se za web stranice za internetsko trgovanje i druge komercijalne izvore koji koriste obrazac za narudžbu. Vrlo je nepoželjno da te stranice budu uključene u indeks tražilice.
  3. Stranice paginacije. U pravilu ih karakterizira automatska registracija istih meta oznaka. Osim toga, koriste se za mjesto dinamički sadržaj, pa se duplikati pojavljuju u rezultatima pretraživanja. U tom smislu, paginacija bi trebala biti zatvorena za indeksiranje.
  4. Filtri i usporedba proizvoda. Internetske trgovine i kataloške stranice moraju ih zatvoriti.
  5. Stranice za registraciju i prijavu. Potrebno ih je zatvoriti zbog povjerljivosti podataka koje korisnici unose prilikom registracije ili autorizacije. Nedostupnost ovih stranica za indeksiranje procijenit će Google.
  6. Sistemski direktoriji i datoteke. Svaki resurs na Internetu sastoji se od mnoštva podataka (skripte, CSS tablice, administrativni dijelovi) koje ne bi smjeli pregledavati roboti.

Datoteka robots.txt pomoći će vam da zatvorite datoteke i stranice za indeksiranje.

robots.txt je normalan tekstualna datoteka, koji sadrži upute za robote za pretraživanje. Kada robot za pretraživanje dođe na web mjesto, prvo traži datoteku robots.txt. Ako nedostaje (ili je prazan), robot će otići na sve stranice i direktorije resursa (uključujući i sistemske) koji su slobodno dostupni i pokušati ih indeksirati. Međutim, ne postoji jamstvo da će stranica koja vam je potrebna biti indeksirana, jer možda neće stići tamo.

robots.txt vam omogućuje da robote za pretraživanje usmjerite na potrebne stranice, a ne na one koje ne bi trebale biti indeksirane. Datoteka može uputiti i sve robote odjednom i svakog posebno. Ako je stranica web-mjesta zatvorena za indeksiranje, nikada se neće pojaviti u rezultatima tražilice. Stvaranje datoteke robots.txt je bitno.

Lokacija datoteke robots.txt trebala bi biti poslužitelj, korijen vašeg resursa. Datoteka robots.txt bilo koje web stranice dostupna je za gledanje na internetu. Da biste ga vidjeli, trebate dodati /robots.txt nakon adrese resursa.

U pravilu se robots.txt datoteke različitih resursa razlikuju jedna od druge. Ako nepromišljeno kopirate datoteku s tuđeg web-mjesta, problemi će nastati kada roboti za pretraživanje indeksiraju vašu. Stoga je toliko potrebno znati čemu služi datoteka robots.txt i upute (naredbe) korištene za njezino stvaranje.


Pošaljite svoju prijavu

Kako robots.txt provjerava Yandex

  • Posebna usluga Yandex.Webmaster "Analiza robots.txt" pomoći će vam da provjerite datoteku. Možete ga pronaći na poveznici: http://webmaster.yandex.ru/robots.xml
  • U predloženi obrazac potrebno je unijeti sadržaj datoteke robots.txt koju je potrebno provjeriti ima li pogrešaka. Postoje dva načina unosa podataka:
    1. Idite na web mjesto pomoću veze http://your-site.ru/robots.txt, kopirajte sadržaj u prazno polje usluge (ako ne postoji datoteka robots.txt, svakako je trebate stvoriti!);
    2. Zalijepite vezu na datoteku koju provjeravate u polje "Host Name", kliknite "Download robots.txt from site" ili Enter.
  • Provjera se pokreće klikom na naredbu “Provjeri”.
  • Nakon pokretanja skeniranja možete analizirati rezultate.

Nakon što skeniranje započne, analizator analizira svaki redak sadržaja u tekstualnom polju Robots.txt i analizira direktive koje sadrži. Osim toga, znat ćete hoće li robot indeksirati stranice iz polja "List of URLs".

Možete stvoriti robots.txt datoteku prikladnu za vaš resurs uređivanjem pravila. Ne zaboravite da sama datoteka resursa ostaje nepromijenjena. Bit će potrebno samostalno preuzimanje kako bi promjene stupile na snagu. nova verzija datoteku na mjesto.

Prilikom provjere direktiva odjeljaka koji su namijenjeni Yandex robotu (Korisnički agent: Yandex ili User-agent:*), analizator se vodi pravilima za korištenje robots.txt. Preostali dijelovi provjeravaju se u skladu sa zahtjevima standarda. Kada analizator analizira datoteku, prikazuje poruku o pronađenim pogreškama, upozorava ako postoje netočnosti u pisanju pravila i navodi koji su dijelovi datoteke namijenjeni robotu Yandex.

Analizator može slati dvije vrste poruka: greške i upozorenja.

Prikazuje se poruka o pogrešci ako bilo koji redak, odjeljak ili cijelu datoteku ne može obraditi analizator zbog prisutnosti ozbiljnih sintaktičkih pogrešaka koje su napravljene prilikom sastavljanja direktiva.

Upozorenje obično izvješćuje o odstupanju od pravila koje analizator ne može ispraviti ili potencijalnom problemu (možda se i ne pokaže), čiji je uzrok slučajna tipfeler ili netočno sastavljena pravila.

Poruka o pogrešci "Ovaj URL ne pripada vašoj domeni" označava da popis URL-ova sadrži adresu jednog od ogledala vašeg resursa, na primjer, http://example.com umjesto http://www.example .com (formalno su ti URL-ovi različiti). Potrebno je da se adrese koje se provjeravaju odnose na stranicu čija se robots.txt datoteka analizira.

Kako se robots.txt provjerava u Googleu

Alat Google Search Console omogućuje vam da provjerite sprječava li vaša datoteka robots.txt Googlebot da indeksira određene URL-ove na vašem posjedu. Na primjer, imate sliku koju ne želite vidjeti u rezultatima Rezultati pretraživanja Google slike. Pomoću alata saznat ćete ima li Googlebot-Image pristup ovoj slici.

Da biste to učinili, navedite URL od interesa. Nakon toga, datoteku robots.txt obrađuje alat za provjeru, slično ovjeri Googlebot robota. Time je moguće utvrditi je li ta adresa dostupna.

Postupak provjere:

  • Nakon što odaberete svoje vlasništvo u Google Search Consoleu, idite na alat za provjeru, koji će vam dati sadržaj datoteke robots.txt. Označeni tekst je sintaktička ili logička pogreška. Njihov broj naveden je ispod prozora za uređivanje.
  • Na dnu stranice sučelja vidjet ćete poseban prozor u koji trebate unijeti URL.
  • Desno će se pojaviti izbornik iz kojeg trebate odabrati robota.
  • Kliknite na gumb "Provjeri".
  • Ako provjera rezultira porukom s tekstom "dostupno", to znači da Google roboti smiju posjetiti navedenu stranicu. Status "nedostupan" znači da robotima nije dopušten pristup.
  • Ako je potrebno, možete promijeniti izbornik i novi ček. Pažnja! Automatske promjene datoteke robots.txt na vašem resursu neće se dogoditi.
  • Kopirajte promjene i dodajte ih u datoteku robots.txt na svom web poslužitelju.

Na što morate obratiti pozornost:

  1. Promjene napravljene u uređivaču ne spremaju se na web poslužitelju. Morat ćete kopirati rezultirajući kod i zalijepiti ga u datoteku robots.txt.
  2. Samo Googleovi korisnički agenti i roboti povezani s Googleom (kao što je Googlebot) mogu primati rezultate pregleda datoteke robots.txt alata. Međutim, nema jamstva da će roboti drugih tražilica interpretirati sadržaj vaše datoteke na sličan način.

15 grešaka prilikom provjere datoteke robots.txt

Pogreška 1: Pobrkane upute

Najčešća pogreška u datoteci robots.txt su pomiješane upute. npr.:

  • Korisnički agent: /
  • Zabrani: Yandex

Ispravna opcija je:

  • Korisnički agent: Yandex
  • Zabrani: /

Pogreška 2: Određivanje više direktorija u jednoj izjavi Disallow

Često vlasnici internetskih izvora pokušavaju navesti sve direktorije čije indeksiranje žele spriječiti u jednoj izjavi Disallow.

Onemogući: /css/ /cgi-bin/ /slike/

Takva snimka ne zadovoljava zahtjeve standarda, nemoguće je predvidjeti kako će je obraditi različiti roboti. Neki od njih mogu zanemariti razmake. Njihovo bi tumačenje unosa bilo: “Disallow: /css/cgi-bin/images/”. Drugi mogu koristiti samo prvu ili posljednju mapu. Drugi pak mogu potpuno odbaciti upute bez da ih razumiju.

Postoji mogućnost da će obrada ovog dizajna biti upravo onakva kakvu je majstor očekivao, ali ipak je bolje napisati ispravno:

  • Onemogući: /css/
  • Onemogući: /cgi-bin/
  • Zabrani: /slike/

Greška 3. Naziv datoteke sadrži velika slova

Ispravan naziv datoteke je robots.txt, a ne Robots.txt ili ROBOTS.TXT.

Pogreška 4: Pisanje naziva datoteke kao robot.txt umjesto robots.txt

Zapamtite, ispravan naziv datoteke je robots.txt.

Greška 5. Ostavljanje retka User-agent praznog

Netočna opcija:

  • Korisnički agent:
  • Zabrani:
  • Korisnički agent: *
  • Zabrani:

Pogreška 6. Zapisivanje URL-a u direktivi Host

URL mora biti naveden bez upotrebe kratice Hypertext Transfer Protocol (http://) ili kose crte na kraju (/).

Nevažeći unos:

Ispravna opcija:

Ispravna upotreba host direktive je samo za Yandex robota.

Pogreška 7: korištenje zamjenskih znakova u izjavi Disallow

Ponekad, za popis svih datoteka file1.html, file2.html, file3.html, itd., webmaster može napisati:

  • Korisnički agent: *
  • Zabrani: datoteka*.html

Ali to se ne može učiniti jer neki roboti ne podržavaju zamjenske znakove.

Pogreška 8. Korištenje jednog retka za pisanje komentara i uputa

Standard dopušta sljedeće unose:

Disallow: /cgi-bin/ #onemogući robotima indeksiranje cgi-bin

Ranije je obrada takvih nizova bila nemoguća za neke robote. Možda trenutačno nijedna tražilica neće imati problema s tim, no isplati li se riskirati? Bolje je staviti komentare u poseban redak.

Pogreška 9. Preusmjeri na stranicu s pogreškom 404

Često, ako stranica nema datoteku robots.txt, kada je zatražite, tražilica će preusmjeriti na drugu stranicu. Ponekad ovo ne vraća status 404 Nije pronađeno. Robot mora sam shvatiti je li primio robots.txt ili običnu html datoteku. To nije problem, ali je bolje ako se nalazi u korijenu stranice prazna datoteka roboti.txt.

Pogreška 10: Korištenje velikih slova je znak lošeg stila

KORISNIČKI AGENT: GOOGLEBOT

Iako standard ne regulira osjetljivost na velika i mala slova datoteke robots.txt, to je često slučaj za nazive datoteka i direktorija. Osim toga, ako je datoteka robots.txt potpuno napisana velikim slovima, onda se to smatra lošim stilom.

Korisnički agent: googlebot

Pogreška 11: Ispisivanje svih datoteka

Bilo bi netočno navesti svaku datoteku u direktoriju zasebno:

  • Korisnički agent: *
  • Zabrani: /AL/Alabama.html
  • Zabrani: /AL/AR.html
  • Zabrani: /Az/AZ.html
  • Zabrani: /Az/bali.html
  • Zabrani: /Az/bed-breakfast.html

Ispravan pristup bio bi blokirati indeksiranje cijelog imenika:

  • Korisnički agent: *
  • Zabrani: /AL/
  • Zabrani: /Az/

Pogreška 12. Korištenje dodatnih direktiva u odjeljku *

Neki roboti možda neće ispravno reagirati kada se koriste dodatne upute. Stoga je njihova upotreba u odjeljku "*" nepoželjna.

Ako direktiva nije standardna (kao što je "Host"), bolje je stvoriti poseban odjeljak za nju.

Netočna opcija:

Ispravno bi bilo napisati:

Greška 13. Nedostaje uputa Disallow

Čak i ako želite koristiti dodatnu direktivu i ne postaviti nikakvu zabranu, preporuča se navesti prazan Disallow. Standard navodi da je uputa Disallow obavezna; ako je nema, robot vas može "pogrešno razumjeti".

Pogrešno:

Pravo:

Pogreška 14. Ne koristite kose crte prilikom navođenja direktorija

Što će robot učiniti u ovom slučaju?

  • Korisnički agent: Yandex
  • Zabrani: john

Prema standardu, indeksiranje se neće provesti ni za datoteku ni za direktorij pod nazivom "john". Da biste naveli samo imenik, trebate napisati:

  • Korisnički agent: Yandex
  • Zabrani: /john/

Pogreška 15. Neispravno napisano HTTP zaglavlje

Poslužitelj bi trebao vratiti "Content-Type: text/plain" u HTTP zaglavlju za robots.txt, a ne, na primjer, "Content-Type: text/html". Ako je zaglavlje neispravno napisano, neki roboti neće moći obraditi datoteku.

Kako ispravno sastaviti datoteku tako da provjera robots.txt ne otkriva pogreške

Što bi trebalo biti ispravna datoteka robots.txt za internetski resurs? Pogledajmo njegovu strukturu:

1. Korisnički agent

Ova direktiva je glavna; ona određuje za koje robote su pravila napisana.

Ako za bilo kojeg robota, pišemo:

Ako je za određenog bota:

Korisnički agent: GoogleBot

Vrijedno je napomenuti da velika i mala slova nisu bitna u robots.txt. Na primjer, korisnički agent za Google može se napisati ovako:

korisnički agent: googlebot

Ovdje je tablica glavnih korisničkih agenata raznih tražilica.

Googleov glavni robot za indeksiranje

Google vijesti

Google slike

Mediapartners-Google

Google AdSense, Google Mobile AdSense

provjera kvalitete odredišne ​​stranice

AdsBot-Google-Mobile-Apps

Googlebot za aplikacije

Yandexov glavni robot za indeksiranje

Yandex.Slike

Yandex.Video

multimedijski podaci

robot za pretraživanje blogova

robot koji pristupa stranici kada je dodaje putem obrasca “Dodaj URL”.

robot koji indeksira ikone web stranica (favicons)

Yandex.Direct

Yandex.Metrica

Yandex.Katalog

Yandex.Vijesti

YandexImageResizer

robot mobilne usluge

Bingov glavni robot za indeksiranje

glavni robot za indeksiranje Yahoo!

glavni robot za indeksiranje Mail.Ru

2. Zabrani i Dopusti

Disallow vam omogućuje da zabranite indeksiranje stranica i odjeljaka internetskog izvora.

Allow se koristi za njihovo prisilno otvaranje za indeksiranje.

Ali ih je prilično teško koristiti.

Prije svega, morate se upoznati s dodatni operatori i pravila za njihovu upotrebu. To uključuje: *, $ i #.

  • * - bilo koji broj znakova, čak i njihov nedostatak. Ovaj operator nije potrebno staviti na kraj retka, pretpostavlja se da je tamo standardno;
  • $ - označava da znak ispred njega mora biti posljednji;
  • # - ovaj operator služi za označavanje komentara; sve informacije nakon njega robot ne uzima u obzir.

Kako koristiti ove operatore:

  • Zabrani: *?s=
  • Zabrani: /kategorija/$

Drugo, morate razumjeti kako se izvršavaju pravila uključena u datoteku robots.txt.

Nije bitno kojim su redoslijedom direktive napisane. Određivanje nasljeđivanja pravila (što otvoriti ili zatvoriti iz indeksiranja) provodi se prema navedenim imenicima. Navedimo primjer.

Dopusti: *.css

Zabrani: /predložak/

Ako trebate otvoriti sve .css datoteke za indeksiranje, morat ćete to dodatno navesti za svaku mapu kojoj je pristup zabranjen. U našem slučaju:

  • Dopusti: *.css
  • Dopusti: /template/*.css
  • Zabrani: /predložak/

Podsjetimo vas još jednom: nije važno kojim su redoslijedom direktive napisane.

3. Sitemap

Ova direktiva navodi stazu do datoteke XML Sitemap. URL izgleda isto kao što se pojavljuje u adresnoj traci.

Direktiva Sitemap može se specificirati bilo gdje u datoteci robots.txt, bez potrebe da se veže uz određeni korisnički agent. Dopušteno vam je navesti više pravila Sitemapa.

Ova direktiva specificira glavno ogledalo izvora (obično sa ili bez www). Zapamtite: kada navodite glavno ogledalo, ne piše se http://, već https://. Ako je potrebno, luka je također naznačena.

Ovu direktivu mogu podržati samo Yandex i Mail.Ru botovi. Drugi roboti, uključujući GoogleBot, ne uzimaju u obzir ovu naredbu. Host možete registrirati samo jednom!

5. Puzanje-odgoda

Omogućuje vam da postavite vremensko razdoblje nakon kojeg robot treba preuzeti stranice resursa. Direktivu podržavaju roboti iz Yandexa, Mail.Ru, Binga, Yahooa. Prilikom postavljanja intervala možete koristiti i cjelobrojne i razlomljene vrijednosti, koristeći točku kao razdjelnik. Mjerna jedinica je sekunda.

Odgoda indeksiranja: 0,5

Ako je opterećenje na mjestu malo, nema potrebe postavljati ovo pravilo. Ali ako je rezultat robotskog indeksiranja stranica prekoračenje ograničenja ili ozbiljno povećanje opterećenja, što dovodi do prekida u radu poslužitelja, tada je preporučljivo koristiti ovu direktivu: ona vam omogućuje smanjenje opterećenja.

Što je duži interval koji postavite, to će biti manji broj preuzimanja tijekom jedne sesije. Optimalna vrijednost za svaki resurs je različita. U početku se preporuča postaviti male vrijednosti (0,1, 0,2, 0,5), a zatim ih postupno povećavati. Za robote tražilice koji nisu osobito važni za rezultate promocije (na primjer, Mail.Ru, Bing i Yahoo), možete odmah postaviti vrijednosti veće nego za Yandex robote.

6. Clean-param

Ova je direktiva potrebna kako bi se indeksirao (robot za pretraživanje) obavijestilo da je indeksiranje URL-ova s ​​navedenim parametrima nepotrebno. Pravilo zahtijeva dva argumenta: parametar i URL odjeljka. Yandex podržava direktivu.

http://site.ru/articles/?author_id=267539 - neće biti indeksirano

http://site.ru/articles/?author_id=267539&sid=0995823627 - neće biti indeksirano

Clean-Param: utm_source utm_medium utm_campaign

7. Ostali parametri

Proširena specifikacija robots.txt također sadrži sljedeće parametre: Request-rate i Visit-time. Ali trenutno nema podrške za njih od strane vodećih tražilica.

Direktive su potrebne za sljedeće:

  • Stopa zahtjeva: 1/5 - dopušta učitavanje ne više od 1 stranice u 5 sekundi
  • Vrijeme posjete: 0600-0845 - dopušta učitavanje stranice samo od 6 do 8:45 GMT

Za ispravne postavke U datoteci robots.txt preporučujemo korištenje sljedećeg algoritma:

2) Zabranite robotima pristup osobni račun, stranice za autorizaciju i registraciju;

4) Zatvorite ajax i json skripte iz indeksiranja;

6) Zabraniti indeksiranje dodataka, tema, js, css za robote svih tražilica osim Yandexa i Googlea;

7) Blokirajte robotima pristup funkciji pretraživanja;

8) Zabraniti indeksiranje odjeljaka servisa koji nisu vrijedni za traženi izvor (pogreška 404, popis autora);

9) Blokirajte od indeksiranja tehničke duplicirane stranice i stranice čiji sadržaj u jednoj ili drugoj mjeri duplicira sadržaj drugih stranica (kalendari, arhive, RSS);

12) Koristite parametar “site:” da provjerite što su Yandex i Google indeksirali. Da biste to učinili, unesite "site:site.ru" u traku za pretraživanje. Ako u rezultatima pretraživanja postoje stranice koje ne moraju biti indeksirane, dodajte ih u robots.txt;

13) Zapišite Sitemap i Host pravila;

14) Ako je potrebno, odredite Crawl-Delay i Clean-Param;

15) Provjerite ispravnost datoteke robots.txt pomoću alata Google i Yandex;

16) Nakon 14 dana ponovno provjerite da u rezultatima tražilice nema stranica koje ne bi trebale biti indeksirane. Ako postoji, ponovite sve gore navedene točke.

Provjera datoteke robots.txt ima smisla samo ako je vaša web-lokacija zdrava. Revizija mjesta koju provode kvalificirani stručnjaci pomoći će u utvrđivanju toga.

Nadamo se da će vam naš članak o poslovnim idejama biti koristan. A ako ste već odlučili o smjeru svoje aktivnosti i aktivno se bavite razvojem, savjetujemo vam da prođete reviziju stranice kako biste predstavili stvarnu sliku mogućnosti vašeg resursa.


Niz ( => 21 [~ID] => 21 => 28.09.2019 13:01:03 [~TIMESTAMP_X] => 28.09.2019 13:01:03 => 1 [~MODIFIED_BY] => 1 => 21.09. 2019 10:35:17 [~DATE_CREATE] => 21.09.2019 10:35:17 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Članci Dmitrija Svistunova [~NAME] => Članci Dmitrija Svistunova => 11076 [ ~PICTURE] => 11076 => 7 [~LEFT_MARGIN] => 7 => 8 [~RIGHT_MARGIN] => 8 => 1 [~DEPTH_LEVEL] => 1 => Dmitrij Svistunov [~DESCRIPTION] => Dmitrij Svistunov => tekst [~DESCRIPTION_TYPE ] => tekst => Članci Dmitrija Svistunova Dmitrija Svistunova [~SEARCHABLE_CONTENT] => Članci Dmitrija Svistunova Dmitrija Svistunova => statyi-dmitriya-svistunova [~CODE] => statyi-dmitriya-svistunova => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=21 [~SECTION_PAGE_URL] => /blog/list.php?SECTION_ID=21 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE ] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)

Bok opet! U nastavku bih želio istaknuti takav aspekt kao što je provjera prava pristupa robota za pretraživanje stranicama web mjesta. Drugim riječima, ima li pretraživački robot pravo indeksirati stranicu i staviti je u rezultate pretraživanja?

Zašto je to potrebno i gdje može biti korisno? Glavna praktična primjena je provjera direktiva koje blokiraju pristup odjeljcima ili pojedinačne stranice mjesto, tj. Provjeravanje smije li se stranica indeksirati ili ne. Osim robota, mogu se koristiti i druge metode za ograničavanje pristupa, na primjer.htaccess, noindex meta tag.

Ponekad se dogodi da početnik autor bloga ili administrator stranice ne razumije u potpunosti kako kompajlirati robota i nije siguran je li sve napravio ispravno - oni dolaze u pomoć prikladni alati za provjeru. Pogledajmo primjere, a ti današnji alati su Analiza robots.txt i Prikaz kao Googlebot u Yandexu odnosno Googleu.

Analiza robots.txt u Yandex

Da biste provjerili pristup Yandex robota stranici, trebali biste upotrijebiti alat koji se zove Robots.txt Analysis iz ploče Yandex Webmaster. Možete ga pronaći putem poveznice na glavnoj stranici YaV panela.

U polje Hostname morate unijeti adresu početna stranica i kliknite na gumb Download robots.txt sa stranice, nakon čega će se sadržaj datoteke prikazati u tekstualnom polju ispod. Sljedeći korak je dodavanje popisa URL-ova - jedna adresa po retku i klik na gumb za potvrdu. Još niže će se pojaviti rezultat provjere URL-a - pristup je dopušten ili odbijen. Na taj način možete provjeriti jesu li upute robota ispravno obrađene i jesu li sve nepotrebne stranice blokirane za indeksiranje.

Pogledaj kao Googlebot

Za provjeru pristupa Googleova robota stranicama koristit ćemo sličan alat iz paneli za webmastere koji se zove Pogledaj kao Googlebot. U tekstualno polje unesite adresu stranice, odaberite vrstu tražilice i kliknite gumb Dohvati sadržaj. Nakon nekoliko sekundi, zahtjev će biti obrađen i bit će prikazan status primitka - uspješan ili odbijen u datoteci robots.txt. Postoji ograničenje pregleda stranica: 500 adresa svakih deset dana.

Relativno nedavno se pojavila funkcija Pošalji u indeks - stranica koja je poslana na pregled može se poslati na indeksiranje. Kada kliknete na odgovarajuću poveznicu, otvorit će se prozor s pravom izbora koji se sastoji od dvije opcije: poslati samo ovaj URL na indeksiranje ili URL i sve povezane stranice.

U ovom ćemo članku pogledati:

Što je robots.txt?

Robots.txt je tekstualna datoteka koja sadrži preporuke za radnje robota za pretraživanje. Ova datoteka sadrži upute (naredbe) pomoću kojih možete ograničiti pristup robota za pretraživanje određenim mapama, stranicama i datotekama, postaviti brzinu skeniranja stranice, odrediti glavno ogledalo ili adresu karte stranice.

Roboti za pretraživanje indeksiraju web mjesto tražeći datoteku robots. Ne postoji datoteka kritična greška. U ovom slučaju roboti vjeruju da za njih nema ograničenja i da mogu u potpunosti skenirati stranicu.
Datoteka mora biti smještena u korijenski direktorij stranice i biti dostupna na https://mysite.com/robots.txt.

Upute Robot Exception Standarda su savjetodavne prirode i nisu izravne naredbe robotima. Odnosno, postoji mogućnost da čak i ako zatvorite stranicu u robots.txt, ona svejedno završi u indeksu.

Naredbe u datoteci morate naznačiti samo latinicom, korištenje ćirilice je zabranjeno. Rusi imena domena može se pretvoriti pomoću Punycode kodiranja.

Što treba blokirati za indeksiranje u robots.txt?

  • stranice s osobnim podacima korisnika;
  • košaricu i usporedbu proizvoda;
  • dopisivanje korisnika;
  • administrativni dio stranice;
  • skripte.

Kako kreirati robots.txt?

Možete stvoriti datoteku u bilo kojem uređivač teksta(bilježnica, TextEdit itd.). Datoteku robots.txt za mrežno mjesto možete stvoriti pomoću generatora datoteka kao što je servisni alat.

Je li robots.txt potreban?

Registriravši se ispravne upute, botovi neće uzalud trošiti svoj budžet za indeksiranje (broj URL-ova koje robot za pretraživanje može indeksirati u jednom indeksiranju) na indeksiranje beskorisnih stranica, već će indeksirati samo stranice koje su potrebne za pretraživanje. Osim toga, poslužitelj neće biti preopterećen.

Robots.txt direktive

Datoteka robota sastoji se od glavnih direktiva: User-agent i Disallow i dodatnih: Allow, Sitemap, Host, Crawl-delay, Clean-param. U nastavku ćemo analizirati sva pravila, zašto su potrebna i kako ih ispravno napisati.

User-agent - pozdrav s robotom

Postoji mnogo robota koji mogu indeksirati web stranicu. Najpopularniji su roboti za tražilice Google sustavi i Yandex.

Google roboti:

  • Googlebot;
  • Googlebot-Video;
  • Googlebot-Novosti;
  • Googlebotova slika.

Yandex roboti:

  • YandexBot;
  • YandexDirect;
  • YandexDirectDyn;
  • YandexMedia;
  • YandexImages;
  • YaDirectFetcher;
  • YandexBlogs;
  • YandexNews;
  • YandexPagechecker;
  • YandexMetrika;
  • YandexMarket;
  • YandexCalendar.

Direktiva korisničkog agenta označava kojem robotu su upute upućene.
Za pristup svim robotima samo napišite sljedeći redak u datoteku:

Da biste kontaktirali određenog robota, na primjer Google, morate unijeti njegovo ime u ovaj redak:

Za razliku od Googlea, kako ne biste propisivali pravila za svakog Yandex robota, možete navesti sljedeće u korisničkom agentu:

U RuNetu je uobičajeno pisati upute za dva korisnička agenta: za sve i zasebno za Yandex.

Disallow i Allow direktive

Kako biste spriječili robota da pristupi web-mjestu, imeniku ili stranici, koristite Disallow.

Kako primijeniti Disallow pravilo u različitim situacijama

Blokirajte indeksiranje cijele stranice: Koristite kosu crtu (/) da biste blokirali pristup cijeloj stranici.

Vrijedno je potpuno blokirati pristup robotima u ranim fazama rada s web mjestom, tako da se u rezultatima pretraživanja pojavljuje već spreman.

Blokirajte pristup mapi i njezinom sadržaju: Koristite kosu crtu nakon naziva mape.

Zatvorite određenu stranicu ili datoteku: Navedite URL bez hosta.

Podijeli stranicu s zatvorena mapa : Nakon Disallow, koristite Allow pravilo.

Zabrani pristup datotekama jedne vrste: kako biste spriječili indeksiranje datoteka iste vrste, koristite posebni znakovi* i $.

Adresa karte web stranice u robots.txt

Ako stranica ima Datoteka karte web mjesta, navedite adresu u odgovarajućoj direktivi. Ako postoji nekoliko karti stranica, zapišite ih sve.

Ovo pravilo uzimaju u obzir roboti bez obzira na njegovu lokaciju.

Direktiva hosta za Yandex

UPD: 20. ožujka Yandex je službeno najavio ukidanje Host direktive. Više o tome možete pročitati u Yandex blogu za webmastere Što sada učiniti s Host direktivom:

  • ukloniti iz robots.txt;
  • ostavi - robot će to ignorirati.

U oba slučaja morate postaviti 301 preusmjeravanje.

Yandex roboti podržavaju robots.txt s naprednim mogućnostima. Uputa Host jedna je od njih. Označava glavno ogledalo stranice.

Važno:

  • 1. koristite www (ako adresa stranice tako počinje);
  • 2. koristiti HTTPS (ako je stranica na sigurnom protokolu, ako nije, HTTP se može izostaviti).

Kao i kod Sitemapa, mjesto pravila ne utječe na rad robota; može se naznačiti na početku ili na kraju datoteke.

Robot ignorira pogrešno navedenu direktivu hosta.

Odgoda puzanja

Direktiva Crawl-delay određuje vrijeme koje roboti trebaju čekati između učitavanja dviju stranica. Ova će uputa značajno smanjiti opterećenje poslužitelja ako ima problema s obradom zahtjeva.

Redak s Crawl-delay mora se nalaziti nakon svih direktiva s Allow i Disallow.

Budući da Google ne uzima u obzir ovo pravilo, postoji druga metoda kojom Googlebot može promijeniti brzinu indeksiranja.

Clean-param

Da biste isključili stranice web-mjesta koje sadrže dinamičke (GET) parametre (na primjer, sortiranje proizvoda ili identifikatore sesije), upotrijebite direktivu Clean-param.

Na primjer, postoje sljedeće stranice:

https://mysite.com/shop/all/good1?partner_fid=3

https://mysite.com/shop/all/good1?partner_fid=4

https://mysite.com/shop/all/good1?partner_fid=1

Koristeći podatke iz Clean-parama, robot neće ponovno učitati duple informacije.

Posebni znakovi $, *, /, #

Poseban znak * (zvjezdica) označava bilo koji niz znakova. Odnosno, korištenje zvjezdice zabranit će pristup svim URL-ovima koji sadrže riječ "obmanki".

Ovaj posebni znak postavlja se prema zadanim postavkama na kraj svakog retka.

Za poništavanje * morate navesti poseban znak $ (znak dolara) na kraju pravila.

Poseban znak / (kosa crta) koristi se u svakoj naredbi Dopusti i Zabrani. Koristeći kosu crtu, možete zabraniti pristup mapi i njenom sadržaju /kategorija/ ili svim stranicama koje počinju s /kategorija.

Poseban simbol # (hash).
Koristi se za komentiranje u datoteci za sebe, korisnike ili druge webmastere. Roboti za pretraživanje ne uzimaju u obzir ove informacije.

Provjera rada datoteke

Za provjeru pogrešaka u datoteci robots.txt možete koristiti alate Googlea i/ili Yandexa.

Kako provjeriti robots.txt u Google Search Consoleu?

Idite na alat za provjeru datoteke. Pogreške i upozorenja bit će istaknuti u sadržaju datoteke robots.txt, a ukupan broj bit će prikazan ispod prozora za uređivanje.

Kako biste provjerili je li stranica dostupna robotu, unesite u odgovarajući prozor URL stranice i kliknite gumb "provjeri". Nakon provjere, alat će prikazati status stranice: dostupna ili nedostupna.

Kako provjeriti robots.txt u Yandex.Webmasteru?

Da biste provjerili datoteku, morate otići na "Alati" - "Analiziraj robots.txt".

Pretplatite se na naše obavijesti