Căutăm un full-stack developer. Aplică acum!
Căutăm un full-stack developer. Aplică acum!
Scris pe 22 septembrie, 2016
3 min timp de citire

Fisierul Robots.txt – Utilitate

Ce reprezinta fisierul robots.txt?

Fisierul robots.txt este un simplu fisier text plasat pe server, care indica webcrawlers ca Googlebot, daca sa acceseze, sau nu, un fisier de pe site-ul tau. Fisierul foloseste un protocol care contine un set restrans de comenzi prin intermediul carora setezi accesul la diferite sectiuni ale site-ului tau.

Robots.txt functionare

Exemplu continut fisier robots.txt:

User-agent: *

Disallow: /folder/

Disallow: /file.html

Disallow: /image.png

Acces full:

                      User-agent: * 

                      Disallow:

Blocheaza tot accesul:

                                             User-agent: *

                                             Disallow: /

Blocheaza un fisier:

                                            User-agent: *

                                            Disallow: /file.html

Blocheaza un folder:

                                          User-agent: *

                                          Disallow: /folder/

Spiders – Indexare Web

Primul lucru pe care-l citeste/cauta un spider ca Googlebot cand viziteaza o pagina web, este fisierul robots.txt. Aici afla daca are permisiunea de a accesa pagina sau fisierul din pagina.

Mai pe scurt, in fiserul robots.txt spider-ul gaseste instructiunile de acces al fisierelor/paginii site-ului.

Cum sa verifici daca site-ul tau contine fisierul robots.txt

Este foarte simplu, fisierul robots.txt este intotdeauna localizat in acelasi loc, pe oricare site, deci este usor de determinat existenta lui pe site. Trebuia doar adaugat “/robots.txt” la sfarsitul domeniului, ca in exemplu: www.baboon.ro/robots.txt

Aici vei: gasi un fisier (robots.txt) care contine niste cuvinte (exemplificate mai sus), vei gasi un fisier fara continut, sau poate fi posibil ca link-ul sa nu functioneze, iar fisierul robots.txt sa fie absent.

Motive pentru care site-ul tau ar trebui sa contina fisierul robots.txt

  • doresti ca nu tot continutul tau sa fie vizibil pe motoarele de cautare
  • folosesti link-uri platite sau reclame care necesita instructiuni speciale pentru robots
  • creezi un site care e live, dar nu doresti ca motoarele de cautare sa-l indexeze inca
  • te ajuta sa urmaresti instructiuni Google, in situatii aparte

Daca site-ul tau nu contine fisierul robots.txt, robotii motoarelor de cautare ca Googlebot, vor avea acces total asupra site-ului.

Cum sa creezi un fisier robots.txt

Robots.txt este un fisier de tip text, dupa cum se si observa din extensia lui, ceea ce inseamna ca poate fi editat cu orice text editor doresti. Poti chiar sa-i dai copy/paste, fara sa fii nevoit sa-l tastezi tu.

In functie de ceea ce doresti, fisierul ar trebui sa contina urmatorul text:

User-agent: *                                                            

Disallow:

Permite accesul robotilor la toate fisierele siteului.

User-agent: *

Disallow: /

Blocheaza accesul robotilor la toate fisierele siteului

Toate aceste instructiuni, au ca posibil rezultat unul dintre urmatoarele:

  • Acces full. Tot continutul va fi crawled
  • Acces blocat. Continutul nu va fi crawled
  • Conditiile din robots.txt, vor determina care/cat continut sa fie crawled

Este importanta cunoasterea functionarii si folosirii fisierului robots.txt, deoarece, cand faci SEO on page pentru site-ul tau, iti permite sa selectezi si sa alegi ce continut sa fie, sau nu, indexat de motoarele de cautare. Asigura-te ca nu blochezi pagini sau continut, de care Google are nevoie pentru a face rank-up paginilor tale.

 

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Începe Proiectul TăuStart your Project