Robots.txt e SEO: tudo o que você precisa saber

compartilhe esse post

O Robots.txt é um dos arquivos mais simples dentro de um site. Mas também pode ser um dos mais problemáticos. 

Isso acontece porque uma simples troca de um caractere pode fazer com que o Google não encontre mais o seu conteúdo para mostrar aos usuários. Dessa forma, isso vai prejudicar muito o SEO que você construiu.

Pensando na importância deste assunto, neste texto você vai aprender sobre:

  1. O que é um arquivo Robots.txt
  2. Como reconhecer um arquivo Robots.txt
  3. Você realmente precisa de um arquivo Robots.txt?
  4. Como encontrar o arquivo Robots.txt do seu site
  5. Como criar um arquivo Robots.txt
  6. Quais são as boas práticas de uso do arquivo Robots.txt
  7. Exemplos de arquivos Robots.txt
  8. Como encontrar erros em um arquivo Robots.txt
  9. FAQs

1. O que é um arquivo Robots.txt

O Robots.txt é um arquivo hospedado na raiz de um site. Este arquivo de texto conta com instruções, direcionadas aos robôs do Google e outros buscadores.

Neste arquivo você deve informar três pontos principais:

  1. Quais diretórios não devem ser rastreados pelos motores de busca;
  2. Arquivos que não devem ser indexados;
  3. O mapa do site com as URLs que devem ser rastreadas pelo Google.

Considerando todas essas informações, um arquivo Robots.txt não revisado é um grande risco. O que acontece é que o site pode acabar não aparecendo para os usuários. 

Isso porque quando o site está sendo criado, os programadores adicionam a seguinte configuração ao Robots.txt:

 

User-agent: *

Disallow: /

 

Nesse caso, o arquivo está dizendo para todos os robôs (user-agent: *) que não realizem o rastreamento de páginas do site (com o comando disallow: /). Por isso, quando o site for lançado essa instrução precisa ser alterada. Caso contrário o site não será encontrado.

O Google tem uma página dedicada ao Robots.txt, acesse clicando aqui.

 

2. Como reconhecer um arquivo Robots.txt

Um arquivo Robots.txt é escrito da seguinte forma:

 

Sitemap: [URL location of sitemap]

 

User-agent: [bot identifier]

[directive 1]

[directive 2]

[directive …]

 

User-agent: [another bot identifier]

[directive 1]

[directive 2]

[directive …]

 

Em resumo, o que deve ser feito é adicionar regras para os robôs determinando qual é o user-agent e quais são as diretivas.

User-agent

O user-agent é o campo no qual você deve definir para qual robô a regra na sequência deverá ser aplicada. Por padrão, esta será sempre a primeira linha de qualquer regra. Caso você queira incluir todos os robôs em uma única regra, deve utilizar o símbolo *.

Os user-agents mais importantes para SEO são:

  • Google: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • DuckDuckGo: DuckDuckBot

Importante: A cada novo user-agent adicionado, é preciso adicionar as diretivas novamente. Afinal, as instruções relacionadas ao primeiro user-agent não se aplicam para outros adicionados posteriormente.

Diretivas

Na sequência devem ser adicionadas as diretivas, que são as regras que você quer dar aos user-agents.

Diretivas reconhecidas pelo Google

Entenda abaixo quais são as diretivas que o Google reconhece.

Disallow (desabilitar)

Ao utilizar esta diretiva, você cria uma instrução para que os motores de busca não acessem os arquivos e páginas naquele caminho específico.

Se você não quiser que usuários acessem o seu blog e todos os seus posts, deve adicionar ao arquivo a seguinte diretiva:

 

User-agent: *

Disallow: /blog

 

Allow (habilitar)

Por outro lado, a diretiva ‘allow’ é utilizada para que os motores de busca possam rastrear um diretório ou página – mesmo que esta tenha sido desabilitada antes.

No exemplo temos um caso em que o dono do site não quer que os usuários visualizem o blog e seus posts. A intenção que é apenas post específico possa ser acessado. Neste caso o robots.txt ficará assim:

 

User-agent: *

Disallow: /blog

Allow: /blog/allowed-post

 

Com isso, os motores de busca como Google e Bink conseguirão acessar o endereço “/blog/allowed-post”, mas não conseguirão acessar outros:

Exemplo:

  • /blog/another-post
  • /blog/yet-another-post
  • /blog/download-me.pdf

Sitemap (mapa do site)

Esta diretiva é utilizada para que os motores de busca localizem o sitemap criado no robots.txt. Um sitemap inclui páginas que você quer que os buscadores rastreiem e indexem.

Abaixo segue um exemplo de um arquivo com a diretiva de sitemap. Perceba que este não precisa ser repetido sempre que você cita um novo user-agent:

 

Sitemap: https://www.domain.com/sitemap.xml

 

User-agent: Googlebot

Disallow: /blog/

Allow: /blog/post-title/

 

User-agent: Bingbot

Disallow: /services/

 

Diretivas não reconhecidas pelo Google

Agora entenda duas diretivas não reconhecidas pelo Google.

Noindex

Acreditava-se que a tag noindex era reconhecida informalmente pelo Google. Contudo, em 1º de Setembro de 2019 a empresa confirmou que não reconhece essa diretiva. 

A tag noindex era usada para impedir que o Google realizasse a indexação de todos os posts em um blog:

 

User-agent: Googlebot

Noindex: /blog/

 

Nofollow

A tag nofollow também nunca foi uma diretiva oficial do Google para o robots.txt. E em 1º de Setembro de 2019, a empresa também afirmou que uma opção para o nofollow no robots.txt era adicionar o atributo rel=“nofollow” em cada URL citada em uma página.

Mas originalmente muitas pessoas acreditavam ser possível bloquear os links em um blog através da seguinte diretiva:

 

User-agent: Googlebot

Nofollow: /blog/

 

3. Você realmente precisa de um arquivo Robots.txt?

Se o seu site é pequeno, há uma grande chance de você não precisar do arquivo Robots.txt. Mas para quem possui, o robots.txt é importante para controlar quais páginas do seu site os motores de busca podem acessar.

Com o uso dele é possível:

  • Evitar ranqueamento de conteúdo duplicado;
  • Manter certas seções do site privadas;
  • Evitar  sobrecarga de servidores;
  • Evitar que imagens, vídeos e arquivos sejam disponibilizados nos resultados do Google.

Mas entenda que ele não elimina completamente os resultados na internet sobre determinado conteúdo. O que pode acontecer é o seu site estar linkado em outros sites, e estes podem aparecer em uma pesquisa do Google indiretamente.

 

4. Como encontrar o arquivo Robots.txt do seu site

Se você já tem um arquivo robots.txt no seu site, este será exibido ao digitar “seusite.com.br/robots.txt” na barra de pesquisa da internet.

Se algo assim aparecer, é porque você tem um arquivo robots.txt:

Faça um teste com o endereço https://www.google.com.br/robots.txt e veja os resultados.

Robots.txt

5. Como criar um arquivo Robots.txt

Se você ainda não tem o seu arquivo robots.txt, não é difícil criar um. O que você precisa é:

  1. Criar um arquivo de bloco de notas (.txt) em branco, e começar a digitar as diretivas.

Se você quiser que os buscadores não encontrem o seu diretório de /admin/, você deve digitar:

User-agent: *

Disallow: /admin/

  1. Crie todas as diretivas que você precisar.
  2. Salve o arquivo como “robots.txt.”

Onde colocar o arquivo finalizado?

O seu arquivo robots.txt deve ser adicionado à raiz do seu site, mais especificamente na raiz do subdomínio para o qual o arquivo se aplica. 

Por exemplo, para controlar o comportamento de rastreamento das páginas em “seusite.com.br”, o arquivo deve ser acessível através do endereço “seusite.com.br/robots.txt”

 

6. Quais são as boas práticas de uso do arquivo Robots.txt

Entenda agora quais são as boas práticas de uso robots.txt para evitar problemas de SEO e erros:

  1. Utilize uma nova linha para cada diretiva

Incorreto:

User-agent: * Disallow: /directory/ Disallow: /another-directory/

 

Correto:

User-agent: * 

Disallow: /directory/ 

Disallow: /another-directory/

  1. Utilize o símbolo * para simplificar instruções gerais

Quando você quer incluir todos os user-agents e vários comandos de Disallow em uma diretiva, é possível utilizar * para isso. Veja abaixo:

Opção menos eficiente

User-agent: * 

Disallow: /products/t-shirts?

Disallow: /products/hoodies?

Disallow: /products/jackets?

 

Opção mais eficiente

User-agent: * 

Disallow: /products/*?

Dessa forma, se a intenção é bloquear todas as páginas de produtos, você pode criar apenas um comando geral. E assim elimina a necessidade de digitar todas as subcategorias dentro desse grande item do site.

  1. Utilize “$” para especificar o fim de uma URL

Se você quer bloquear a busca por todos os perfis que terminem em .pdf no seu site, pode usar a diretiva abaixo:

User-agent: * 

Disallow: /*.pdf$

Dessa forma todas as URL que terminem em PDF serão bloqueadas. Mas no caso de páginas que contém PDF na URL, sem terminar a URL nesse ponto (/file.pdf?id=68937586), continuam aparecendo na busca.

  1. Cada user-agent deve ser utilizado apenas uma vez

Para que você evite erros, esta boa prática é indicada. Afinal, o Google vai conseguir entender se você citar um user-agent diversas vezes. O problema é que você tem grandes chances de repetir ou esquecer de alguma informação dessa forma.

  1. Mantenha as diretivas específicas para evitar os erros simples

Se você criar uma diretiva muito aberta, poderá ter seu SEO prejudicado. Por exemplo, vamos considerar que um site está lançando uma versão em Alemão, mas ainda não tem todo o conteúdo pronto.

Para evitar que os motores de busca mostrem uma página inacabada, é possível adicionar a seguinte diretiva:

 

User-agent: *

Disallow: /de

 

Mas perceba que esta diretiva também vai acabar bloqueando qualquer pesquisa que comece com “/de”:

  • /designer-dresses/
  • /delivery-information.html
  • /depeche-mode/t-shirts/
  • /definitely-not-for-public-viewing.pdf

Por isso, você deve adicionar uma “ / ” final à diretiva:

 

User-agent: *

Disallow: /de/

 

  1. Comunique-se através de comentários no robots.txt

Você pode se comunicar com os desenvolvedores do site, ou até mesmo deixar comentários para alterações futuras. Para incluir um comentário no robots.txt é preciso adicionar o símbolo # antes de começar a frase.

  1. Utilize um robots.txt para cada subdomínio

Se você tiver um site “seusite.com.br” e um blog “blog.seusite.com.br”, é preciso criar dois arquivos robots.txt. Cada arquivo deve ser adicionado na raiz de cada domínio.

 

7. Exemplos de arquivos Robots.txt

Se você não sabe muito bem das possibilidades que existem em um arquivo robots.txt, compartilhamos abaixo alguns exemplos usados.

  1. Acesso total para todos os user-agents

User-agent: *

Disallow:

  1. Acesso totalmente bloqueado para todos os user-agents

User-agent: *

Disallow: /

  1. Bloquear uma pasta de todos os user-agents

User-agent: *

Disallow: /folder/

  1. Bloquear um arquivo de todos os user-agents

User-agent: *

Disallow: /this-is-a-file.pdf

  1. Bloquear um arquivo de PDF de todos os user-agents

User-agent: *

Disallow: /*.pdf$

 

8. Como encontrar erros em um arquivo Robots.txt

Como você percebeu durante este texto, são diversos detalhes que devem ser considerados ao escrever um arquivo robots.txt. Assim, entenda como encontrar erros nestes arquivos.

Para essa auditoria, é interessante fazer uma verificação periódica por problemas relacionados no Robots.txt através do Relatório de Cobertura do Google Search Console

 

  • Digite a URL na Ferramenta de Inspeção de URL do Google Search Console. Se esta página estiver bloqueada no robots.txt você deverá encontrar uma tela assim:

url inspection

  • Se alguma URL do seu sitemap está bloqueada, você verá esta tela:

 

Se você criar um sitemap correto e excluiu canonicalização, noindex e redirects, este erro não deveria aparecer.

Para avaliar exatamente a diretiva que acabou bloqueando algum conteúdo indevidamente, utilize o suporte do Google na ferramenta testar robots.txt. Veja abaixo uma tela da ferramenta:

robots tester

 

  • Se você encontrar o erro abaixo, significa que algum conteúdo não indexado pelo Google foi bloqueado pelo robots.txt

 

Assim, se você tiver utilizado o robots.txt com a intenção de excluir uma página do Google, existem outras opções que podem ser realizadas.

  • Robots meta tag;
  • Cabeçalho HTTP X-Robots-Tag.

 Somente com estas estratégias é que uma página pode ser desindexada do Google.

 

  • Quando algum conteúdo bloqueado pelo robots.txt ainda está indexado ao Google.

 

Este é mais um problema relacionado ao uso do arquivo para excluir páginas. Como já vimos acima, existem outras opções para isso.

9. FAQs

Para finalizar este material sobre o Robots.txt e SEO, vamos citar algumas das perguntas mais frequentes sobre o assunto:

  1. Qual o tamanho total do arquivo?

500 kilobytes (aproximadamente).

  1. Onde encontrar o robots.txt no WordPress?

No mesmo lugar de outras plataformas de sites e blogs: fazendo uma busca por seusite.com.br/robots.txt.

  1. Como editar o robots.txt no WordPress?

Você pode fazer isso manualmente, ou então utilizando os plugins de SEO do WordPress como o Yoast.

 

Considerações Finais

Chegamos ao fim do conteúdo com todas as informações que você precisa saber sobre o robots.txt. Como você reparou, em diversos momentos citamos que pequenos erros no arquivo podem acabar gerando grandes problemas para o SEO do seu site.

Por isso, é essencial que você observe as boas práticas citadas acima, evite erros desnecessários e mantenha seu robots.txt bem organizado.

Quer receber um orçamento para criação de um site profissional?

compartilhe esse post