Fique-Rico - Escola para Blogueiros e Webmasters

Semana do SEO - Gerindo o acesso dos Robots ao seu blog

Posted: 10 Aug 2009 01:55 PM PDT

Semana do SEO - Gerindo o acesso dos Robots ao seu blog

Controlar qual o conteúdo que deve ser bloqueado pelos motores de busca é um processo crucial para muitos websites e blogs. Felizmente, a grande maioria dos motores de busca e muitos robots observam aquilo a que se chama o Robots Exclusion Protocol (REP), que foi criado e envolvido organicamente nos anos 90 para providenciar uma série de controlos sobre partes e conteúdos de websites e blogs que os próprios robots dos motores de busca podem “scannar” e indexar, e vice-versa.

1. CAPACIDADE DO REP
O protocólo de exclusão de Robots (REP) providencia controlos que podem ser aplicados ao nível do seu blog (robots.txt), ao nível da página (META tag, ou X-Robots-Tag), ou ao nível dos elementos HTML para controlar tanto a intensidade de “scan” do seu blog bem como a forma como o seu blog é listado nas páginas de resultados dos motores de busca (SERPs). Em baixo encontra-se uma tabela dos cenários comuns, directivas, e quais os motores de busca que as suportam.

Caso de utilização	Robots.txt	META/ X-Robots-Tag	Outro	Suportado por
Permitir o acesso ao seu conteúdo	Allow	FOLLOW INDEX		Google Yahoo Microsoft
Não permitir o acesso ao seu conteúdo	Disallow	NOINDEX NOFOLLOW		Google Yahoo Microsoft
Não permitir o acesso à indexação de imagens na sua página		NOIMAGEINDEX		Google
Não permitir uma versão em cache do seu conteúdo nos SERP		NOARCHIVE		Google Yahoo Microsoft
Não permitir a criação de uma descrição para este conteúdo nos SERP		NOSNIPPET		Google Yahoo Microsoft
Não permitir a tradução do seu conteúdo para outras línguas		NOTRANSLATE		Google
Não seguir ou dar peso aos links deste conteúdo		NOFOLLOW	a href attribute: rel=NOFOLLOW	Google Yahoo Microsoft
Não utilize o Open Directory Project (ODP) para criar descrições para o seu conteúdo nos SERP		NOODP		Google Yahoo Microsoft
Não utilize o Yahoo Directory para criar descrições do seu conteúdo nos SERP		NOYDIR		Yahoo
Não indexe este específico elemento numa página HTML			class=robots-nocontent	Yahoo
Para de indexar este específico conteúdo depois de uma data		UNAVAILABLE_AFTER		Google
Não permitir a criação de captações do seu blog		NOPREVIEW		Microsoft
Especifique um ficheiro sitemap ou um sitemap index	Sitemap			Google Yahoo Microsoft
Especifique a frequência de acesso do crawler ao seu website	Crawl-Delay		Google WMT	Yahoo Microsoft
Autentique a identidade de um crawler			Reverse DNS Lookup	Google Yahoo Microsoft
Peça a remoção do seu conteúdo do index dos motores de pesquisa			Google WMT Yahoo SE Microsoft WMT	Google Yahoo Microsoft

2. DECIDIR O QUE DEVE SER PRIVADO vs. PÚBLICO
Um dos primeiros passos em gerir os robots é decidir e perceber qual o conteúdo que deve ser Priva vs. Público. Comece por determinar que por defeito, todo o conteúdo é público, e posteriormente considere percepcionar quais os conteúdos que gostaria ou deveriam ser privados.

Se pretende que os motores de busca acessem a todo o conteúdo seu blog, você não irá necessitar de um ficheiro robots.txt de todo. Quando um motor de busca tenta aceder a um ficheiro robots.txt no seu blog e o servidor não tem nenhum disponível (geralmente retornando um código 404 HTTP), o motor de busca passa a ter noção de que todo o conteúdo do seu blog deve ser “scannado” e encontrado.

Todos os websites e blogs têm diferentes necessidades, pelo que não existe uma regra para definir o que colocar privado, mas existem alguns elementos comuns que podem ser postos em causa.

Informação Privada – Você deverá ou poderá ter conteúdo no seu blog que não pretende que seja indexável pelos motores de busca. Por instantes, você poderá ter informação privada de utilizadores (como endereços) que você não pretende que fiquem disponibilizados gratuitamente na internet e nos motores de busca. Para este tipo de conteúdo, você poderá querer utilizar uma abordagem mais segura para manter os utilizadores de todas as páginas (como protecção com password por ex.). No entanto, alguns tipos de conteúdo são bons de ser acedidos pelos utilizadores, mas não o devem ser pelos motores de busca. Por instantes, você poderá querer criar um fórum de discussão que esteja disponível publicamente, mas pode desejar ao mesmo tempo que os posts individuais não fiquem disponíveis nos resultados dos motores de busca.
Conteúdo não-conteúdo – Algum conteúdo, como por exemplo imagens utilizadas para navegação no seu blog, providenciam pouco interesse para os utilizadores dos e para os motores de busca. Não é problemático incluir estes elementos nos resultados de pesquisas dos motores de busca, mas uma vez que os motores de busca limitam a largura de banda para o crawl de cada site/blog e limitam também o espaço para armazenamento de cada site/blog, faz todo o sentido bloquear estes elementos para ajudar os robots a indexar o conteúdo que realmente vale a pena no seu blog.
Páginas amigas da impressão – Se você tiver páginas específicas (URLs) que estão formatadas para impressão provavelmente deveria bloqueá-las para evitar duplicação de conteúdo. O grande problema prende-se com o facto de as páginas para impressão poderem aparecer nos resultados dos motores de pesquisa ao invés das páginas originais de conteúdo, o que poderá não providenciar uma experiência de qualidade aos utilizadores que o encontram nos resultados de pesquisas.
Link de afiliado e Publicidade – Se incluir publicidade no seu site ou blog, poderá evitar que os robots sigam os links enviando-os para uma página bloqueada, ao invés de para a página de destino. (Existem outros métodos alternativos também, especialmente o NoFollow.)
Páginas de Aterragem – O seu blog poderá incluir uma grande variação de páginas de entrada utilizadas essencialmente para propósitos de publicidade. Por instantes, poderá correr campanhas no Google AdWords que linkam para a página de aterragem onde se encontra a publicidade, ou poderá imprimir diferentes endereços URL para diferentes campanhas (para testes de tracking ou para relacionar o link com o anúncio). Uma vez que estas páginas são uma extensão dos anúncios, e são provavelmente duplicações da página original, poderá desejar bloquear estas páginas para evitar indexação de conteúdo duplicado.
Páginas Experimentais – À medida que for experimentando novas ideias nos seus websites/blogs (utilizando testes A/B por ex.), poderá querer bloquear todas as página excepto a original de ser indexadas durante as suas experimentações.

3. IMPLEMENTANDO O REP
O REP é flexível e pode ser implementado de variadas formas. Esta flexibilidade permite-lhe facilmente especificar algumas políticas para todo o seu website/blog (ou subdomínio) e posteriormente utilizá-las de uma forma mais granular em cada página ou ao nível de links sempre que necessário.

4. IMPLEMENTAÇÃO AO NÍVEL DE SITE/BLOG (ROBOTS.TXT)
As directivas panorâmicas para sites/blogs estão alojadas no ficheiro robots.txt, que deverá estar sempre localizado na raíz do seu servidor/diretorio para cada um dos seus domínios e sub-domínios. Note que os ficheiros robots.txt apenas se aplicam ao hostname onde são colocados, e não são aplicáveis por defeito aos subdomínos. Portanto, um ficheiro robots.txt localizado na raíz do seu blog, não se irá aplicar a um outro subdomínio que você utilize no mesmo blog, ainda que utilize o mesmo endereço URL. No entanto, o ficheiro robots.txt aplica-se a todas as pastas e subpastas e páginas dentro do mesmo hostname.

Um ficheiro robots.txt é um ficheiro codificado em formato UTF-8 que contem entradas que consistem em linhas de “user-agent” (que diz ao robot do motor de busca se a entrada é direccionada a ele) e uma ou mais directivas que especificam conteúdo para o robot dos motores de busca para efectuar o crawling e a indexação regularmente. Um simples ficheiro robots.txt é mostrado a seguir.

User-agent: * Disallow: /private

O User-Agent especifica a qual robot a entrada se aplica.

Pode definir o valor para * para especificar que a entrada se aplica a todos os robots dos motores de busca.
Pode definir o valor para um nome especifico de um robot para providenciar apenas instruções a esse robot. Pode encontrar uma listagem completa dos nomes dos robots em robotstxt.org.

A maior dos motores de busca tem múltiplos robots que efectuam o crawl da web para diferentes tipos de conteúdos (imagens, mobile, etc). Geralmente o início do nome dos robots é idêntico em todos, pelo que se você bloquear o “major robot”, todos os robots desse motor de busca serão bloqueados. No entanto, se você pretender bloquear apenas e especificamente um dado robot, poderá bloqueá-lo directamente e ainda assim permitir o acesso dos outros ao seu conteúdo.

Google – O robot primário é o Googlebot.
Yahoo! – O robot primário é o Slurp.

Disallow: - Especifica qual o conteúdo a bloquear

Deverá começar sempre com uma barra (/).
Bloqueia o acesso a quaisqueres URLs que comecem depois da barra /. Por momentos, Disallow: /images bloqueia o acesso à pasta /images/, /images/image1.jpg, e também à /images10.

Poderá especificar outras regras pra os robots dos motores de busca em adição às instruções por defeito que bloqueiam o acesso a conteúdo.

Algumas coisas a notar na implementação dos robots.txt:

A maioria dos motores de busca suporta o chamado “pattern matching” utilizando o asterisco (*) como o cartão de acesso e o sinal de dólar ($) para o fim da sequência de matching.
O ficheiro robots.txt é case sensitive (sensível a minúsculas e maiúsculas), portanto Disallow: /images irá bloquear o acesso ao diretorio http://www.examplo.com/images mas não ao diretorio http://www.examplo.com/Images.
Se continuar conflictos no ficheiro, o robot irá obedecer à linha maior (e geralmente a mais especifica).

5. EXEMPLOS BÁSICOS

Block all robots – Ideal quando o seu website/blog ainda está em fase de pré-lançamento e não está pronto para receber tráfego orgânico.

# This keeps out all well-behaved robots. # Disallow: * is not valid. User-agent: * Disallow: /

Keep out all bots by default – Bloqueia todas as páginas excepto aqueles que são especificadas. Não é recomendado pela sua dificuldade de gestão e diagnóstico.

# Stay out unless otherwise stated User-agent: * Disallow: / Allow: /Public/ Allow: /articles/ Allow: /images/

Block specific content – O método mais comum de utilização do robots.txt.

# Block access to the images folder User-agent: * Disallow: /images/

Allow specific content – Bloquear uma pasta, mas permitir o acesso a páginas dentro dessa pasta.

# Block everything in the images folder # Except allow images/image1.jpg User-agent: * Disallow: /images/ Allow: /images/image1.jpg

Allow specific robot – Bloqueie uma classe de robots (por instante, Googlebot), mas permita uma robot específico nessa classe (por instantes, Googlebot-Mobile).

# Block Googlebot access # Allow Googlebot-Mobile access User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /

6. EXEMPLOS DE CORRESPONDÊNCIA DE PADRÕES

A maioria dos motores de busca suporta dois tipos de pattern matching.

* corresponde a qualquer sequência de caracteres
$ corresponde ao final do endereço URL.

Block access to URLs that contain a set of characters – Utilize o asterisco (*) para especificar um cartão de acesso.

# Block access to all URLs that include an ampersand User-agent: * Disallow: /*&

Esta directiva irá impedir os motores de busca de efectuarem o crawling em http://www.examplo.com/page1.asp?id=5&sessionid=xyz.

Block access to URLs that end with a set of characters – Utilize o sinal de dólar ($) para especificar o final da linha.

# Block access to all URLs that end in .cgi User-agent: * Disallow: /*.cgi$

Esta directiva irá impedir os motores de busca de efectuarem o crawling http://www.examplo.com/script1.cgi mas não de efectuar o crawling em http://www.examplo.com/script1.cgi?value=1.

Selectively allow access to a URL that matches a blocked pattern – Utilize a directiva Allow em conjunção com o pattern matching para implementações mais complexas.

# Block access to URLs that contain ? # Allow access to URLs that end in ? User-agent: * Disallow: /*? Allow: /*?$

Esta directiva irá bloquear todos os endereços URL que contenham ? excepto aqueles que terminam em ?. Neste exemplo, a versão por defeito da página será indexável:

http://www.examplo.com/productlisting.aspx?

As variações da página serão bloqueadas:

http://www.examplo.com/productlisting.aspx?nav=price
http://www.examplo.com/productlisting.aspx?sort=alpha

7. OUTRAS INSTRUÇÕES PARA ROBOTS
Especifique um Sitemap ou ficheiro de Sitemap index – se gostar de providenciar aos motores de busca uma lista compreensiva dos seus melhores endereços URLs, poderá providenciar um ou mais directivas de auto-descobrimento ao seu Sitemap. De notar, que o “user-agent” não é aplicável a esta diretoria pelo que não poderá utilizá-lo para especificar um Sitemap para apenas um motor de busca e não para todos.

# Please take my sitemap and index everything! Sitemap: http://janeandrobot.com/sitemap.axd

Reduce the crawling load – Este só trabalha com a Microsoft e Yahoo. Para a Google terá de especificar uma velocidade de crawling inferior através da consola Webmaster Tools. Tenha cuidado quando implementar isto se por ventura colocar o crawling demasiado lento, os robots não conseguiram “scannar” todo o seu conteúdo a tempo e poderá perder páginas para o index.

# MSNBot, please wait 5 seconds in between visits User-agent: msnbot Crawl-delay: 5 # Yahoo's Slurp, please wait 12 seconds in between visits User-agent: slurp Crawl-delay: 12

8. IMPLEMENTAÇÕES AO NÍVEL DA PÁGINA (META TAGS)

As directivas ao nível de página do REP permitem-lhe redefinir as políticas do seu blog numa básica de página-por-página.

Placing a meta tag on the page – Coloque a meta tag na head tag. Cada directiva deve ser delimitada com uma vírgula dentro da tag. E.x. <meta name="ROBOTS" content="Directiva1, Directiva2>.

<html> <head> <title>Your title here</title> <meta name="ROBOTS" content="NOINDEX"> </head> <body>Your page here</body> </html>

Targeting a specific search engine – Entre a meta tag você poderá especificar qual o motor de busca que gostaria que fosse o seu alvo, ou então atirar em todos os alvos em simultâneo.

<!-- Applies to All Robots --> <meta name="ROBOTS" content="NOINDEX"> <!-- ONLY GoogleBot --> <meta name="Googlebot" content="NOINDEX"> <!-- ONLY Slurp (Yahoo) --> <meta name="Slurp" content="NOINDEX"> <!-- ONLY MSNBot (Microsoft) --> <meta name="MSNBot" content="NOINDEX">

Control how your listings – Existem uma série de opções que podem ser configuradas para determinar como o seu blog aparece nos SERP. Você pode exercer controlo sobre a descrição e também removero link de "Cached page".

<!-- Do not show a description for this page --> <meta name="ROBOTS" content="NOSNIPPET"> <!-- Do not use http://dmoz.org to create a description --> <meta name="ROBOTS" content="NOODP"> <!-- Do not present a cached version of the document in a search result --> <meta name="ROBOTS" content="NOARCHIVE">

Using other directives – Outras directivas para robots encontram-se de seguida.

<!-- Do not trust links on this page, could be user generated content (UCG) --> <meta name="ROBOTS" content="NOFOLLOW"> <!-- Do not index this page --> <meta name="ROBOTS" content="NOINDEX"> <!-- Do not index any images on this page (will still index the if they are linked       elsewhere) Better to use Robots.txt if you really want them safe. This is a Google Only tag. --> <meta name="GOOGLEBOT" content="NOIMAGEINDEX"> <!-- Do not translate this page into other languages--> <meta name="ROBOTS" content="NOTRANSLATE"> <!-- NOT RECOMMENDED, there really isn't much point in using these --> <meta name="ROBOTS" content="FOLLOW"> <meta name="ROBOTS" content="UNAVAILABLE_AFTER">

9. IMPLEMENTAÇÃO NO HEADER HTTP (X-ROBOTS-TAG)
Esta tag permite a programadores e desenvolvedores especificar directiva ao nível de página com o REP para conteúdo que não seja texto/html do tipo PDF, DOC, PPT, ou dinamicamente gerando imagens.

Using the X-Robots-Tag – Para usar a tag X-Robots-Tag, simplesmente adicione-a ao header do seu blog como especificado em baixo. Para especificar múltiplas directivas poderá limitá-las com vírgula, ou adicioná-las como items separados no header.

HTTP/1.x 200 OK Cache-Control: private Content-Length: 2199552 Content-Type: application/octet-stream Server: Microsoft-IIS/7.0 content-disposition: inline; filename=01 - The truth about SEO.ppt X-Robots-Tag: noindex, nosnippet X-Powered-By: ASP.NET Date: Sun, 01 Jun 2008 19:25:47 GMT

A directiva da X-Robots-Tag suporta praticamente as mesmas directivas da meta tag. A única limitação com este método sobre a implementação da meta tag é que não existe forma de atingir um robot específico – pensando nisso, provavelmente não será uma grande oportunidade na maioria dos casos.

X-Robots-Tag: noindex
X-Robots-Tag: nosnippet
X-Robots-Tag: notranslate
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT

10. IMPLEMENTAÇÃO AO NÍVEL DO CONTEÚDO
Poderá ainda afinar as directivas ao nível de página e site/blog com variadas “content tags”, ou seja, tags de conteúdo.

A tag de texto âncora (link) poderá ser modificada para dizer aos motores de busca que você não confia no endereço de destino desse URL. Esta utilização é feita quando não se pretende passar pagerank ou peso em links, e também em sites de conteúdo gerado pelos utilizadores, como por exemplo wikis, comentários de blogs, reviews, entre outros exemplos.

<a href="#" rel="NOFOLLOW">Hyperlink</a>

Ainda, no Yahoo Search poderá especificar qual os elementos da <div> numa página que não gostaria de ver indexados utilizando o atributo class=robots-nocontent. No entanto, não recomendamos a utilização desta tag por não ser suportada por outros motores de pesquisa, tornado-a dispensável.

<div class="robots-nocontent">

Sem conteúdo para si! (ou pelo menos para o Yahoo!)

</div>

CONCLUSÃO
Trabalhar com robots.txt e outras formas de indexação e bloqueio de informação pode parecer complexo, mas na verdade é muito simples e segue uma lógica padrão. Se por ventura tiver dúvidas na utilização de algum dos exemplos apresentados, dispare um comentário! Aproveite também para deixar a sua opinião sobre o artigo!

Até Já!

Se gostou deste post, considere subscrever o nosso RSS Feed Completo!
Ou então Subscreva o Fique Rico por Email!