Fique-Rico - Escola para Blogueiros e Webmasters |
Semana do SEO - Gerindo o acesso dos Robots ao seu blog Posted: 10 Aug 2009 01:55 PM PDT Semana do SEO - Gerindo o acesso dos Robots ao seu blog Controlar qual o conteúdo que deve ser bloqueado pelos motores de busca é um processo crucial para muitos websites e blogs. Felizmente, a grande maioria dos motores de busca e muitos robots observam aquilo a que se chama o Robots Exclusion Protocol (REP), que foi criado e envolvido organicamente nos anos 90 para providenciar uma série de controlos sobre partes e conteúdos de websites e blogs que os próprios robots dos motores de busca podem “scannar” e indexar, e vice-versa. 1. CAPACIDADE DO REP
2. DECIDIR O QUE DEVE SER PRIVADO vs. PÚBLICO Se pretende que os motores de busca acessem a todo o conteúdo seu blog, você não irá necessitar de um ficheiro robots.txt de todo. Quando um motor de busca tenta aceder a um ficheiro robots.txt no seu blog e o servidor não tem nenhum disponível (geralmente retornando um código 404 HTTP), o motor de busca passa a ter noção de que todo o conteúdo do seu blog deve ser “scannado” e encontrado. Todos os websites e blogs têm diferentes necessidades, pelo que não existe uma regra para definir o que colocar privado, mas existem alguns elementos comuns que podem ser postos em causa.
3. IMPLEMENTANDO O REP 4. IMPLEMENTAÇÃO AO NÍVEL DE SITE/BLOG (ROBOTS.TXT) Um ficheiro robots.txt é um ficheiro codificado em formato UTF-8 que contem entradas que consistem em linhas de “user-agent” (que diz ao robot do motor de busca se a entrada é direccionada a ele) e uma ou mais directivas que especificam conteúdo para o robot dos motores de busca para efectuar o crawling e a indexação regularmente. Um simples ficheiro robots.txt é mostrado a seguir. User-agent: * Disallow: /private O User-Agent especifica a qual robot a entrada se aplica.
A maior dos motores de busca tem múltiplos robots que efectuam o crawl da web para diferentes tipos de conteúdos (imagens, mobile, etc). Geralmente o início do nome dos robots é idêntico em todos, pelo que se você bloquear o “major robot”, todos os robots desse motor de busca serão bloqueados. No entanto, se você pretender bloquear apenas e especificamente um dado robot, poderá bloqueá-lo directamente e ainda assim permitir o acesso dos outros ao seu conteúdo.
Poderá especificar outras regras pra os robots dos motores de busca em adição às instruções por defeito que bloqueiam o acesso a conteúdo. Algumas coisas a notar na implementação dos robots.txt:
5. EXEMPLOS BÁSICOS Block all robots – Ideal quando o seu website/blog ainda está em fase de pré-lançamento e não está pronto para receber tráfego orgânico. # This keeps out all well-behaved robots. # Disallow: * is not valid. User-agent: * Disallow: / Keep out all bots by default – Bloqueia todas as páginas excepto aqueles que são especificadas. Não é recomendado pela sua dificuldade de gestão e diagnóstico. # Stay out unless otherwise stated User-agent: * Disallow: / Allow: /Public/ Allow: /articles/ Allow: /images/ Block specific content – O método mais comum de utilização do robots.txt. # Block access to the images folder User-agent: * Disallow: /images/ Allow specific content – Bloquear uma pasta, mas permitir o acesso a páginas dentro dessa pasta. # Block everything in the images folder # Except allow images/image1.jpg User-agent: * Disallow: /images/ Allow: /images/image1.jpg Allow specific robot – Bloqueie uma classe de robots (por instante, Googlebot), mas permita uma robot específico nessa classe (por instantes, Googlebot-Mobile). # Block Googlebot access # Allow Googlebot-Mobile access User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: / 6. EXEMPLOS DE CORRESPONDÊNCIA DE PADRÕES A maioria dos motores de busca suporta dois tipos de pattern matching.
Block access to URLs that contain a set of characters – Utilize o asterisco (*) para especificar um cartão de acesso. # Block access to all URLs that include an ampersand User-agent: * Disallow: /*& Esta directiva irá impedir os motores de busca de efectuarem o crawling em Block access to URLs that end with a set of characters – Utilize o sinal de dólar ($) para especificar o final da linha. # Block access to all URLs that end in .cgi User-agent: * Disallow: /*.cgi$ Esta directiva irá impedir os motores de busca de efectuarem o crawling Selectively allow access to a URL that matches a blocked pattern – Utilize a directiva # Block access to URLs that contain ? # Allow access to URLs that end in ? User-agent: * Disallow: /*? Allow: /*?$ Esta directiva irá bloquear todos os endereços URL que contenham
As variações da página serão bloqueadas:
7. OUTRAS INSTRUÇÕES PARA ROBOTS # Please take my sitemap and index everything! Sitemap: http://janeandrobot.com/sitemap.axd Reduce the crawling load – Este só trabalha com a Microsoft e Yahoo. Para a Google terá de especificar uma velocidade de crawling inferior através da consola Webmaster Tools. Tenha cuidado quando implementar isto se por ventura colocar o crawling demasiado lento, os robots não conseguiram “scannar” todo o seu conteúdo a tempo e poderá perder páginas para o index. # MSNBot, please wait 5 seconds in between visits User-agent: msnbot Crawl-delay: 5 # Yahoo's Slurp, please wait 12 seconds in between visits User-agent: slurp Crawl-delay: 12 8. IMPLEMENTAÇÕES AO NÍVEL DA PÁGINA (META TAGS) As directivas ao nível de página do REP permitem-lhe redefinir as políticas do seu blog numa básica de página-por-página. Placing a meta tag on the page – Coloque a meta tag na head tag. Cada directiva deve ser delimitada com uma vírgula dentro da tag. E.x. <meta name="ROBOTS" content="Directiva1, Directiva2>. <html> <head> <title>Your title here</title> <meta name="ROBOTS" content="NOINDEX"> </head> <body>Your page here</body> </html> Targeting a specific search engine – Entre a meta tag você poderá especificar qual o motor de busca que gostaria que fosse o seu alvo, ou então atirar em todos os alvos em simultâneo. <!-- Applies to All Robots --> <meta name="ROBOTS" content="NOINDEX"> <!-- ONLY GoogleBot --> <meta name="Googlebot" content="NOINDEX"> <!-- ONLY Slurp (Yahoo) --> <meta name="Slurp" content="NOINDEX"> <!-- ONLY MSNBot (Microsoft) --> <meta name="MSNBot" content="NOINDEX"> Control how your listings – Existem uma série de opções que podem ser configuradas para determinar como o seu blog aparece nos SERP. Você pode exercer controlo sobre a descrição e também removero link de "Cached page". <!-- Do not show a description for this page --> <meta name="ROBOTS" content="NOSNIPPET"> <!-- Do not use http://dmoz.org to create a description --> <meta name="ROBOTS" content="NOODP"> <!-- Do not present a cached version of the document in a search result --> <meta name="ROBOTS" content="NOARCHIVE"> Using other directives – Outras directivas para robots encontram-se de seguida. <!-- Do not trust links on this page, could be user generated content (UCG) --> <meta name="ROBOTS" content="NOFOLLOW"> <!-- Do not index this page --> <meta name="ROBOTS" content="NOINDEX"> <!-- Do not index any images on this page (will still index the if they are linked elsewhere) Better to use Robots.txt if you really want them safe. This is a Google Only tag. --> <meta name="GOOGLEBOT" content="NOIMAGEINDEX"> <!-- Do not translate this page into other languages--> <meta name="ROBOTS" content="NOTRANSLATE"> <!-- NOT RECOMMENDED, there really isn't much point in using these --> <meta name="ROBOTS" content="FOLLOW"> <meta name="ROBOTS" content="UNAVAILABLE_AFTER"> 9. IMPLEMENTAÇÃO NO HEADER HTTP (X-ROBOTS-TAG) Using the X-Robots-Tag – Para usar a tag X-Robots-Tag, simplesmente adicione-a ao header do seu blog como especificado em baixo. Para especificar múltiplas directivas poderá limitá-las com vírgula, ou adicioná-las como items separados no header. HTTP/1.x 200 OK Cache-Control: private Content-Length: 2199552 Content-Type: application/octet-stream Server: Microsoft-IIS/7.0 content-disposition: inline; filename=01 - The truth about SEO.ppt X-Robots-Tag: noindex, nosnippet X-Powered-By: ASP.NET Date: Sun, 01 Jun 2008 19:25:47 GMT A directiva da X-Robots-Tag suporta praticamente as mesmas directivas da meta tag. A única limitação com este método sobre a implementação da meta tag é que não existe forma de atingir um robot específico – pensando nisso, provavelmente não será uma grande oportunidade na maioria dos casos.
10. IMPLEMENTAÇÃO AO NÍVEL DO CONTEÚDO A tag de texto âncora (link) poderá ser modificada para dizer aos motores de busca que você não confia no endereço de destino desse URL. Esta utilização é feita quando não se pretende passar pagerank ou peso em links, e também em sites de conteúdo gerado pelos utilizadores, como por exemplo wikis, comentários de blogs, reviews, entre outros exemplos. <a href="#" rel="NOFOLLOW">Hyperlink</a> Ainda, no Yahoo Search poderá especificar qual os elementos da <div> numa página que não gostaria de ver indexados utilizando o atributo <div class="robots-nocontent"> Sem conteúdo para si! (ou pelo menos para o Yahoo!) </div>
CONCLUSÃO Até Já! Se gostou deste post, considere subscrever o nosso RSS Feed Completo! Leia também estes artigos: |
You are subscribed to email updates from Escola de Ganhar Dinheiro para Blogueiros e Webmasters To stop receiving these emails, you may unsubscribe now. | Email delivery powered by Google |
Google Inc., 20 West Kinzie, Chicago IL USA 60610 |
Sem comentários:
Enviar um comentário