Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Robots.txt : fornecendo informações aos bots
Em geral, as visitas dos bots permitem a inclusão e atualização de suas páginas nos índices das Search Engines; entretanto, pode haver situações em que seja desejável bloquear o acesso dos bots (um, alguns, ou todos os bots).
Exemplos de páginas cujo acesso pode ser bloqueado: páginas em construção; páginas online que não se destinem ao conhecimento público (e.g., páginas de acesso privativos a membros); páginas que sejam cópias de outras existentes em outros locais (a duplicação de páginas pode causar punições); etc.
Existem duas formas de se controlar os bots: por meio de um arquivo chamado robots.txt, ou por meio de meta tags.
Robots.txt
Robots.txt é um pequeno arquivo em formato texto (ele deve ser composto e carregado no servidor em formato texto, e não binário; não utilize programas como o Word para escrever o arquivo, e assegure-se de que seu cliente FTP faz a transferência no modo texto), colocado no diretório raiz do domínio, contendo diretivas para os bots.
Embora não haja especificação formal da W3 sobre robots.txt, é fato que, antes de baixar qualquer outra página, os bots mais conhecidos sempre baixam e obedecem robots.txt. Caso não exista um arquivo robots.txt, os bots assumem que estão autorizados a acessar todas as páginas que encontrarem (nota: embora esse comportamento seja o mais comum, é possível que ele seja alterado por configurações não-usuais do servidor web; o arquivo é bastante simples, é altamente recomendável que ele seja instalado).
O formato do arquivo é: uma linha define o(s) nome(s) do(s) bot(s), e outras linhas definem os arquivos ou setores que ficam bloqueados; pode-se usar asteriscos.
O arquivo abaixo permite acesso total a todos os bots:
User-agent: *
Disallow:
O arquivo abaixo nega acesso de todos os bots a todos os arquivos:
User-agent: *
Disallow: /
O arquivo abaixo nega acesso do googlebot ao sub-diretório /brasil:
User-agent: *
Disallow: /brasil/
Para informações completas sobre robots.txt, visite
www.robotstxt.org.
Robots meta tags
Alerta Nem todos os bots reconhecem esses meta tags.
A meta definição é da forma:
<html>
<head>
<meta name="robots" content="noindex, nofollow">
</head>
<body>
e deve ser incluída no cabeçalho da página HTML. Observe que é possível substituir "robots" pelo nome de um bot que compreenda esse tag.
O valor noindex determina aos bots que a página não seja indexada; o valor nofollow determina que os links eventualmente existentes na página não sejam seguidos. Qualquer combinação de valores (index/noindex; follow/nofollow) é permitida; a ausência desse meta é equivalente a index/follow.
A Google fornece algumas informações específicas sobre o uso de robots.txt e robots meta tags; visite essa página da Google.
|
|