Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Rastreando a web: crawlers, bots, robots, spiders
Os sites de busca estão sempre à procura de novas páginas; páginas novas podem tratar de assuntos recentes, ainda não abordados nas páginas armazenadas pela SE, ou podem tratar com mais relevância de assuntos já abordados. O objetivo das Search Engines é ser o mais abrangente e atualizada possível.
Como as SEs descobrem novas páginas? Existem basicamente dois métodos.
Os autores submetem as páginas aos sites de busca. Isso é mais comum no caso de diretórios, que apenas listam sites previamente examinados; todos os diretórios mostram links para formulários de submissão de sites; evidentemente, a submissão não garante que o site será listado.
As Search Engines (na verdade, qualquer site pode fazer isso) executam, em seus servidores, aplicativos que têm a função de recuperar páginas da web, interpretá-las, armazená-las e extrair os links existentes; caso algum link aponte para uma página desconhecida, o endereço é armazenado para visita(s) posterior(es).
Esses pequenos aplicativos são chamados crawlers, bots, robots ou spiders. Na verdade, um bot nada mais é do que um User Agent (programa que auxilia a recuperação de dados), similar aos navegadores padrão (Internet Explorer, Netscape, Opera, etc), com a diferença de que executam as funções específicas acima mencionadas.
Ao requisitar uma página, como todo User Agent, os bots incluem no cabeçalho HTTP informações sobre si, como por exemplo o nome. O site que controla o bot escolhe um nome que seja significativo; um mesmo site pode ter vários bots, com diferentes nomes. Os mais conhecidos dos bots são: Googlebot, Yahoo!Slurp, msnbot, Scooter (da Altavista) e Jeeves, entre outros; bots executados por sites que não são Máquinas de Busca: Alexa (é o bot que baixa páginas para inclusão no Internet Archive), IBM_Planetwide e outros; o próximo link traz explicações mais detalhadas sobre bots e uma lista dos bots existentes.
Como expressaram seus fundadores na seção 4.3 do paper original sobre a Google, a implementação de robots é tarefa complicada. As SEs devem criar métodos de forma que nem haja excesso de visitas a uma página ou site (um bot pode tentar baixar milhares de páginas de um servidor simultaneamente, o que causaria problemas similares a um ataque DoS), nem fique uma página ou site sem as visitas necessárias (deixando o banco de dados desatualizado).
A maioria dos log analysers consegue identificar os bots, e por isso é muito fácil acompanhar a freqüência com que um site é visitado pelos bots.
Como regra geral, os bots visitam com mais freqüência as páginas que considerem mais relevantes e/ou que sejam atualizadas mais freqüentemente. O acompanhamento de logs deve ser um hábito freqüente de webmasters: se o bot de uma SE não visitar um novo site, o site não será incluído na SE; se sua página for atualizada freqüentemente, mas as visitas forem espaçadas, é possível que os visitantes não encontrem mais o que procuram, ao chegar à sua página; se o bot costumava visitar sua página, mas deixou de fazê-lo, pode ser sinal de que seu site sofreu alguma punição.
Se você não tiver acesso aos logs, uma forma de se conhecer a última visita de determinado bot a seu site é por meio do cache da página na Search Engine. O cache nada mais é do que uma cópia do conteúdo de sua página, na última visita do bot; o cache traz no topo a data em que a página foi recuperada.
Alerta:Cuidado especial deve ser tomado em caso de mudança de hosts. Normalmente, o bot não faz consultas DNS a cada vez que acessa uma página (o tempo de consulta aos servidores DNS seria o maior gargalo do processo); em vez disso, os bots armazenam o IP de cada página. Em caso de mudança de host, o host antigo deve deixar claro que a página não se encontra mais lá, fazendo com que, excepcionalmente, o bot faça uma nova consulta DNS para obter o novo IP. Existe o risco de que o host antigo cancele sua conta mas mantenha registros do seu domínio na tabela de DNS, fazendo com que os bots continuem acessando o IP antigo, mas sem obter resposta.
Alerta: embora seja quase sempre interessante para os webmasters que os bots façam visitas freqüentes, pode ocorrer de o host achar que as visitas são demasiado freqüentes; por exemplo, hosts que cobram uma taxa fixa, ou cobram apenas por armazenamento (e não por banda consumida), podem resolver bloquear o acesso de bots que consumam muita banda; ou, ainda, um problema de configuração nos routers impede o acesso de bots. Esse tipo de problemas não é muito raro. Em caso de desaparecimento de bots, fale com seu host.
É possível exercer algum controle sobre os bots através do arquivo robots.txt.
|
|