Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Máquinas de Busca versus spammers

No contexto de Search Engines, spammers são aqueles que preparam páginas com o objetivo não de transmitir informações, mas sim de obter melhores posicionamentos nos rankings. Os spammers existem desde que ficou evidente que o valor de um site está diretamente associado ao seu volume de tráfego.
O objetivo das Ferramentas de Busca é ordenar os sites de acordo com critérios objetivos de relevância, e não de acordo com técnicas obscuras dos spammers. Para conseguir derrotar os spammers, as SEs continuamente aprimoram suas técnicas de rankeamento. Abaixo, um breve histórico da batalha.
Nos primórdios da web, os principais sites de busca constituíam-se de diretórios, compilados manualmente; a quantidade de sites existentes era baixa, e a demanda por informações tão grande, que spamming não era um grande problema.
Com o crescimento da web, os diretórios foram dando lugar às Search Engines, que dependiam de um algoritmo para avaliar a relevância das páginas. A origem do problema das Search Engines é: como avaliar o conteúdo de uma página? como saber se determinada página é relevante para uma pesquisa por determinada palavra-chave?
A primeira opção foi confiar nas informações fornecidas pelos próprios autores das páginas. Alguns elementos HTML, como title, meta, h1 e outros, foram projetados especificamente para que os autores descrevessem o assunto que estivessem abordando. Em pouco tempo, os spammers estavam explorando a falha: páginas com title, meta, etc faziam referência à, por exemplo, [nba play-offs], [free mp3] ou outros termos de alta procura, mas o corpo da página continha apenas banners para sites eróticos.
O próximo passo foi procurar analisar o próprio conteúdo do texto no corpo das páginas. Ficou famoso o conceito de keyword density, ou densidade de palavras-chave: as Search Engines examinavam o número de vezes que uma [keyword] aparecia na página, em comparação com o número total de palavras; se essa densidade fosse muito baixa, a página seria pouco relevante para a [keyword]; se fosse muito alta, a página seria considerada spam.
A resposta dos spammers foi a criação (ou aperfeiçoamento) das doorway pages: já que a keyword density ideal era um segredo, os spammers geravam milhares de páginas aleatórias, com pequenas variações de densidade, uso de h1, etc; a idéia é que algumas dessas páginas tivesse a composição ideal, de acordo com os critérios das Search Engines. Vários programas foram vendidos (e.g., ht*p://www.webpositiongold.com) com o objetivo de se automatizar a criação de milhares de páginas, baseadas em [palavras-chave]; também nessa época foi difundido o uso de "texto invisível", ou seja, texto que as Search Engines podiam ler, mas os usuários humanos não (por exemplo, letras muito pequenas ou letras da mesma cor que o pano de fundo). É claro que, no meio de todo esse palavrório, estavam os banners para sites eróticos. Alerta: essa técnica funcionou no passado, mas hoje é caminho certo para uma severa punição ao seu site.
Próximo passo: por volta de 1998/99, a Altavista percebeu que deveria, de alguma forma, tirar dos autores o poder de determinar a relevância das páginas; ela foi a primeira a introduzir o conceito de link popularity: se vários sites apontam um link para uma Página A, essa página deve ser de boa qualidade. A implementação desse conceito rapidamente elevou a qualidade das páginas mostradas pela Altavista, que se tornou a maior das SEs por volta de 2000. Entretanto, havia brechas a serem exploradas: como a popularidade era determinada apenas pelo número de links (enquanto, posteriormente, o PageRank passou a avaliar também a qualidade de cada link), cedo se formaram grupos de webmasters com o propósito único de colocarem links entre si, criando o que se chama hoje de link farm; também nessa época, apesar do alto preço de registro de domínios (a Network Solutions era monopolista, e cobrava US$ 35 por ano por domínio), nasceram as redes privadas (private networks), conjunto de sites pertencentes a um mesmo dono. Alerta: essa técnica funcionou no passado, mas hoje é caminho certo para uma severa punição ao seu site.
A Google leva o conceito de link popularity um passo adiante, e implementa o PageRank. Em vez de apenas contar o número de links para determinada página, a Google passou a avaliar a qualidade dos links: ter um único link em uma página de alta qualidade (ou de alto PageRank) como a homepage da Yahoo! ou a homepage da NASA tem mais valor do que as centenas de links artificiais forjados entre parceiros (já que esses links têm provavelmente um baixo PageRank).
A par do PageRank, a Google passou a dar especial atenção ao texto âncora (o texto que aparece nos links); essa idéia, de que o texto âncora é uma descrição concisa mas acurada do conteúdo de uma página, já era conhecida pela Altavista, mas ganhou ênfase com a Google.
A atuação dos spammers é difícil, pois a única maneira de se conseguir PageRank é por meio de outras páginas que já tenham PageRank, e sites de alto PageRank são em geral sites consagrados, avessos a técnicas de spamming (é pouco provável que a NASA ou a Apple se engajem em um link farm). É também difícil, por parte das outras SEs, copiar esse modelo, pois o cálculo de PageRank exige muitos recursos.
Esses fatores explicam o crescimento e o sucesso da Google.

Chegamos aos dias atuais. A Google ainda é líder, mas muitos dos seus conceitos pioneiros foram incorporados pelas concorrentes, como Yahoo! e Teoma (embora não haja documentação oficial, os resultados mostram isso). Além disso, a manipulação de PageRank, muito rara no início, tornou-se cada vez mais difundida; há um consenso de que, atualmente, o PageRank tem um peso muito menor do que há alguns anos, quando se ordenam os sites.
As Search Engines continuam a envidar esforços para combater os spammers; o grau de conhecimento exigido dos spammers é agora muito mais alto; firmou-se o papel dos chamados SEOs (Search Engine Optmizers), que se dedicam a otimizar páginas para obtenção de melhores rankings, sem no entanto violar as normas das Search Engines.
Algumas novas técnicas têm circulado pela web, como o algoritmo HillTop da Google, e o uso de clusters, principalmente pela Teoma. É provável que várias outras técnicas tenham sido desenvolvidas e estejam sendo aplicadas. É certo que a Google está constantemente introduzindo novos elementos em seu algoritmo, a fim de refiná-lo (a Google afirma que seu algoritmo utiliza mais de 100 critérios para rankeamento); é certo também que, freqüentemente, ainda que não altere os elementos do algo, a Google modifica os pesos de cada elemento.
Para informações atualizadas, visite as seções específicas para cada SE.