Black hat: 5 bilhões de páginas indexadas na Google.
Em maio/junho de 2006, um black hat conseguiu indexar 5 bilhões de páginas na Google: ver comentários, por exemplo, na ThreadWatch e no Digital Point (no Digital Point, o próprio Black Hat compareceu para discutir a técnica). Com bilhões de páginas indexadas, os sites atraem milhões de visitantes por dia, e rendem milhares de dólares em Adsense.
O que ele fez?
1) Ele registrou um domínio qualquer, como t1ps2see.com (dêem uma olhada no tráfego do site - expandam o período de tempo no gráfico).
2) Ele percebeu que a Google dava aos sub-domínios um tratamento diferente do dado às páginas; um sub-domínio pagina.tips2see.com era facilmente indexável, enquanto a página tips2see.com/pagina estava sujeita a diversos filtros (o chamado efeito Sandbox), e demorava muito a aparecer.
3) De alguma forma (há diversas formas, desde as absolutamente legais - wordtracker - até as completamente ilegais - invasão de máquinas), ele passou a espionar os termos que as pessoas estavam pesquisando.
4) Para cada termo, um script automaticamente configurava um sub-dominio no servidor do black hat. Por exemplo, se alguém pesquisasse por ‘receita de bolo’, o script criava o sub-domínio receita-de-bolo.tips2see.com. Foi assim que ele gerou bilhões de páginas.
5) Ele gerou conteúdo para cada um dos sub-domínios. Como? Ele fez o que se chama content scrapping: pegue uma outra página já pronta (em geral, de uma Search Engine) e embaralhe o conteúdo; a nova página conterá diversas palavras e links correlatos com o assunto. Em lugares proeminentes da nova página (topo, laterais, etc), ele entupiu de Adsense.
6) Também por script, ele criou uma imensa interligação de sub-domínios correlatos. Tão logo uma página (na verdade, um sub-domínio) sobre ‘receitas de pudim’ fosse criada, o script automaticamente interligava essa página à outra, sobre ‘receita de bolo’.
7) Adicione alguns links (em blogs, forums, domínios expirados, etc) a algumas páginas-chave, e espere pelo efeito multiplicador de bilhões de páginas interligadas.
Na verdade, a grande sacada do Black Hat foi o item 2. Ele percebeu que a Google tratava cada sub-domínio como um domínio independente, e tirou proveito disso. Os outros itens da ‘técnica’ dele já eram mais ou menos conhecidos (tentarei detalhar mais, no futuro).
Novamente, como se vê, ser um black hat não é coisa de amadores.