Archive for the ‘black hat’ Category

Isso é black hat

Wednesday, March 4th, 2009

SEOs brasileiros ainda acham que black hat é repetir palavras-chave no texto e nas meta-tags, usar negrito, etc; isso é coisa de amador.

Os black hats são possivelmente as pessoas que mais entendem de SEO, redes, DBs, protocolos, etc; ver exemplos de técnicas black hat aqui e aqui.

Nesse post, John Mu fala de “um hack que você nunca descobriria”. Impressionante.

Black hat: 5 bilhões de páginas indexadas na Google.

Tuesday, July 3rd, 2007

Em maio/junho de 2006, um black hat conseguiu indexar 5 bilhões de páginas na Google: ver comentários, por exemplo, na ThreadWatch e no Digital Point (no Digital Point, o próprio Black Hat compareceu para discutir a técnica). Com bilhões de páginas indexadas, os sites atraem milhões de visitantes por dia, e rendem milhares de dólares em Adsense.

O que ele fez?

1) Ele registrou um domínio qualquer, como t1ps2see.com (dêem uma olhada no tráfego do site - expandam o período de tempo no gráfico - atualização: a Alexa restringiu o período máximo de visualização do tráfego a apenas alguns meses; entretanto, eu vi o tráfego do t1ps2see.com, e ele apresentava picos impressionantes) .
2) Ele percebeu que a Google dava aos sub-domínios um tratamento diferente do dado às páginas; um sub-domínio pagina.tips2see.com era facilmente indexável, enquanto a página tips2see.com/pagina estava sujeita a diversos filtros (o chamado efeito Sandbox), e demorava muito a aparecer.
3) De alguma forma (há diversas formas, desde as absolutamente legais - wordtracker - até as completamente ilegais - invasão de máquinas), ele passou a espionar os termos que as pessoas estavam pesquisando.
4) Para cada termo, um script automaticamente configurava um sub-dominio no servidor do black hat. Por exemplo, se alguém pesquisasse por ‘receita de bolo’, o script criava o sub-domínio receita-de-bolo.tips2see.com. Foi assim que ele gerou bilhões de páginas.
5) Ele gerou conteúdo para cada um dos sub-domínios. Como? Ele fez o que se chama content scrapping: pegue uma outra página já pronta (em geral, de uma Search Engine) e embaralhe o conteúdo; a nova página conterá diversas palavras e links correlatos com o assunto. Em lugares proeminentes da nova página (topo, laterais, etc), ele entupiu de Adsense.
6) Também por script, ele criou uma imensa interligação de sub-domínios correlatos. Tão logo uma página (na verdade, um sub-domínio) sobre ‘receitas de pudim’ fosse criada, o script automaticamente interligava essa página à outra, sobre ‘receita de bolo’.
7) Adicione alguns links (em blogs, forums, domínios expirados, etc) a algumas páginas-chave, e espere pelo efeito multiplicador de bilhões de páginas interligadas.

Na verdade, a grande sacada do Black Hat foi o item 2. Ele percebeu que a Google tratava cada sub-domínio como um domínio independente, e tirou proveito disso. Os outros itens da ‘técnica’ dele já eram mais ou menos conhecidos (tentarei detalhar mais, no futuro).

Novamente, como se vê, ser um black hat não é coisa de amadores.

O que são técnicas black hat?

Friday, June 29th, 2007

Alguns blogs discutem se técnicas como otimizar <title>, utilizar headers (h1, h2, etc), utilizar palavras-chave, escrever para ganhar links (!), etc são ou não técnicas black hat.

Minha opinião: um verdadeiro black hat daria risadas dessas comparações.

Tornar o site acessível e compreensível para os bots é o objetivo dos webmasters. Utilizar tags que estruturem a página, utilizar links de navegação que estruturem o site, utilizar headers e palavras que expressem o tópico da página ou site, tudo isso são técnicas não apenas aceitas, mas estimuladas pelas maiores Search Engines.

O que faz, então, um black hat? O black hat explora técnicas e vulnerabilidades que enganam os bots e os algoritmos. Um bom black hat tem profundos conhecimentos de redes, programação, servidores, algoritmos, etc.; ele estuda o conjunto, olha por outros ângulos, faz experimentos e descobre as vulnerabilidades.

Quais seriam exemplos de técnicas black hat?

NOTA: eu não sou um black hat. Black hats sabem que suas técnicas durarão pouco (até que as SEs as descubram, ou até que alguém as denuncie); eu prefiro criar sites duradouros. Mas algumas técnicas black hat tornaram-se públicas, e eu tomei conhecimento. Não estimulo nenhuma técnica black hat; menciono nesse blog alguns exemplos para fins puramente didáticos, eis que as vulnerabilidades mencionadas já foram detectadas e corrigidas pelas SEs.

Primeiro exemplo: Redirecionamento 302. Essa técnica foi muito discutida há uns 3 anos. Um redirecionamento é feito para se informar aos bots que a página que ele busca está em outro local. Se o redirecionamento for permanente (ou seja, a página buscada foi mudada para outro local e não retornará), o servidor informa ao bot o novo local e passa o código 301. Se o redirecionamento for temporário (ou seja, a página buscada está em outro local, mas logo retornará ao local que o bot está buscando), o servidor informa ao bot o novo local e passa o código 302. Leia esses comentários sobre redirecionamento.

Como funcionava a técnica? A técnica funcionava apenas porque o PageRank tinha altíssimo peso no algoritmo (o que não mais ocorre; veja quais fatores de ranking são mais importantes hoje). Suponhamos que eu tenha uma página sobre um tópico qualquer com alto PR (digamos, PR6). Suponhamos que eu veja uma página com bons rankings para uma palavra que eu queira, e que tenha um PR menor (digamos, PR3).

Note que o tópico dessa página-vítima não tem nada a ver com minha PR6; meu único interesse é capturar os rankings daquela página, que eu sei que me geraria dinheiro. Caso prático, para elucidar: eu criava um site sobre ‘futebol’, comprava links, e tinha centenas de páginas PR6; eu via uma página sobre ‘remédios para emagrecer’ com PR3 que aparecia na primeira página da Google; eu sei que visitantes interessados em ‘remédios para emagrecer’ geralmente gastam dinheiro online, e por isso eu vou tentar capturar aquela página.

Como fazer? Quando o bot da Google requisitar minha página sobre ‘futebol’, eu digo ao bot que houve um redirecionamento temporário (cabeçalho 302) e passo ao bot o endereço da página sobre ‘remédios’. O bot pensará: “hmm, esse conteúdo está temporariamente nessa página de PR3, mas retornará brevemente para aquela página de PR6; como a página de PR6 é muito mais relevante do que a página de PR3, então eu vou atribuir esse ranking para a página de PR6″.

E voilá: a cada vez que alguém pesquisasse por ‘remédios para emagrecer’, em vez de mostrar a página PR3, a Google se lembraria do redirecionamento e mostraria a página PR6; o dono da PR6, o black hat, colocaria anúncios sobre ‘remédios para emagrecer’ em sua página sobre ‘futebol’ e, provavelmente, ganharia algum dinheiro às custas do white hat. Veja que esse é um exemplo específico, mas em geral os black hats atuam de forma genérica: criam milhares de páginas, capturam outras milhares (um pouco de script ajuda a selecionar os nichos e páginas mais lucrativas)

Problema: e quando um usuário enviado pela Google requisitasse a página PR6? Ele não deveria ser redirecionado para a PR3? Não. Aqui entra uma técnica chamada cloaking.

O cloaking consiste em servir diferentes páginas a diferentes usuários (o nome técnico de usuários é User Agent). Se o User Agent for um navegador como o Internet Explorer ou Firefox, sirva uma página. Se o User Agent for um bot, sirva o redirecionamento. Praticamente todas as técnicas black hat utilizam cloaking. É por isso que a Google expressamente condena o uso de cloaking.

Como se vê, Black Hat não é coisa para amadores.

Google combate Made For Adsense (MFA) sites

Monday, May 21st, 2007

Vários webmasters que trabalham com sites Made For Adsense receberam uma mensagem da Google, comunicando que as respectivas contas seriam desabilitadas em 1 de junho; ver, por exemplo, esse thread do webmasterworld.

(Estou catalogando esse post como black hat porque pretendo escrever mais sobre o assunto no futuro; entretanto, a técnica por trás dos sites MFA se encaixaria melhor em gray hat, provavelmente).

O que são sites Made For Adsense? São aqueles sites em que os webmasters têm o único propósito de gerar cliques (e dinheiro) por meio do programa Adsense. A página contém pouco ou nenhum conteúdo; as posições proeminentes (topo da página e barras de navegação) são ocupadas por anúncios Adsense. No restante da página, comumente se encontra um amontoado de palavras-chave, ou uma coleção de links sobre a palavra-chave obtida de uma Search Engine; esse amontoado e essa coleção são importantes para orientar o bot do Adsense a mostrar os anúncios conexos com a palavra-chave.

A idéia é gerar milhares dessas páginas (geralmente, utilizando um software específico), colocá-las online e atrair milhares de visitantes (mesmo que cada página consiga uma ou duas visitas por dia, o acumulado é considerável). Como os visitantes não têm nada de útil para ler, eles clicam nos anúncios, gerando renda para o webmaster.

E como atrair as visitas? Há os que utilizam técnicas de black hat; esses sempre foram monitorados pela Google, e são geralmente banidos assim que descobertos. E há os que utilizam (e terão que parar em 1 de junho) a arbitragem Adsense x Adwords.

Como funciona isso? A idéia é descobrir um nicho em que os cliques sejam baratos, colocar anúncios (via Adwords) nesses sites, obter cliques e enviar os usuários para páginas que contenham anúncios Adsense em um outro nicho de valor mais elevado.

Um exemplo (puramente hipotético): alguém descobre que Adwords em páginas sobre pneus custam US$ 0.05; ele coloca anúncios em todos os sites sobre pneus com o título “pneus de ferrari”; os visitantes são então levados a páginas com pouco mais que um palavreado sobre Ferrari, e anúncios de revendedores da Ferrari, que pagam US$ 5 por clique. A cada clique, o webmaster ganha US$ 5, ou seja, cem vezes mais do que ele pagou pelo visitante.

É claro que diversos outros fatores afetam a lucratividade da operação. Por exemplo, a taxa de conversao - conversion rate -, ou seja, o número de pessoas que vêm do site sobre pneus e clicam no site sobre Ferrari; ou, ainda, o smart pricing, que tanto pode aumentar o custo dos cliques nos sites sobre pneus como diminuir o valor dos cliques nos sites para as Ferraris. Mas há todo um grupo de webmasters que se especializou nessa técnica, e por meio da monitoração de milhares de palavras-chave em diversos nichos, milhares de páginas-alvo (as landing pages), exaustivos testes de posicionamento, etc, atingiram lucros fabulosos (na thread do webmasterworld acima, há alguns webmasters que dizem ganhar mais de US$ 10 mil dólares, e há um que afirma ter ganho US$ 70 mil nesse mês).

A Google, evidentemente, sempre soube que isso ocorria, e, apesar das reclamações de diversas pessoas (tanto publishers como anunciantes), jamais atuou para impedir esses webmasters; afinal - esse é um consenso que se formou nos boards - a Google ganha sua comissão em qualquer caso.

Agora, parece que a Google se convenceu de que isso é negativo quer para sua imagem quer para sua lucratividade, e gentilmente deu um aviso-prévio para que os webmasters alterem suas práticas.

A se analisar o impacto que isso terá para publishers e anunciantes.