Black hat: 5 bilhões de páginas indexadas na Google.

July 3rd, 2007

Em maio/junho de 2006, um black hat conseguiu indexar 5 bilhões de páginas na Google: ver comentários, por exemplo, na ThreadWatch e no Digital Point (no Digital Point, o próprio Black Hat compareceu para discutir a técnica). Com bilhões de páginas indexadas, os sites atraem milhões de visitantes por dia, e rendem milhares de dólares em Adsense.

O que ele fez?

1) Ele registrou um domínio qualquer, como t1ps2see.com (dêem uma olhada no tráfego do site - expandam o período de tempo no gráfico - atualização: a Alexa restringiu o período máximo de visualização do tráfego a apenas alguns meses; entretanto, eu vi o tráfego do t1ps2see.com, e ele apresentava picos impressionantes) .
2) Ele percebeu que a Google dava aos sub-domínios um tratamento diferente do dado às páginas; um sub-domínio pagina.tips2see.com era facilmente indexável, enquanto a página tips2see.com/pagina estava sujeita a diversos filtros (o chamado efeito Sandbox), e demorava muito a aparecer.
3) De alguma forma (há diversas formas, desde as absolutamente legais - wordtracker - até as completamente ilegais - invasão de máquinas), ele passou a espionar os termos que as pessoas estavam pesquisando.
4) Para cada termo, um script automaticamente configurava um sub-dominio no servidor do black hat. Por exemplo, se alguém pesquisasse por ‘receita de bolo’, o script criava o sub-domínio receita-de-bolo.tips2see.com. Foi assim que ele gerou bilhões de páginas.
5) Ele gerou conteúdo para cada um dos sub-domínios. Como? Ele fez o que se chama content scrapping: pegue uma outra página já pronta (em geral, de uma Search Engine) e embaralhe o conteúdo; a nova página conterá diversas palavras e links correlatos com o assunto. Em lugares proeminentes da nova página (topo, laterais, etc), ele entupiu de Adsense.
6) Também por script, ele criou uma imensa interligação de sub-domínios correlatos. Tão logo uma página (na verdade, um sub-domínio) sobre ‘receitas de pudim’ fosse criada, o script automaticamente interligava essa página à outra, sobre ‘receita de bolo’.
7) Adicione alguns links (em blogs, forums, domínios expirados, etc) a algumas páginas-chave, e espere pelo efeito multiplicador de bilhões de páginas interligadas.

Na verdade, a grande sacada do Black Hat foi o item 2. Ele percebeu que a Google tratava cada sub-domínio como um domínio independente, e tirou proveito disso. Os outros itens da ‘técnica’ dele já eram mais ou menos conhecidos (tentarei detalhar mais, no futuro).

Novamente, como se vê, ser um black hat não é coisa de amadores.

O poder dos links: um mês depois

July 2nd, 2007

Nesse post, de aproximadamente um mês atrás (31 de maio), pudemos ver o início de um experimento; uma página específica de um blog começou a receber links de outros blog, todos com o mesmo texto.

Vejamos o que aconteceu após um mês.
Até o final de maio, o Bruno tinha recebido 40 pares de links; em 6 de junho, ele anunciou ter recebido mais dez, e em 20 de junho outros 10, perfazendo assim um total de 60 pares de links (60 para a homepage do blog, 60 para a página da promoção).

Resultados nas SERPs:

  • o post continua, naturalmente, #1 para [ganhe um domínio grátis]; o interessante é que hoje o número de páginas é 87.900, bem abaixo do que era em maio (193.000).
  • o post passou de #17 para #13 para [domínio grátis]; o número de páginas passou de 2.180.000 para 3.360.000
  • o post passou de #56 para #35 para [promoção]; o número de páginas aumentou de 21.800.000 para 22.600.000
  • a homepage continua #1 e #2 para [brpoint], com as mesmas páginas de 31 de maio (interessante investigar porque a mesma página continua em #2, ou seja, ela é a segunda página mais relevante para [brpoint]). A homepage continua #2 para [problogging], mas a #1 mudou para blogmedia.biz (PR4). Para [tecnologia], a homepage sumiu das primeiras 1000 posições (o que era de se esperar, pois a palavra tecnologia foi removida do Título).
  • O título da homepage permanece o mesmo: ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Para [dicas de blog], o site passou de #680 (página interna) para #29 (homepage). Para [SEO], o site passou de #45/#46 para #10 (homepage) e #11 (fim do SEO).
  • Para [opinião], a homepage passou de #121 para #137
  • CONCLUSÕES: Essas são minhas conclusões.

  • Para [promoção], houve uma esperada melhora, de #56 para #35; no longo prazo, essa é a palavra que mais deve melhorar de ranking, pois é a que mais receberá texto-âncora específico.
  • O interessante é que a palavra [domínio grátis] também teve uma boa melhoria. Pode ser porque a página ainda está ganhando score por ter ‘domínio grátis’ no Título.
    Mas, pode ser também porque a google olha para o texto ao redor do link e também melhora seus rankings. Eu acho isso bastante plausível; isso faz sentido, porque em casos como “Clique aqui para saber mais sobre a Ferrari”, mesmo que a palavra clicável seja Clique aqui, o tópico que o autor quis ressaltar foi a Ferrari. Poderíamos testar isso acompanhando a evolução de outras palavras-chave na frase do Bruno (Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.), mas, além de ‘domínio grátis’, ela só contém palavras genéricas.
  • Em relação às palavras que compõem o Título da homepage, observam-se comportamentos diversos. Para [problogging] e [opinião], não houve progresso. Para [dicas de blog] e [SEO], houve excelente progresso. Como interpretar? Primeiro, as palavras [problogging] e [opinão] já estavam no Título, e portanto tiveram menos a ganhar durante o mês passado; as palavras [dicas de blog] e [SEO], ao contrário, tinham acabado de entrar no Título, e portanto não estavam se beneficiando de tal situação.
    Primeira conclusão: as palavras do Título são importantíssimas para um bom rankeamento (o que aliás é bem sabido pelos SEOs mais experientes). Mas acho que uma segunda conclusão é possível; por que [problogging] e [opinão] subiram pouco, apesar daqueles links, e [SEO] e [dicas de blog] subiram tão rapidamente? Acho que a resposta é que a Google sabe que o blog do Bruno foca-se muito em redor dos tópicos [SEO] e [dicas blog], e gira apenas tangencialmente ao redor de [problogging] e [opinião]; em outras palavras, o blog tem autoridade para escrever sobre [SEO], mas é apenas mais um a escrever sobre [opinião]. E como a Google sabe disso? Análise semântica, links, vizinhanças, …
  • No Cade.com.br:

  • o post continua #1 para [ganhe um domínio grátis] e passou de #9 para #7 para [domínio grátis]
  • para [promoção], a página brpoint.net/tag/promocao aparece agora em #21; não há nenhuma outra página do domínio entre os 1000 primeiros (!!)
  • para [problogging], a homepage continua #1. Para [SEO], as páginas brpoint.net/categoria/seo e brpoint.net/tag/seo passaram para #12 e #13, e a homepage desapareceu. Para [dicas de blog], a homepage passou de #159 para #12, e a página brpoint.net/categoria/dicas passou do nada para #22. Para [opinião], a homepage passou de #160 para #193.
  • CONCLUSÕES:

  • o Yahoo parece dar menos valor ao texto-âncora do que a Google. Ou o Yahoo ainda está dando peso para o ‘domínio grátis’ do Título, ou parece que o Yahoo pode estar dando mais peso a palavras ao redor do texto-âncora (a acompanhar). No caso presente, o Yahoo deu pouco valor a [promoção], mas parece ter dado valor a [domínio grátis]
  • o Yahoo deu bastante valor a Tags e Categorias. Não sei como essas páginas e sub-diretórios são formados, vou investigar melhor.
  • No msn.com.br:

  • para [ganhe um domínio grátis], o post saiu de lugar nenhum para #11
  • a search.msn.com torna as coisas muito difíceis para se alterar o idioma para o Português.
  • Conclusão: 1) os links tiveram certamente forte influência para alavancar o post; 2) o msn não se preocupa muito com usabilidade.

    O que são técnicas black hat?

    June 29th, 2007

    Alguns blogs discutem se técnicas como otimizar <title>, utilizar headers (h1, h2, etc), utilizar palavras-chave, escrever para ganhar links (!), etc são ou não técnicas black hat.

    Minha opinião: um verdadeiro black hat daria risadas dessas comparações.

    Tornar o site acessível e compreensível para os bots é o objetivo dos webmasters. Utilizar tags que estruturem a página, utilizar links de navegação que estruturem o site, utilizar headers e palavras que expressem o tópico da página ou site, tudo isso são técnicas não apenas aceitas, mas estimuladas pelas maiores Search Engines.

    O que faz, então, um black hat? O black hat explora técnicas e vulnerabilidades que enganam os bots e os algoritmos. Um bom black hat tem profundos conhecimentos de redes, programação, servidores, algoritmos, etc.; ele estuda o conjunto, olha por outros ângulos, faz experimentos e descobre as vulnerabilidades.

    Quais seriam exemplos de técnicas black hat?

    NOTA: eu não sou um black hat. Black hats sabem que suas técnicas durarão pouco (até que as SEs as descubram, ou até que alguém as denuncie); eu prefiro criar sites duradouros. Mas algumas técnicas black hat tornaram-se públicas, e eu tomei conhecimento. Não estimulo nenhuma técnica black hat; menciono nesse blog alguns exemplos para fins puramente didáticos, eis que as vulnerabilidades mencionadas já foram detectadas e corrigidas pelas SEs.

    Primeiro exemplo: Redirecionamento 302. Essa técnica foi muito discutida há uns 3 anos. Um redirecionamento é feito para se informar aos bots que a página que ele busca está em outro local. Se o redirecionamento for permanente (ou seja, a página buscada foi mudada para outro local e não retornará), o servidor informa ao bot o novo local e passa o código 301. Se o redirecionamento for temporário (ou seja, a página buscada está em outro local, mas logo retornará ao local que o bot está buscando), o servidor informa ao bot o novo local e passa o código 302. Leia esses comentários sobre redirecionamento.

    Como funcionava a técnica? A técnica funcionava apenas porque o PageRank tinha altíssimo peso no algoritmo (o que não mais ocorre; veja quais fatores de ranking são mais importantes hoje). Suponhamos que eu tenha uma página sobre um tópico qualquer com alto PR (digamos, PR6). Suponhamos que eu veja uma página com bons rankings para uma palavra que eu queira, e que tenha um PR menor (digamos, PR3).

    Note que o tópico dessa página-vítima não tem nada a ver com minha PR6; meu único interesse é capturar os rankings daquela página, que eu sei que me geraria dinheiro. Caso prático, para elucidar: eu criava um site sobre ‘futebol’, comprava links, e tinha centenas de páginas PR6; eu via uma página sobre ‘remédios para emagrecer’ com PR3 que aparecia na primeira página da Google; eu sei que visitantes interessados em ‘remédios para emagrecer’ geralmente gastam dinheiro online, e por isso eu vou tentar capturar aquela página.

    Como fazer? Quando o bot da Google requisitar minha página sobre ‘futebol’, eu digo ao bot que houve um redirecionamento temporário (cabeçalho 302) e passo ao bot o endereço da página sobre ‘remédios’. O bot pensará: “hmm, esse conteúdo está temporariamente nessa página de PR3, mas retornará brevemente para aquela página de PR6; como a página de PR6 é muito mais relevante do que a página de PR3, então eu vou atribuir esse ranking para a página de PR6″.

    E voilá: a cada vez que alguém pesquisasse por ‘remédios para emagrecer’, em vez de mostrar a página PR3, a Google se lembraria do redirecionamento e mostraria a página PR6; o dono da PR6, o black hat, colocaria anúncios sobre ‘remédios para emagrecer’ em sua página sobre ‘futebol’ e, provavelmente, ganharia algum dinheiro às custas do white hat. Veja que esse é um exemplo específico, mas em geral os black hats atuam de forma genérica: criam milhares de páginas, capturam outras milhares (um pouco de script ajuda a selecionar os nichos e páginas mais lucrativas)

    Problema: e quando um usuário enviado pela Google requisitasse a página PR6? Ele não deveria ser redirecionado para a PR3? Não. Aqui entra uma técnica chamada cloaking.

    O cloaking consiste em servir diferentes páginas a diferentes usuários (o nome técnico de usuários é User Agent). Se o User Agent for um navegador como o Internet Explorer ou Firefox, sirva uma página. Se o User Agent for um bot, sirva o redirecionamento. Praticamente todas as técnicas black hat utilizam cloaking. É por isso que a Google expressamente condena o uso de cloaking.

    Como se vê, Black Hat não é coisa para amadores.

    SEO.com é vendido por US$ 5 milhões

    June 20th, 2007

    O domínio SEO.com foi vendido por US$ 5 milhões; ver notícia em inglês aqui.

    Para comparar: o domínio poker.com foi vendido recentemente por US$ 1 milhão, e o porn.com foi vendido por US$ 9 milhões (ver aqui); isso significa que o comprador enxerga muito mais valor no mercado de SEO do que no mercado de poker online, e quase tanto quanto no mercado para adultos.

    Interessante é que mesmo entre webmasters o valor causou enorme surpresa; nesse thread, que foi iniciado um mês antes da venda (quando já havia rumores de que o domínio seria negociado), as estimativas iniciais variavam de US$ 20 mil a uns US$ 100 mil, com maior concentração na faixa dos US$ 50 mil.

    O novo comprador certamente acredita num enorme crescimento do mercado de SEO. E eu concordo com ele.

    De certa forma, a internet está ainda nos primórdios (compare-se, por exemplo, os 10 anos de internet comercial com os 70 anos de televisão comercial), as Search Engines são ainda novas, e as técnicas de SEO são praticamente desconhecidas.

    Num futuro não distante, os SEOs serão tão conhecidos (e indispensáveis) como os profissionais de marketing de hoje.

    New York Times escreve sobre a Google

    June 4th, 2007

    Um jornalista do New York Times foi autorizado a participar de uma reunião entre os engenheiros responsáveis pelo Controle de Qualidade dos Resultados na Google. O texto do jornalista está aqui. Matt Cutts, um dos engenheiros da Google responsáveis pela Qualidade dos resultados, comentou a reportagem aqui, e disse “in my opinion it does a good job of describing search quality at Google.”

    O post do Matt é permanente, mas o artigo do NYTimes deve tornar-se ‘apenas para assinantes’ em breve. Abaixo, alguns trechos do artigo:

    Online stores, he notes, find that a quarter to a half of their visitors, and most of their new customers, come from search engines. And media sites are discovering that many people are ignoring their home pages — where ad rates are typically highest — and using Google to jump to the specific pages they want.

    “Google has become the lifeblood of the Internet,” Mr. Battelle says. “You have to be in it.”

    ….

    Some complaints involve simple flaws that need to be fixed right away. Recently, a search for “French Revolution” returned too many sites about the recent French presidential election campaign — in which candidates opined on various policy revolutions — rather than the ouster of King Louis XVI. A search-engine tweak gave more weight to pages with phrases like “French Revolution” rather than pages that simply had both words.

    At other times, complaints highlight more complex problems. In 2005, Bill Brougher, a Google product manager, complained that typing the phrase “teak patio Palo Alto” didn’t return a local store called the Teak Patio.

    So Mr. Singhal fired up one of Google’s prized and closely guarded internal programs, called Debug, which shows how its computers evaluate each query and each Web page. He discovered that Theteakpatio.com did not show up because Google’s formulas were not giving enough importance to links from other sites about Palo Alto.

    It was also a clue to a bigger problem. Finding local businesses is important to users, but Google often has to rely on only a handful of sites for clues about which businesses are best. Within two months of Mr. Brougher’s complaint, Mr. Singhal’s group had written a new mathematical formula to handle queries for hometown shops.

    …THE QDF solution revolves around determining whether a topic is “hot.” If news sites or blog posts are actively writing about a topic, the model figures that it is one for which users are more likely to want current information. The model also examines Google’s own stream of billions of search queries, which Mr. Singhal believes is an even better monitor of global enthusiasm about a particular subject.

    As Google compiles its index, it calculates a number it calls PageRank for each page it finds. This was the key invention of Google’s founders, Mr. Page and Sergey Brin. PageRank tallies how many times other sites link to a given page. Sites that are more popular, especially with sites that have high PageRanks themselves, are considered likely to be of higher quality.

    Mr. Singhal has developed a far more elaborate system for ranking pages, which involves more than 200 types of information, or what Google calls “signals.” PageRank is but one signal. Some signals are on Web pages — like words, links, images and so on. Some are drawn from the history of how pages have changed over time. Some signals are data patterns uncovered in the trillions of searches that Google has handled over the years.

    “The data we have is pushing the state of the art,” Mr. Singhal says. “We see all the links going to a page, how the content is changing on the page over time.”

    These signals and classifiers calculate several key measures of a page’s relevance, including one it calls “topicality” — a measure of how the topic of a page relates to the broad category of the user’s query. A page about President Bush’s speech about Darfur last week at the White House, for example, would rank high in topicality for “Darfur,” less so for “George Bush” and even less for “White House.” Google combines all these measures into a final relevancy score.

    The sites with the 10 highest scores win the coveted spots on the first search page, unless a final check shows that there is not enough “diversity” in the results. “If you have a lot of different perspectives on one page, often that is more helpful than if the page is dominated by one perspective,” Mr. Cutts says. “If someone types a product, for example, maybe you want a blog review of it, a manufacturer’s page, a place to buy it or a comparison shopping site.”

    Yahoo is now developing special search formulas for specific areas of knowledge, like health. Microsoft has bet on using a mathematical technique to rank pages known as neural networks that try to mimic the way human brains learn information.

    Google’s use of signals and classifiers, by contrast, is more rooted in current academic literature, in part because its leaders come from academia and research labs. Still, Google has been able to refine and advance those ideas by using computer and programming resources that no university can afford.

    “People still think that Google is the gold standard of search,” Mr. Battelle says. “Their secret sauce is how these guys are doing it all in aggregate. There are 1,000 little tunings they do.”

    Muita informação interessante, confirmada pela própria Google. Para ler e reler algumas vezes.

    Encontrando os links ideais

    June 2nd, 2007

    É fato bem sabido que LINKS são elemento essencial no algoritmo de TODAS as Search Engines.

    Outro fato, esse não tão sabido, é que os links não são todos iguais, ou melhor, nenhum link, no que se refere a peso nos rankings das SEs, é igual a outro. Vários webmasters ainda dão grande valor a PageRank para avaliar o valor de sites e páginas (e, conseqüentemente, ainda que de forma inconsciente, links); outros, de forma ainda mais simplista, dão valor simplesmente ao número de backlinks.

    Desde há muito tempo, há diversos outros fatores que influenciam no valor de um link. O mais incontroverso (pois afirmado pela própria Google - ver item 2.2 da Anatomia da Google), mas ainda assim desconhecido, é o texto-âncora do link. Outros fatores são o conteúdo da página que contém o link, o TrustRank do site que contém o link, o posicionamento do link na página, etc.

    Embore seja mencionado aqui por último, um dos fatores mais importantes é a vizinhança do link. Se sua página é sobre [bananas], um bom link é aquele que esteja em um site de uma vizinhança de sites que tratem de [bananas]. E será ainda melhor, se o link estiver numa página que seja uma autoridade (receba um grande número de links) ou um hub (aponte para outros sites relevantes) da vizinhança. E quanto mais desses links a sua página conseguir, mais relevante ela será para [bananas], e mais sua página subirá nos rankings para [bananas].

    Esse gráfico simples explica muito bem a situação:

    link-ideal.jpg

    Cada ponto é uma página, cada traço é um link. Como elas se linkam porque têm um tópico em comum, elas formam uma vizinhança.
    Veja que algumas páginas são aglutinadoras de links (são as autoridades da vizinhança); outras páginas são emissoras de links (são os hubs da vizinhança). Isso (a direção dos links) não está representada no esquema, mas a Google enxerga muito bem essas relações.

    Atente para a página representada pelo ponto negro no meio do gráfico. Ela não é a que mais recebe links, e possivelmente não tem alto PR. Mas é essa página que recebe links (recebe votos) de diversos pontos distribuídos por toda a vizinhança. Provavelmente, é essa a página que as SEs elegerão como a mais relevante da vizinhança.

    O trabalho de um SEO é conseguir que suas páginas estejam justamente naquele ponto negro.

    O poder dos links: um caso prático

    May 31st, 2007

    Deparei-me há pouco com esse post: http://www.brpoint.net/arquivo/blogs/ganhe-um-dominio-gratis.html (removi os links desse post, para não causar nenhuma influência no experimento abaixo).

    O Bruno, webmaster do site brpoint.net, teve uma ótima idéia: está pagando o registro de um domínio por um ano para todos os webmasters que fizerem uma avaliação daquele site e incluírem dois links para o mesmo.

    Os avaliadores têm o trabalho de examinar os pontos positivos e negativos do brpoint.net; em troca, ganham um ano de registro de domínio. O Bruno tem que pagar algo entre US$ 6 e US$ 12 por participante, mas em troca ganha não apenas uma avaliação (provavelmente imparcial) do seu site - e isso é importante para que se possa aprimorar o mesmo -, mas também (e principalmente) os links, que provavelmente melhorarão os rankings do brpoint nas diversas Search Engines. Uma situação em que todos ganham.

    Espero que ganhemos também nós, estudiosos dos algoritmos.

    Parece que o Bruno não vai ter problemas em conseguir os 200 links (2 de cada site, até um máximo de 100 sites). As regras que ele estipulou exigem que os links estejam em páginas indexadas na Google; além disso, foi exigido de todos os participantes que incluíssem nos respectivos sites um pequeno texto, o qual continha dois links.

    
    Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.

    De novo, removi os links; veja o código-fonte para conferir o código dos links.

    Ou seja, o post vai receber 100 links com a âncora ‘promoção’, e a homepage vai receber 100 links com a âncora ‘BrPoint’.

    Minha intenção é ver o impacto que os links vão causar nos rankings do post e da homepage, para diversas palavras chave. Teria sido muito bom acompanhar o experimento desde o início, mas ainda podemos tirar várias conclusões.

    O post do BrPoint foi criado em 16/5/2007; o Bruno já reconheceu 40 pares de links. Nesse momento (31/5, quase meia-noite), vejo o seguinte:

    Na Google:

  • O post já é #1 (193.000 páginas) para [ganhe um domínio grátis], que é o Título da página; isso quer dizer que em quinze dias a página já foi indexada e ganhou um score considerável
  • O post é #17 (mostrando 10 resultados por página) para [domínio grátis], que é consideravelmente mais competitiva (2.180.000 páginas); a intenção é ver quanto ainda ela vai subir, com os links extras que ainda virão
  • O post já está na posição #56 para [promoção], que é altamente competitiva (21.800.000 páginas)
  • A homepage já é, evidentemente, #1 para brpoint (e também #2, para uma página de 12/03/2007, solicitando ajuda para o Aldemir - não vou colocar a URL porque poderia influenciar o ranking). Mas é interessante ver o que acontecerá com o ranking para outros termos: a homepage é #2 para [problogging] (a #1 é problogging.com); a homepage está em #700 (100 resultados por página) para a palavra [tecnologia] (91.800.000 páginas), que está no Título da página no cache da Google; para a palavra [promoção], ao redor da posição #163, há outra página do Brpoint com um FAQ, datada de 23/05/2007
  • Excelente: parece que de ontem para hoje o Título da homepage foi alterado de ‘BrPoint | Problogging, Tecnologia e Opinião’ para ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Vamos ver o que vai acontecer então com os rankings para [tecnologia] (item anterior), [Dicas de Blog] e [SEO]. Hoje, para [dicas de blog], há uma página com dicas para o Adsense na posição #680; para [SEO], há dois links (100 resultados por SERP) do seo.brpoint.net nas posições #45/46 - uma sobre o-fim-do-seo e outra sobre yahoo-permite-nao-indexacao-de-parte-das-paginas (128.000.000 de páginas - estranhamente, há muitas páginas escritas em japonês nas primeiras posições << investigar); ao redor das posições #50/51, há duas páginas do www.brpoint.net - uma página sobre o seo-brasil-transferido e outra sobre seo-nao-confunda-alhos-com-bugalhos.Vamos acompanhar o que acontece nos próximos dias/semanas/meses.
  • Para [opinião], a homepage está em #121 (42.700.000 páginas)
  • No Cade.com.br:

  • o post já é #1 para [ganhe um domínio grátis] (47.200 páginas) e #9 para [domínio grátis] (3.930.000 páginas)
  • a homepage é #86 para [promoção], mas a palavra está na homepage; a página com FAQs da promoção é #146; o post em si não aparece entre os 1000 resultados apresentados (!!)
  • Para [problogging], a homepage é #1; para [tecnologia], a homepage é #249 (tecnologia está na página em cache); para [SEO], #25; para [dicas de blog], 159; para [opinião], #160.
  • No msn.com.br:

  • Para [ganhe um domínio grátis] (10.174 páginas), a primeira página está em #120, e é uma página interna em que se faz referência à promoção (ou seja, essa página tem mais peso do que o post sobre a própria promoção !!); para [domínio grátis], nem o post nem outra página aparecem entre os 1000 primeiros resultados
  • Para [problogging], a primeira página a aparecer é a página sobre wp-plugins, #180
  • Vamos acompanhar esses rankings, para ver o que ocorrerá nos próximos dias/semanas/meses.

    Atualização em 2 de julho: clique aqui.

    A importância da Primeira Página

    May 28th, 2007

    Nesse outro post, coloquei alguns motivos para explicar por que um bom posicionamento na primeira página de respostas (SERPs) vai tornar-se cada vez mais difícil e relevante.

    Minha experiência já havia demonstrado isso. Chegar à primeira página, ainda que ao último link dela,  gera um significativo aumento no número de visitas em relação à segunda página; depois, chegar ao que se chama ‘above the fold’, ou seja, o espaço visível da primeira página sem necessidade de rolagem vertical, gera um outro significativo aumento; e, finalmente, chegar ao topo da primeira página causa o maior dos aumentos em tráfego.

    E isso é fácil de explicar: as pessoas tendem naturalmente a clicar naquilo que está imediatamente na frente de sua vista (ou seja, o topo das SERPs); rolar a tela para baixo exige que se posicione o mouse em um local específico (poucas pessoas sabem que podem rolar a tela com as setas), e passar à segunda página exige ainda mais intimidade com o navegador (o usuário tem que clicar no pequeno 2 ou no obscuro Mais no finalzinho da página). Eu acho que o usuário típico clica no que quer que a Google mostre na primeira página, ou repete a pesquisa com outros termos.

    Recentemente, deparei-me com esse estudo sobre cliques na primeira página. Os resultados do estudo não apenas confirmam a importância da primeira página, mas mostram que é ainda mais importante estar no topo dela.

    A origem da História: em agosto de 2006, a AOL, maior provedora de acesso à internet dos Estados Unidos, deixou que um enorme banco de dados vazasse para a internet; esse banco continha uma relação de milhões de pesquisas efetuadas por usuários AOL, bem como seu comportamento (quais links foram clicados) perante as páginas de resposta. À época, houve grandes discussões nos EUA, pois isso poderia ser visto como uma violação à privacidade das pessoas (algumas pessoas podem se sentir desconfortáveis se *todas* as palavras que elas pesquisaram na internet fossem tornadas públicas); um exemplo dessa discussão está aqui.

    Mas voltemos ao estudo, que é o que nos interessa aqui. Alguém fez uma análise dos mais de 36 milhões de pesquisas e mais de 19 milhões de cliques (o que indica que quase a metade das pesquisas não gera nenhum clique). A figura abaixo mostra a distribuição dos cliques nos links da primeira página:

    estudo-aol.png

    Como se vê, a posição #1 recebe mais de 42% dos cliques ! Quase a metade de todos os usuários clicam o site #1. O site número 2 recebe aproximadamente 12% dos cliques, ou menos de um terço; o número 3 recebe pouco mais de 8%; os sites 6 em diante, que certamente está abaixo da dobra, recebem menos de 4%; é interessante observar que o site #10, provavelmente por ser a última opção apresentada ao usuário, recebe um pouco mais de cliques que o número 9.

    E a página 2? A pesquisa revelou como o número de visitantes que passam à página 2 cai drasticamente:

    estudo-aol-2.png

    Menos de 1% dos usuários passaram à página 2.

    Cabem algumas observações: primeiro, os dados referem-se apenas aos usuários da AOL, que, pode-se argumentar, não refletem o universo de usuários da internet; entretanto, sabe-se que os usuários AOL (americano, que paga mensalmente com cartão de crédito suas mensalidades) são dos mais contumazes compradores via internet, ou seja, são os que mais interessam a sites comerciais. Segundo, desde o vazamento dos dados, cada vez mais o topo das SERPs vem sendo tomado por links patrocinados (veja o site da AOL); isso significa que mesmo o topo dos links orgânicos pode ter perdido relevância hoje.

    Mas uma conclusão é certa: estar na primeira página das SERPs faz toda a diferença entre o sucesso e o fracasso de um site.

    Florida Update

    May 27th, 2007

    Em outros posts, como esse último, eu menciono o Update Florida.

    Até meados de 2004, havia alguma regularidade nas atualizações do índice da Google. Durante aproximadamente um mês, os bots da Google vasculhavam a web coletando páginas e analisando links. Então, durante alguns dias, alguns servidores eram alimentados com os dados coletados, e tinha início o enorme trabalho de cálculo do PageRank. Feitos os cálculos, os novos dados (páginas, índice invertido, PageRank, etc) eram enviados aos servidores de SERPs (o processo tomava alguns dias), e o mundo podia ver o que a Google considerava ser as melhores páginas para cada palavra.

    Esse período em que os dados do índice eram atualizados eram chamados Google Dance; o nome deriva do fato de que as páginas se comportavam como se estivessem dançando (algumas subindo, algumas descendo). O pessoal da Webmasterworld resolveu batizar cada dança com um nome de mulher, e a cada vez com uma letra sucessiva, à semelhança com o que os Americanos fazem com furacões; assim é que houve, entre outras, as update Dominique, Emerald and Florida (são as de que me lembro; infelizmente, o arquivo da WMW não está indexado para buscas).

    A update Florida foi marcante. Até então (novembro de 2003), o algoritmo da Google era fortemente baseado em dois fatores: PageRank e texto-âncora. Muitas pessoas passavam um mês acumulando links em páginas de alto PR e, no mês seguinte, comemoravam abertamente o resultado nos forums.

    Depois da Florida, o mundo nunca mais foi o mesmo para os SEOs.

    Alguns links:

    Florida update: http://www.webmasterworld.com/forum3/18347.htm

    Florida update para membros da WMW (mais informação, menos ruído): http://www.webmasterworld.com/forum78/2874.htm

    Comentários de algumas pessoas que passaram imunes pelo Florida: http://www.webmasterworld.com/forum78/3138.htm

    Qual o mais terrível update na histórida das Search Engines? http://www.webmasterworld.com/forum5/3355.htm (parece que, em 1999, a Altavista, que era a Google de então, promoveu uma mudança profunda, para incluir os chamados “links patrocinados”).

    Vale a pena ler tudo isso? Sem dúvida; se não por outro motivo, para ver como a vida de um SEO pode ser mudada do dia para a noite. Eu já reli essas threads e as outras, referentes aos updates anteriores (Dominique, Emerald, etc) algumas vezes; é interessante ver como a Google, ainda que não pareça, está sempre um passo adiante dos webmasters.

    Patente da Google: uso de dados históricos

    May 25th, 2007

    Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

    O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

    E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

    No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

    Com seu exército de Phds, a Google certamente percebeu duas coisas.

    Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

    Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

    Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

    Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

    Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

    Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

    Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

    Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

    Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.