Patente da Google: uso de dados históricos
Friday, May 25th, 2007Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).
O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.
E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.
No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.
Com seu exército de Phds, a Google certamente percebeu duas coisas.
Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).
Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.
Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).
Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.
Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.
Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.
Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.
Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.
Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.