Archive for the ‘Google’ Category

Patente da Google: uso de dados históricos

Friday, May 25th, 2007

Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

Com seu exército de Phds, a Google certamente percebeu duas coisas.

Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.

O que é TrustRank ?

Wednesday, May 16th, 2007

O que fez a Google o que ela é hoje foi o Pagerank.

O PageRank de uma página era um número calculado pelo algoritmo da Google, proporcional ao PageRank das páginas que continham um link apontando para aquela página. Sim, o processo é recursivo; para saber o PR de uma dada página, eu tenho que saber o PR das outras páginas que linkam para ela; e para saber os PR das páginas que linkam para ela, eu tenho que saber os PRs das outras páginas que linkam para as páginas que linkam para ela, etc., etc..

Alguns sites (nenhum em Português, que eu saiba), tentaram explicar os fundamentos matemáticos do PageRank. Cada página tinha então um PR, que era usado como fator de pontuação e rankeamento: após calcular o score parcial de uma página em função dos demais critérios de rankeamento (número de vezes que a palavra aparece no texto, uso de palavras similares, palavras em negrito, etc), tal score parcial era “ajustado” pelo PageRank da página.

Para quem entende de banco de dados: o PR era apenas uma variável extra num banco de dados relacional; a pontuação era calculada como se o PR não existisse (pelos mesmos critérios que se empregavam antigamente: densidade de palavras, palavras no título, palavras em negrito, etc), e daí essa pontuação era multiplicada pelo valor da variável PR.

Dado isso, era relativamente fácil melhorar o posicionamento de uma página: bastava aumentar o PageRank. E como aumentar o PageRank? Bastava conseguir links em outras páginas com alto PageRank (na verdade, qualquer página, desde que tivesse algum PageRank, servia). Para garantir resultados ainda melhores, devia-se pedir à página com link que adotasse como texto-âncora a palavra desejada. O processo era todo automatizado, dependendo inteiramente de algoritmos, e algoritmos não são capazes de julgar as intenções dos webmasters.

Desde o update Flórida, no final de 2003, isso mudou. Hoje em dia, o TrustRank é muito mais importante do que o PageRank.

Trust é a palavra em inglês para ‘confiança’. A Google quer ter confiança num link, antes de lhe conceder o poder de alavancar uma página. Veja o paper original sobre TrustRank. Traduzo um trecho do resumo: “Páginas de spam utilizam várias técnicas para obter rankings melhores do que os merecidos nas Search Engines. Embora humanos possam identificar spam, o processo de avaliação manual de um grande número de páginas fica muito caro. Em vez disso, nós propomos técnicas para, de forma semi-automática, separar as páginas boas e reputáveis daquelas de spam. Uma vez que páginas-semente reputáveis sejam manualmente identificadas, nós utilizamos a estrutura de links da web para identificar outras páginas que provavelmente são também reputáveis. Nesse paper nós discutimos algumas maneiras possíveis para implementar a identificação de páginas-semente e a descoberta de novas páginas confiáveis”.

Ou seja, o processo deixou de ser automático. Com TrustRank, um ser humano deve identificar quais são as páginas de confiança (que são chamadas de seed pages, ou páginas-semente); a essas páginas é atribuído um valor de TrustRank. A partir daí, TrustRank transmite-se por links, tal qual PageRank; entretanto, enquanto PR era transferido pela simples existência de um link, o TR fala em ‘páginas que provavelmente são reputáveis’, ou seja, pode ser que não haja transferência de TR.

Quais são as páginas-semente? O paper não os discrimina, mas informa que naquele experimento foram utilizados 7.900 sites (e não páginas). Isso parece (pelo menos para mim) um indicativo de que o TrustRank é atribuído a sites, e não páginas. Isso faz uma enorme diferença: uma vez o site tendo sido identificado como de alto TR, todas as suas páginas assim também o serão; não importa mais o PageRank da página, importa sim o TrustRank do site.

E quais são esses sites escolhidos como semente, para começar a distribuir TrustRank? Quais sites mereceriam a confiança da Google?

Aqui começam as hipóteses e discussões. Um site de Trust provavelmente preza pela relevância das informações que apresenta, bem assim como dos links (que devem ser vistos como informações complementares) que contém. Um site do governo americano, por exemplo, é, a princípio, de alta confiança. Em certa medida, também as Universidades americanas, que sabem perfeitamente que sua imagem será avaliada pela qualidade das páginas do seu site. Por isso, formou-se um consenso de que páginas .gov e .edu são de alto TR (e seus links são mais valiosos).

Quais mais? Em geral, os sites em que é visível a necessidade de publicar conteúdo relevante. Sites de notícias (cnn, bbc), grandes empresas (ford, ibm, apple), grandes instituições (nasa, cruz vermelha, nature), etc. Uma coisa em comum entre sites de alto TR é que é difícil incluir um link nesses sites apenas pela vontade de terceiros; esses sites tomam a iniciativa de encontrar documentos de valor e linkar para eles.

E quais sites não merecem confiança? Acho que há dois tipos.

Primeiro, aqueles em que é possível criar um link, qualquer que seja a qualidade da página que recebe o link. Isso inclui, por exemplo, sites que permitem links anônimos, sites que promovem troca indiscriminada de links, sites que listem outros sites em troca de dinheiro.

Segundo, não merecem confiança os sites que se envolvem com sites do primeiro grupo. Por exemplo, um site que tem cem links, noventa dos quais provenientes de sites de pouco Trust, provavelmente terá também baixo Trust.

Resumo da questão: procure obter links de sites de alto Trust. É melhor obter UM link de harvard.edu, ainda que o PageRank seja PR1, do que obter dez links de diretórios a US$10 cada, ainda que todos tenham PR4.

E como obter esses links de alto trust? Produza uma página que contenha tanta informação que seja tão relevante, que o webmaster do site de alto trust queira linkar para você.

Qual o efeito de rel=nofollow ?

Friday, May 11th, 2007

Conformi escrevi nesse artigo, em janeiro de 2005 as três principais Search Engines do mercado, Google, Yahoo e msn se juntaram e criaram o atributo nofollow, que teria o propósito de informar a elas que o link NÃO deveria ser interpretado como um voto, e portanto não deveria trazer nenhum benefício à página para a qual o link apontasse.

Passados mais de dois anos, será que alguma coisa mudou? Pelo menos no caso da Google, eu acho que sim.

O nofollow foi criado quando o conceito de TrustRank estava incipiente (leia mais sobre TrustRank). O TrustRank mede a confiança que a Google tem em determinada página; se o TR (que, diferentemente do PageRank, a Google não informa) for alto, a Google tem tanto a página em si como os links nela contidos em alto conceito; se o TR for baixo, a Google não valoriza a página nem confia nos links nela contidos.

Para mim, isso é quase equivalente a dizer que o nofollow é desnecessário.

Nesse thread do blog do Matt Cutts, de 23 de janeiro de 2007, o Matt comenta sobre o fato de que a Wikipedia (site de altíssimo TrustRank), uma vez mais, resolveu adicionar nofollow a todos os seus links. Após o blá-blá-blá habitual, Matt escreveu: “I don’t expect this change to affect Google’s rankings very much, but it’s good to see the Wikipedia folks paying close attention to link spam”, ou seja “Eu não espero que essa mudança afete muito os rankings da Google, mas é bom ver que o pessoal da Wikipedia está prestando atenção ao link spam”.

Isso faz muito sentido. A Google confia na Wiki (aliás, não apenas confia, como idolatra); prova disso é que a Wiki está na primeira página para várias [buscas]; essa confiança provém do excelente conteúdo da Wiki, dos milhões dos links legítimos que endossam a Wiki, e de sua política de auto-vigilância que suprime links de spam. A adição ou não de nofollow pouco deveria afetar a confiança da Google nos links da Wiki.

Melhor que discutir hipóteses é tentar comprovar a tese.

Peguemos um tema da Wiki em inglês sobre o qual tenhamos algum domínio, e que seja de média competitividade. Uma sugestão é escrever sobre tópicos referentes ao Brasil; isso faz com que nosso conhecimento sobressaia em relação ao contribuinte médio da Wiki, e por isso nossas contribuições (links externos) sejam mais facilmente aceitáveis.

Por exemplo, tomemos um tópico como Clarice Lispector (750.000 páginas). Minha sugestão: escrevam uma página em inglês sobre a escritora com conteúdo de alta qualidade, que esteja dentro dos padrões da Wiki para constar como external link; façam com que esse link da Wiki seja o único link apontando para a página (ou seja, as melhorias de posição da página seriam devidas àquele link da Wiki, com nofollow). Observem a posição da página por alguns meses.

Eu tenho feito algo similar com algumas páginas (NB: sem infringir nenhuma regra da Wiki). Minhas experiências mostram que links da Wiki ainda carregam muito valor.

Um efeito do nofollow é assegurado: colocar ou removar nofollow manualmente mostra à Google, Y e msn que você sabe o que o nofollow faz; isso mostra que você tem alguma idéia do que seja SEO. Eu acho isso uma péssima idéia.

Histórico de Busca X Anúncios Adsense

Thursday, May 3rd, 2007

Desde já há alguns meses, é possível fazer pesquisas na Google estando logado como usuário Google; nesse caso, o email do usuário é mostrado no canto superior direito da página de respostas. Ao se fazer pesquisas como usuário ativo, está-se informando à Google quais pesquisas foram feitas por aquele usuário.

Há umas duas semanas, a Google divulgou o primeiro efeito dessa mudança para o usuário: é possível (na versão em inglês) visualizar o histórico de suas pesquisas (quais palavras foram pesquisadas, quais sites foram visitados, quantas vezes, em que horário, etc) e fazer alguns relatórios.

Eu pessoalmente não me entusiasmei muito com esses ’serviços’, mas desde logo ficou claro para mim que a Google certamente usuaria esses dados para personalizar as SERPs. Por exemplo, se vc. faz muitas pesquisas por [lula] e visita apenas sites sobre o molusco (receitas, criação, etc), seria de se esperar que após algum tempo a Google parasse de exibir sites sobre o Presidente.

Isso aparentemente ainda não está acontecendo, mas alguns membros do Webmasterworld lançaram a hipótese de que os anúncios do Adsense estariam sendo mostrados de acordo com os hábitos do visitante (ver aqui). Por exemplo, diz um membro, se o usuário é piloto de avião, e faz constates pesquisas por temas relacionados à aviação, o Adsense pode mostrar anúncios sobre aviação, mesmo quando o usuário visita páginas que não estão relacionadas com aviação.

É outra tentativa da Google de mostrar anúncios que tenham maior chances de serem clicados. A se acreditar na afirmação da Google, de que eles fazem o possível para aumentar o retorno dos publishers, a idéia pode ter um impacto positivo. A verificar.

Qual a importância atual do PageRank?

Wednesday, May 2nd, 2007

Foi graças ao PageRank que a Google assumiu a supremacia dentre as SEs (leia mais sobre a Google e esse breve histórico das máquinas de busca). Entretanto, desde o início, já se sabia que o Pagerank apresentava vulnerabilidades; já em 2004, a Google havia implementado algumas medidas para combater os manipuladores de PageRank. Novas técnicas estavam em discussão à época: o Hilltop combatia os links afiliados, e a interpretação semântica procurava melhor interpretar o sentido das páginas.

Muita coisa mudou desde então.

Cito, resumidamente, o que considero as mudanças mais significativas. Futuramente, pretendo fazer comentários mais detalhados.

  • a Google introduziu o TrustRank (essa página da SEW contém links para o paper original, em PDF). Com PageRank, o objetivo era conseguir links; qualquer link servia, desde que não estivesse em um site listado em uma lista negra; com o TrustRank, o jogo se inverte: um link tem valor somente se estiver em uma página listada em uma lista branca. Evidentemente, essa é uma explicação simplificada, mas a idéia é essencialmente essa: o valor de um link é proporcional à confiança (e não ao PageRank) que a Google deposita no documento que contém o link. Leia mais sobre Trustrank.
  • a Google tornou-se capaz de analisar o histórico de páginas, sites e links (veja a análise detalhada feita pela SeoMoz). Isso quer dizer que a Google não apenas conhece o conteúdo de uma página e dos respectivos links, mas conhece também há quanto tempo o conteúdo e os links existem, e com que freqüência foram modificados. Ao incorporar essas informações ao algoritmo, a Google tornou muito mais difícil a avaliação do efeito de um link.
  • A Google certamente aprofundou-se na análise da interação entre os usuários e as páginas. Um documento é relevante para a Google se ele for útil para os usuários da Google. A Google pode medir indiretamente a satisfação do usuário com um documento de diversas formas: se o documento atende às pesquisas; quanto tempo o usuário fica na página; quantas páginas do mesmo site o usuário visita; quantos links da página ele segue; etc. Esse documento com uma recente patente da Google afirma claramente que um novo método, que leva em conta desde a pesquisa (”receiving a search query”) até a identificação de dados geográficos do usuário, estava em vias de ser implementado.

Isso significa que a antiga prática (que funcionou até o final de 2003, quando veio o famoso Florida update) de obter (ganhando, comprando, subornando, implorando, etc) links em qualquer página de alto PageRank, para que o seu próprio PageRank aumente, e em conseqüência seus rankings melhores, não funciona mais.

Isso quer dizer, como alguns advogam (por exemplo, Martinibuster), que o PageRank não serve para mais nada?

Eu acho que TrustRank hoje vale muito mais do que PageRank. O problema é que não existe uma barra de TR. E eu tenho observado que a barra de PR é, sob certas circunstâncias, um bom indicador de TR.

Por exemplo, sites que, no passado, haviam obtido links ‘questionáveis’ e catapultado seu PR hoje tem PR mais realista (= mais baixo). Por outro lado, os sites inquestionavelmente de alto Trust (.edu, .gov, wiki, yahoo, etc) continuam com o habitual PR8, PR9, PR10.

O que eu faço, no tocante a análise de PR/TR? Procuro obter links de sites de alto PR (em geral o mais alto PR está na homepage), o que indica que o site tem alto TR; ignoro o PR da página em que o link será colocado. Por exemplo, é melhor obter um link em uma página PR1 da usp.br do que obter um link na homepage PR4 de um blog do seu primo.

Google atualiza PageRank

Tuesday, May 1st, 2007

A Google está atualizando o Pagerank das páginas armazenadas no seu índice.

Afora um ou outro thread nos forums (como esse, por exemplo), comentando superficialmente o assunto, não se vê muita agitação entre os SEOs. O Pagerank (que alguns estão atualmente chamando de TBPR, ou Tool Bar Page Rank, o Pagerank que se vê na barra de ferramentas da Google, e que não necessariamente seria igual ao real PageRank, efetivamente utilizado para ordenar páginas) foi atualizado pela última vez há uns quatro meses, e provavelmente só será atualizado novamente dentro de uns quatro meses.

E por que esse desinteresse pelo PageRank?

Primeiro, porque há muito tempo que já não se observa sincronismo entre alterações no PR e alterações efetivas nos rankings; segundo Matt Cutts, as eventuais mudanças de ranking derivadas do novo PR já foram há tempos incorporadas aos rankings. Nos tempos da Google Dance, as atualizações de PR, que ocorriam aproximadamente uma vez por mês, eram muito aguardadas: quando se atualizava o PR, o ranking era também (muitas vezes, radicalmente) atualizado, e assim permanecia até a atualização seguinte.

Segundo, e principalmente, porque o Pagerank perdeu o peso que costumava ter no algoritmo. Há alguns anos, um aumento de PR certamente significava uma melhoria nos rankings; hoje em dia, é comum encontrar sites que aumentam o PR mas não melhoram os rankings (ou, pior, perdem algumas posições), bem como é comum encontrar casos em que um PR1 supera um PR5 ou PR6 para uma mesma pesquisa.

Algumas pessoas afirmam que o Pagerank tornou-se irrelevante (ver Pagerank is dead no Google); não concordo, e tratarei disso em outro post.