Archive for the ‘fatores de ranking’ Category

O que é TrustRank ?

Wednesday, May 16th, 2007

O que fez a Google o que ela é hoje foi o Pagerank.

O PageRank de uma página era um número calculado pelo algoritmo da Google, proporcional ao PageRank das páginas que continham um link apontando para aquela página. Sim, o processo é recursivo; para saber o PR de uma dada página, eu tenho que saber o PR das outras páginas que linkam para ela; e para saber os PR das páginas que linkam para ela, eu tenho que saber os PRs das outras páginas que linkam para as páginas que linkam para ela, etc., etc..

Alguns sites (nenhum em Português, que eu saiba), tentaram explicar os fundamentos matemáticos do PageRank. Cada página tinha então um PR, que era usado como fator de pontuação e rankeamento: após calcular o score parcial de uma página em função dos demais critérios de rankeamento (número de vezes que a palavra aparece no texto, uso de palavras similares, palavras em negrito, etc), tal score parcial era “ajustado” pelo PageRank da página.

Para quem entende de banco de dados: o PR era apenas uma variável extra num banco de dados relacional; a pontuação era calculada como se o PR não existisse (pelos mesmos critérios que se empregavam antigamente: densidade de palavras, palavras no título, palavras em negrito, etc), e daí essa pontuação era multiplicada pelo valor da variável PR.

Dado isso, era relativamente fácil melhorar o posicionamento de uma página: bastava aumentar o PageRank. E como aumentar o PageRank? Bastava conseguir links em outras páginas com alto PageRank (na verdade, qualquer página, desde que tivesse algum PageRank, servia). Para garantir resultados ainda melhores, devia-se pedir à página com link que adotasse como texto-âncora a palavra desejada. O processo era todo automatizado, dependendo inteiramente de algoritmos, e algoritmos não são capazes de julgar as intenções dos webmasters.

Desde o update Flórida, no final de 2003, isso mudou. Hoje em dia, o TrustRank é muito mais importante do que o PageRank.

Trust é a palavra em inglês para ‘confiança’. A Google quer ter confiança num link, antes de lhe conceder o poder de alavancar uma página. Veja o paper original sobre TrustRank. Traduzo um trecho do resumo: “Páginas de spam utilizam várias técnicas para obter rankings melhores do que os merecidos nas Search Engines. Embora humanos possam identificar spam, o processo de avaliação manual de um grande número de páginas fica muito caro. Em vez disso, nós propomos técnicas para, de forma semi-automática, separar as páginas boas e reputáveis daquelas de spam. Uma vez que páginas-semente reputáveis sejam manualmente identificadas, nós utilizamos a estrutura de links da web para identificar outras páginas que provavelmente são também reputáveis. Nesse paper nós discutimos algumas maneiras possíveis para implementar a identificação de páginas-semente e a descoberta de novas páginas confiáveis”.

Ou seja, o processo deixou de ser automático. Com TrustRank, um ser humano deve identificar quais são as páginas de confiança (que são chamadas de seed pages, ou páginas-semente); a essas páginas é atribuído um valor de TrustRank. A partir daí, TrustRank transmite-se por links, tal qual PageRank; entretanto, enquanto PR era transferido pela simples existência de um link, o TR fala em ‘páginas que provavelmente são reputáveis’, ou seja, pode ser que não haja transferência de TR.

Quais são as páginas-semente? O paper não os discrimina, mas informa que naquele experimento foram utilizados 7.900 sites (e não páginas). Isso parece (pelo menos para mim) um indicativo de que o TrustRank é atribuído a sites, e não páginas. Isso faz uma enorme diferença: uma vez o site tendo sido identificado como de alto TR, todas as suas páginas assim também o serão; não importa mais o PageRank da página, importa sim o TrustRank do site.

E quais são esses sites escolhidos como semente, para começar a distribuir TrustRank? Quais sites mereceriam a confiança da Google?

Aqui começam as hipóteses e discussões. Um site de Trust provavelmente preza pela relevância das informações que apresenta, bem assim como dos links (que devem ser vistos como informações complementares) que contém. Um site do governo americano, por exemplo, é, a princípio, de alta confiança. Em certa medida, também as Universidades americanas, que sabem perfeitamente que sua imagem será avaliada pela qualidade das páginas do seu site. Por isso, formou-se um consenso de que páginas .gov e .edu são de alto TR (e seus links são mais valiosos).

Quais mais? Em geral, os sites em que é visível a necessidade de publicar conteúdo relevante. Sites de notícias (cnn, bbc), grandes empresas (ford, ibm, apple), grandes instituições (nasa, cruz vermelha, nature), etc. Uma coisa em comum entre sites de alto TR é que é difícil incluir um link nesses sites apenas pela vontade de terceiros; esses sites tomam a iniciativa de encontrar documentos de valor e linkar para eles.

E quais sites não merecem confiança? Acho que há dois tipos.

Primeiro, aqueles em que é possível criar um link, qualquer que seja a qualidade da página que recebe o link. Isso inclui, por exemplo, sites que permitem links anônimos, sites que promovem troca indiscriminada de links, sites que listem outros sites em troca de dinheiro.

Segundo, não merecem confiança os sites que se envolvem com sites do primeiro grupo. Por exemplo, um site que tem cem links, noventa dos quais provenientes de sites de pouco Trust, provavelmente terá também baixo Trust.

Resumo da questão: procure obter links de sites de alto Trust. É melhor obter UM link de harvard.edu, ainda que o PageRank seja PR1, do que obter dez links de diretórios a US$10 cada, ainda que todos tenham PR4.

E como obter esses links de alto trust? Produza uma página que contenha tanta informação que seja tão relevante, que o webmaster do site de alto trust queira linkar para você.

Qual a importância atual do PageRank?

Wednesday, May 2nd, 2007

Foi graças ao PageRank que a Google assumiu a supremacia dentre as SEs (leia mais sobre a Google e esse breve histórico das máquinas de busca). Entretanto, desde o início, já se sabia que o Pagerank apresentava vulnerabilidades; já em 2004, a Google havia implementado algumas medidas para combater os manipuladores de PageRank. Novas técnicas estavam em discussão à época: o Hilltop combatia os links afiliados, e a interpretação semântica procurava melhor interpretar o sentido das páginas.

Muita coisa mudou desde então.

Cito, resumidamente, o que considero as mudanças mais significativas. Futuramente, pretendo fazer comentários mais detalhados.

  • a Google introduziu o TrustRank (essa página da SEW contém links para o paper original, em PDF). Com PageRank, o objetivo era conseguir links; qualquer link servia, desde que não estivesse em um site listado em uma lista negra; com o TrustRank, o jogo se inverte: um link tem valor somente se estiver em uma página listada em uma lista branca. Evidentemente, essa é uma explicação simplificada, mas a idéia é essencialmente essa: o valor de um link é proporcional à confiança (e não ao PageRank) que a Google deposita no documento que contém o link. Leia mais sobre Trustrank.
  • a Google tornou-se capaz de analisar o histórico de páginas, sites e links (veja a análise detalhada feita pela SeoMoz). Isso quer dizer que a Google não apenas conhece o conteúdo de uma página e dos respectivos links, mas conhece também há quanto tempo o conteúdo e os links existem, e com que freqüência foram modificados. Ao incorporar essas informações ao algoritmo, a Google tornou muito mais difícil a avaliação do efeito de um link.
  • A Google certamente aprofundou-se na análise da interação entre os usuários e as páginas. Um documento é relevante para a Google se ele for útil para os usuários da Google. A Google pode medir indiretamente a satisfação do usuário com um documento de diversas formas: se o documento atende às pesquisas; quanto tempo o usuário fica na página; quantas páginas do mesmo site o usuário visita; quantos links da página ele segue; etc. Esse documento com uma recente patente da Google afirma claramente que um novo método, que leva em conta desde a pesquisa (”receiving a search query”) até a identificação de dados geográficos do usuário, estava em vias de ser implementado.

Isso significa que a antiga prática (que funcionou até o final de 2003, quando veio o famoso Florida update) de obter (ganhando, comprando, subornando, implorando, etc) links em qualquer página de alto PageRank, para que o seu próprio PageRank aumente, e em conseqüência seus rankings melhores, não funciona mais.

Isso quer dizer, como alguns advogam (por exemplo, Martinibuster), que o PageRank não serve para mais nada?

Eu acho que TrustRank hoje vale muito mais do que PageRank. O problema é que não existe uma barra de TR. E eu tenho observado que a barra de PR é, sob certas circunstâncias, um bom indicador de TR.

Por exemplo, sites que, no passado, haviam obtido links ‘questionáveis’ e catapultado seu PR hoje tem PR mais realista (= mais baixo). Por outro lado, os sites inquestionavelmente de alto Trust (.edu, .gov, wiki, yahoo, etc) continuam com o habitual PR8, PR9, PR10.

O que eu faço, no tocante a análise de PR/TR? Procuro obter links de sites de alto PR (em geral o mais alto PR está na homepage), o que indica que o site tem alto TR; ignoro o PR da página em que o link será colocado. Por exemplo, é melhor obter um link em uma página PR1 da usp.br do que obter um link na homepage PR4 de um blog do seu primo.