Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
O algoritmo Hilltop
Uma das deficiências do algoritmo de PageRank é que qualquer link, em qualquer página contida no índice, aumentava o PageRank (e melhorava o ranking) da página que recebia o link.
Entre vários outros, dois problemas maiores preocupavam a Google: 1) webmasters estavam comprando links, para aumentar seu PageRank; 2) uma vez tendo construído um site de alto Pagerank, ficava fácil para os webmasters construírem outros sites e, de imediato, apontar links de suas próprias páginas e conseguir um bom posicionamento inicial.
O algoritmo Hilltop atacou esses dois problemas.
O Hilltop foi concebido por Krishna Bharat, quando era pesquisador da Compaq. Leia o paper original sobre o algoritmo Hilltop, em inglês.
Não há informações oficiais de que o Hilltop tenha sido implementado. Entretanto, os fatos de que Bharat seja hoje pesquisador sênior da Google, e de que os resultados da Google hoje reflitam muitos dos conceitos expostos no paper, são indícios de que o Hilltop (ou boa parte dele) foi incorporado ao algoritmo da Google.
O próprio autor descreve a base do Hilltop, na seção 1.2 do paper:
"Nossa técnica é fundamentada nas mesmas suposições dos outros algoritmos baseados em conectividade, ou seja, que o número e qualidade das fontes que fazem referência a uma página dão uma boa medida da qualidade da mesma. A diferença chave consiste no fato de que nós consideramos apenas fontes que sejam "experts" - páginas que tenham sido criadas com o propósito específico de encaminhar as pessoas aos recursos que procuram. Para responder a uma pesquisa, nós primeiro computamos uma lista dos maiores experts naquele tópico. A seguir, nós identificamos links relevantes dentro desse conjunto de experts, e os seguimos para identificar páginas alvo. Essas páginas alvo são então rankeadas, de acordo com o número e a relevância de experts não-afiliados que apontam para elas. Dessa forma, o posicionamento de uma página reflete a opinião coletiva dos melhores experts independentes naquele tópico. Quando um conjunto de experts não existir, Hilltop não retornará resultados. Assim, Hilltop é focado na relevância dos resultados, e não na abrangência da pesquisa."
Veja-se, pois, que os links agora não são mais todos iguais.
O Hilltop procura detectar hosts afiliados; se um link apontar para uma página em um host afiliado, o valor do link é descontado.
Dois hosts são considerados afiliados se (seção 2.1):
Eles têm os mesmos primeiros três octetos de endereço IP, ou seja, os IPs pertencem a uma mesma classe C. Por exemplo, os hosts com IPs 200.109.112.132 e 200.109.112.132 (ou qualquer outro host de IP 200.109.112.xxx) são considerados afiliados.
Isso foi feito porque webmasters que possuíam muitos domínios costumavam armazená-lo ou num mesmo IP (é possível ter vários domínios em um mesmo IP), ou numa mesma empresa de webhosting, na qual os grupos de IP pertencem são distribuídos por uns poucos grupos de classe C. Isso diminuiu muito o poder dos webmasters que possuíam neworks privadas.
O primeiro nome não-genérico do domínio é o mesmo. Por exemplo, ibm.com e ibm.co.uk são afiliados (com, co e uk são nomes genéricos; o primeiro nome não-genérico, ibm, é o mesmo). Assim, links em ibm.co.uk ou em research.ibm.com não contribuem para melhorar o ranking de ibm.com. A intenção, igualmente, é impedir que sites promovam outros domínios próximos, por interesses particulares.
Observe também que a relação de filiação é transitiva: se o site A é filiado ao site B, e o site B é filiado ao site C, então o site A é filiado ao site C.
O Hilltop confia muito em experts.
Antes do Hilltop, qualquer site de alto PR poderia transferir-me PageRank, e melhorar meu ranking. O paper do Hilltop deixa claro que, se eu quiser melhorar o posicionamento do meu site sobre filmes, é muito melhor ter um link em imdb.com (um expert no tópico filmes) do que um link em nature.com (que, apesar de ser também PR9, não pode ser considerado um expert no tópico filmes); exatamente o oposto se aplica, se o tópico do meu site for "preservação da Amazônia".
O paper define expert (seção 2.2) simplesmente como qualquer página que contenha um número mínimo de links (no exemplo do paper, 5 links) para hosts não afiliados. É provável, entretanto, que esse critério tenha sido modificado, quando na implementação do algo.
A Google parece confiar no fato de que verdadeiros experts são fontes confiáveis de informações (links). Experts em geral são cautelosos na inclusão de links, e é pouco provável que se inclinem ao comércio de PageRank.
A Seção 3 detalha como os scores são calculados; observe que o cálculo do score não menciona PageRank.
Fica claro que o score calculado pelo Hilltop é tanto maior quanto maior for o número de experts que apontem para determinada página, e quanto maior for a coincidência de palavras-chave presentes em pontos chave do expert (título, âncora) etc. e na expressão de pesquisa.
Embora o Hilltop não faça menção a PageRank, isso não significa que esse tenha sido deixado de lado; embora haja evidências de que o peso do PageRank tenha sido diminuído, a própria Google afirma que PageRank ainda é o cerne do algoritmo da Google".
O que mais provavelmente está ocorrendo é que a Google está adicionando novos conceitos ao seu algoritmo de rankeamento, e fazendo as adaptações necessárias nas partes já existentes. Em outras palavras, a Google parece ter diminuído o peso do PageRank, e acrescentado outros critérios de rankeamento, como o Hilltop e a análise semântica, entre outros.
|
|