Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Deficiências do PageRank

Apesar de ter colocado a Google em vantagem em relação às demais Search Engines, o algoritmo do PageRank tem algumas deficiências.
Na Seção 6.1 do documento original sobre PageRank, Sergei e Larry escreveram:

"Esses tipos de PageRank personalizados são virtualmente imunes a manipulações movidas por interesses comerciais. Para uma página conseguir um alto PageRank, ela deve convencer uma página importante, ou uma porção de páginas sem importância, a linkar para ela. No pior caso, poderemos ter manipulação na forma de compra de publicidade (links) em sites importantes. Mas isso parece estar sob controle, já que custa dinheiro..."

Eles estavam errados.

Em primeiro lugar, deve-se mencionar que o algoritmo tinha uma deficiência desde a origem: o PageRank era passado de página a página, independente do conteúdo das mesmas. Isso significa que um link da homepage da NASA transferia a mesma quantidade de PageRank, quer o link apontasse para um site sobre astronáutica (tópico correlato ao da página da NASA), quer o link apontasse para um site sobre filmes dos anos 50 na Chechênia. Assim, uma pessoa procurando aumentar seu PageRank tinha apenas que conseguir links em outras páginas de alto PR, sem se importar com o tópico das mesmas.
A título de curiosidade: por volta da mesma época em que Page imaginou o PageRank, outro pesquisador chamado J. Kleinberg estava desenvolvendo um trabalho chamado Authoritative Sources in a Hyperlinked Environment (fontes que sejam autoridade em ambientes de hiperlinks), que também analisava a estrutura de links para atribuir índices de relevância a cada página; a diferença era que, para calcular o "PageRank" de uma página, o algoritmo de Kleinberg considerava apenas os links contidos em páginas cujo tópico fosse similar ao da página sob análise.
O problema dessa técnica é que o grafo a ser analisado depende da [palavra-chave], e portanto deve ser montado em tempo real, para cada pesquisa; o projeto, que recebeu o nome HITS, não foi adiante porque não havia recursos tecnológicos suficientes para torná-lo comercialmente viável. Entretanto, alguns anos depois, a patente da HITs foi adquirida pela Teoma. Leia mais sobre Teoma e AskJeeves.

As pessoas aproveitaram-se da deficiência do algo do PageRank acima mencionada para manipularem seus rankings; na verdade, pode-se dizer que a Google foi vítima do seu próprio sucesso.
Antes da Google, a compra de espaço publicitário (links de texto ou banners) era comum, mas o principal objetivo do comprador era conseguir tráfego; ninguém se importava com PageRank.
Após seu explosivo crescimento, todos queriam ter bons rankings na Google. Com o tempo, ficou evidente que havia grande correlação entre o posicionamento de uma página no ranking e seu PageRank; mais e mais pessoas aprenderam que, para aumentar seu PageRank, a maneira mais fácil era obter links em outras páginas de alto PageRank.
Em pouco tempo, PageRank virou uma commodity. Webmasters compravam links interessados apenas no PageRank, e não na quantidade ou qualidade do tráfego que receberiam. Os links, que deveriam funcionar como meio de acesso a outras fontes interessantes de informação (esse era o espírito original do PageRank) passaram a ser objeto de compra e venda.

É bem verdade que muitos (a maioria) dos grandes sites não se envolveu nesse comércio de PageRank. Os .edus, .govs, as grandes corporações continuaram sua vida normalmente.
Entretanto, alguns grupos de sites rapidamente aderiram ao comércio de PageRank. Por exemplo, alguns grandes sites de alto PageRank que desde sempre venderam links, agora podiam inserir mais links em mais páginas, por um preço muito maior; um exemplo desse tipo de site é foxnews.com. Outros sites que se beneficiaram foram aqueles que, ao longo dos anos, publicaram informações úteis e relevantes, conquistaram merecidamente vários links, e subitamente viram-se detentores de uma mercadoria relevante chamada PageRank (vários sites na geocities enquadram-se aqui); muitas pessoas que nunca pensaram em ter qualquer retorno financeiro de seus sites informativos agora podiam faturar um bom dinheiro, vendendo PageRank.
Um caso que ficou notório foi o da searchking.com. Esse site atingiu PR7 em sua homepage, tinha excelentes rankings, e abertamente anunciava a venda de links, como forma de se conseguir PageRank e melhores rankings. A Google alterou o PR da SearchKing, que viu seu tráfego encolher. A SearchKing iniciou um processo judicial contra a Google - mas não ganhou; leia sobre o caso SearchKing (siga os links no pé da página).

O fato é que estava ficando cada vez mais claro que a Google precisava fazer correções no seu algoritmo.