Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Retornar à página sobre a Google

2. Características do sistema.
A Google apresenta duas importantes características que a ajudam a produzir resultados de alta precisão. Em primeiro lugar, ela faz uso da estrutura de links da Web pra calcular uma medida de qualidade para cada página; essa medida é chamada PageRank, e está descrita com detalhes em [Page 98]. Em segundo lugar, a Google utiliza informações contidas em links para melhorar o resultado das pesquisas.
2.1 PageRank: trazendo ordem para a Web
O grafo de citações (links) da web é um recurso importante que tem sido pouco usado pelas máquinas de busca. Nós criamos alguns mapas que contêm 518  milhões de hiperlinks, uma amostra significativa do total. Esses mapas permitem um rápido cálculo do "PageRank" de páginas da web, uma medida objetiva de sua importância em citações, que guarda boa correlação com a idéia subjetiva que as pessoas têm de importância. Graças a essa correlação, PageRank é uma excelente maneira de priorizar os resultados de pesquisas por palavras-chave. Para temas populares, uma pesquisa que examina apenas os títulos das web pages retorna resultados admiráveis, quando os mesmos são ordenados por PageRank (demo disponível em google. stanford.edu). Para as pesquisas que avaliam todo o texto dos documentos, como ocorre no sistema principal da Google, PageRank também é de grande utilidade.
2.1.1. Descrição do cálculo do PageRank
A técnica acadêmica de citações literárias tem sido aplicada à web, principalmente por meio da contagem de citações (links) a uma determinada página; essa técnicao fornece uma aproximação da importância ou qualidade de uma página.   
PageRank é uma extensão dessa idéia, com algumas diferenças: os links não são considerados todos iguais; é feita uma normalização do número de links em cada página.
PageRank é definido da seguinte forma:
Assumimos que existam páginas T1, T2, ..., Tn que contenham links apontando para a página A (ou seja, as páginas T fazem citações à página A). O parâmetro d é um fator redutor que pode assumir valores entre 0 e 1;  nós usualmente estabelecemos d como 0.85 (há mais detalhes sobre d na próxima seção). C(A) representa o número de links que existem na página A. O PageRank da página A é dado pela expressão:
PR(A) = (1-d) + d [PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn)]
Observe que os PageRanks formam uma distribuição de probabilidades através de páginas web; assim a soma dos PageRanks de todas as páginas web é igual a um.

PageRank ou PR(A) pode ser calculado utilizando-se um simples algoritmo iterativo, e corresponde ao eigenvector principal da matriz normalizada de links da web. Ademais, o PageRank de 26 milhões de páginas pode ser calculado em algumas horas, utilizando-se uma estação de trabalho de médio porte. Há muitos outros detalhes que estão além do escopo desse trabalho.

2.2 Explicação intuitiva
PageRank pode ser interpretado como o modelo de comportamento de um usário. Nós supomos que existe um "usuário aleatório", a quem se fornece uma página aleatório, a partir da qual ele clica aleatoriamente; tal usuário nunca clica o botão "back", mas em algum momento ele se cansa do conteúdo da página que está visitando e requisita outra página aleatória. A probabilidade de que esse usuário aleatório visite determinada página é o PageRank dessa página. Além disso, o fator redutor d é a probabilidade, em cada página, de que o usuário aleatório se canse e requisite outra página aleatória.
Uma variação importante é atribuir o fator d apenas a uma página, ou a um grupo de páginas. Isso permite personalização e torna quase impossível enganar deliberadamente o sistema, a fim de se conseguir maiores rankings. Há outras extensões de PageRank, ver [Page98].
Outra explicação intuitiva é que uma página terá alto PageRank se houver muitas páginas apontando para ela, ou se houver algumas páginas de alto PageRank apontando para ela. Intuitivamente, é fácil aceitar que páginas que são freqüentemente citadas em muitos outros pontos da web são merecedoras de uma visita; por outro lado; se uma página não é de alta qualidade, ou se for um link quebrado, é pouco provável que a homepage do Yahoo! aponte para ela. PageRank trata essas duas situações, e todas as outras situações intermediárias, por meio da propagação recursiva de pesos através da estrutura de links da web.

2.2 Texto âncora
O texto dos links é tratado de maneira especial pela nossa search engine. A maioria das máquinas de busca associa o texto de um link com a página que contém o link; nós, além de fazer isso, associamos o texto com a página para a qual o link aponta. Isso apresenta algumas vantagens. Âncoras, freqüentemente, fornecem uma descrição mais precisa de páginas web do que as próprias páginas. Além disso, âncoras podem existir para documentos que não podem indexadas por uma search engine baseada em texto, tais como imagens, programas e bancos de dados; torna-se possível assim retornar páginas que não foram de fatos rastreadas (crawled). Vale notar que páginas que não foram rastreadas podem causar problemas, já que sua validade nunca foi verificada, antes de serem retornadas para os usários; pode ocorrer, inclusive, que a search engine retorne uma página que nunca tenha existido, mas que tenha links apontando para ela (contudo, como é possível ordenar os resultados, esse problema raramente acontece).
Essa idéia de propagação de texto-âncora à página à qual o link aponta foi implementada no World Wide Web Worm [McBryan 94], especialmente porque ela ajuda na pesquisa de informações não-textuais, e expande a cobertura da pesquisa a partir de um menor número de documentos baixados. Nós utilizamos texto-âncora principalmente para obter resultados de melhor qualidade. A utilização eficiente de textos-âncora é difícil, por causa das grandes quantidades de dados que vem ser processadas; em nossa amostra de 24 milhões de páginas, nós indexamos mais de 259 milhões de âncoras.

2.3 Outras peculiaridades
Além de PageRank e do uso de texto âncora, Google apresenta outras diversas peculiaridades. Primeiramente, ela tem informação sobre a localização de todos os hits (Nota do Tradutor: um hit significa que uma palavra-chave foi identificada num documento) e, por isso, faz uso intensivo da proximidade de palavras-chave, ao realizar as pesquisas. Além disso, Google presta atenção a alguns detalhes visuais da apresentação, como tamanho das fontes; palavras escritas em fontes maiores ou com negritos têm um peso maior que outras palavras. Ademais, o inteiro teor das páginas HTML fica disponível em um repositório próprio.

<< Google - Contexto Histórico Trabalhos de Pesquisa Relacionados >>