Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Retornar à página sobre a Google
2. Características do sistema.
A Google apresenta duas importantes características que a ajudam
a produzir resultados de alta precisão. Em primeiro lugar, ela
faz uso da estrutura de links da Web pra calcular uma medida de
qualidade para cada página; essa medida é chamada
PageRank, e está descrita com detalhes em [Page 98]. Em segundo
lugar, a Google utiliza informações contidas em links
para melhorar o resultado das pesquisas.
2.1 PageRank: trazendo ordem para a Web
O grafo de citações (links) da web é um recurso
importante que tem sido pouco usado pelas máquinas de busca.
Nós criamos alguns mapas que contêm 518
milhões de hiperlinks, uma amostra significativa do total. Esses
mapas permitem um rápido cálculo do "PageRank" de
páginas da web, uma medida objetiva de sua importância em
citações, que guarda boa correlação com a
idéia subjetiva que as pessoas têm de importância.
Graças a essa correlação, PageRank é uma
excelente maneira de priorizar os resultados de pesquisas por
palavras-chave. Para temas populares, uma pesquisa que examina apenas
os títulos das web pages retorna resultados admiráveis,
quando os mesmos são ordenados por PageRank (demo
disponível em google. stanford.edu). Para as pesquisas que
avaliam todo o texto dos documentos, como ocorre no sistema principal
da Google, PageRank também é de grande utilidade.
2.1.1. Descrição do cálculo do PageRank
A técnica acadêmica de citações
literárias tem sido aplicada à web, principalmente por
meio da contagem de citações (links) a uma determinada
página; essa técnicao fornece uma
aproximação da importância ou qualidade de uma
página.
PageRank é uma extensão dessa idéia, com algumas
diferenças: os links não são considerados todos
iguais; é feita uma normalização do número
de links em cada página.
PageRank é definido da seguinte forma:
Assumimos que existam páginas T1, T2, ..., Tn que contenham
links apontando para a página A (ou seja, as páginas T
fazem citações à página A). O
parâmetro d é um fator redutor que pode assumir valores
entre 0 e 1; nós usualmente estabelecemos d como 0.85
(há mais detalhes sobre d na próxima
seção). C(A) representa o número de links que
existem na página A. O PageRank da página A é dado
pela expressão:
PR(A) = (1-d) + d [PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn)]
Observe que os PageRanks formam uma distribuição de
probabilidades através de páginas web; assim a soma dos
PageRanks de todas as páginas web é igual a um.
PageRank ou PR(A) pode ser calculado utilizando-se um simples algoritmo
iterativo, e corresponde ao eigenvector principal da matriz normalizada
de links da web. Ademais, o PageRank de 26 milhões de
páginas pode ser calculado em algumas horas, utilizando-se uma
estação de trabalho de médio porte. Há
muitos outros detalhes que estão além do escopo desse
trabalho.
2.2 Explicação intuitiva
PageRank pode ser interpretado como o modelo de comportamento de um
usário. Nós supomos que existe um "usuário
aleatório", a quem se fornece uma página
aleatório, a partir da qual ele clica aleatoriamente; tal
usuário nunca clica o botão "back", mas em algum momento
ele se cansa do conteúdo da página que está
visitando e requisita outra página aleatória. A
probabilidade de que esse usuário aleatório visite
determinada página é o PageRank dessa página.
Além disso, o fator redutor d é a probabilidade, em cada
página, de que o usuário aleatório se canse e
requisite outra página aleatória.
Uma variação importante é atribuir o fator d
apenas a uma página, ou a um grupo de páginas. Isso
permite personalização e torna quase impossível
enganar deliberadamente o sistema, a fim de se conseguir maiores
rankings. Há outras extensões de PageRank, ver [Page98].
Outra explicação intuitiva é que uma página
terá alto PageRank se houver muitas páginas apontando
para ela, ou se houver algumas páginas de alto PageRank
apontando para ela. Intuitivamente, é fácil aceitar que
páginas que são freqüentemente citadas em muitos
outros pontos da web são merecedoras de uma visita; por outro
lado; se uma página não é de alta qualidade, ou se
for um link quebrado, é pouco provável que a homepage do
Yahoo! aponte para ela. PageRank trata essas duas
situações, e todas as outras situações
intermediárias, por meio da propagação recursiva
de pesos através da estrutura de links da web.
2.2 Texto âncora
O texto dos links é tratado de maneira especial pela nossa
search engine. A maioria das máquinas de busca associa o texto
de um link com a página que contém o link; nós,
além de fazer isso, associamos o texto com a página para
a qual o link aponta. Isso apresenta algumas vantagens. Âncoras,
freqüentemente, fornecem uma descrição mais precisa
de páginas web do que as próprias páginas.
Além disso, âncoras podem existir para documentos que
não podem indexadas por uma search engine baseada em texto, tais
como imagens, programas e bancos de dados; torna-se possível
assim retornar páginas que não foram de fatos rastreadas
(crawled). Vale notar que páginas que não foram
rastreadas podem causar problemas, já que sua validade nunca foi
verificada, antes de serem retornadas para os usários; pode
ocorrer, inclusive, que a search engine retorne uma página que
nunca tenha existido, mas que tenha links apontando para ela (contudo,
como é possível ordenar os resultados, esse problema
raramente acontece).
Essa idéia de propagação de texto-âncora
à página à qual o link aponta foi implementada no
World Wide Web Worm [McBryan 94], especialmente porque ela ajuda na
pesquisa de informações não-textuais, e expande a
cobertura da pesquisa a partir de um menor número de documentos
baixados. Nós utilizamos texto-âncora principalmente para
obter resultados de melhor qualidade. A utilização
eficiente de textos-âncora é difícil, por causa das
grandes quantidades de dados que vem ser processadas; em nossa amostra
de 24 milhões de páginas, nós indexamos mais de
259 milhões de âncoras.
2.3 Outras peculiaridades
Além de PageRank e do uso de texto âncora, Google
apresenta outras diversas peculiaridades. Primeiramente, ela tem
informação sobre a localização de todos os
hits (Nota do Tradutor: um hit significa que uma palavra-chave foi
identificada num documento) e, por isso, faz uso intensivo da
proximidade de palavras-chave, ao realizar as pesquisas. Além
disso, Google presta atenção a alguns detalhes visuais da
apresentação, como tamanho das fontes; palavras escritas
em fontes maiores ou com negritos têm um peso maior que outras
palavras. Ademais, o inteiro teor das páginas HTML fica
disponível em um repositório próprio.
|
|