Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Retornar à página sobre a Google
1. Introdução
(Nota: existem duas versões desse paper -- uma versão
integral e uma mais curta, para impressão. A versão
integral está disponível na web e no CD-ROM da
conferência).
A web cria novos desafios para recuperação de
informação. A quantidade de informação na
web está crescendo rapidamente, assim como o número de
novos usuários sem experiencia na arte de pesquisa. Provavelnte,
as pessoas surfam a web usando seu próprio grafo de links,
freqüentemente iniciando com algum diretório de alta
qualidade mantido por humanos, como o Yahoo! ou outras máquinas
de busca. Listas mantidas por humanos cobrem muito bem tópicos
mais populares, mas elas são subjetivas, caras para se construir
e se manter, são de lento desenvolvimento, e não cobrem
os tópicos mais esotéricos. Máquinas de busca
automatizadas que se baseiam no casamento de palavras-chave geralmente
retornam muitos sites de baixa qualidade. Para piorar as coisas,
vários sites procuram ganhar a atenção dos
usuário através de táticas que procuram enganar as
máquinas de busca.
A máquina de busca que nós construímos aborda - e
ataca - muitos desses problemas conhecidos. Ela faz um uso
particularmente intensivo da informação adicional
presente nos hipertextos, a fim de prover resultados de mais alta
qualidade. Nós escolhemos esse nome, Google, porque é uma
maneira comum (embora incorreta) de se escrever googol, nome dado ao
número 10 elevado à centésima potência; tal
nome combina bem com nosso objetivo de construir uma máquina de
busca de larga escala.
1.1 Máquinas de busca na web - de 1994 a 2000
A tecnologia por trás das máquinas de busca teve que
evoluir dramaticamente para acompanhar o crescimento da Web. Em 1994,
uma das primeiras máquinas de busca, a World Wide Web Worm
(WWWW) [McBryan 94] tinha um índice de 110.000 páginas da
web. Em novembro de 1997, as maiores máquinas de busca afirmam
indexar de 2 milhões (WebCrawler) a 100 milhões de
documentos web (de acordo com informações da Search
Engine Watch). Preve-se que no ano 2000, um índice completo da
web deverá cobrir mais de um bilhão de documentos. Ao
mesmo tempo, o número de pesquisas a que as máquinas de
busca devem responder tem também crescido muito rapidamente. Em
março e abril de 1994, a World Wide Web Worm recebeu uma
média de aproximadamente 1500 requisições por dia;
em novembro de 1997, Altavista afirmava ter servido aproximadamente 20
milhões de pesquisas por dia. Com o aumento tanto do
número de usuários como do número de outros
sistemas automatizados que fazem consultas a máquinas de busca,
é provável que as maiores máquinas estarão
respondendo a centenas de milhões de pesquisas por dia, no ano
2000. O objetivo do nosso sistema é responder satisfatoriamente
a muitas dessas questões, tanto em qualidade quanto em
possibilidade de crescimento, apresentando uma tecnologia de pesquisas
web que possa acompanhar os números extraordinários da
web.
1.2 Google: acompanhando o crescimento da Web
Desenvolver uma tecnologia que satisfaça às necessidades
atuais da web já é por si só um grande desafio.
Uma tecnologia que permita rápido rastreamento da web é
necessária, a fim de formar uma base de documentos e
mantê-la atualizada. O espaço de armazenamento deve ser
utilizado de forma eficiente para abrigar os índices e,
opcionalmente, os próprios documentos. O sistema de indexamento
deve processar eficientemente centenas de gigabytes de dados. As
pesquisas devem ser respondidas prontamente, a uma taxa de centenas ou
milhares de consultas por segundo.
Essas tarefas se tornam cada vez mais difíceis, à medida
em que a web cresce. É verdade que o desempenho do hardware tem
melhorado, assim como seu custo tem caído, o que ajuda a
enfrentar as dificuldades tecnológicas; há, entretanto,
algumas situações em que o progresso não tem sido
tão rápido, como são os casos do tempo de acesso a
discos e da robustez de sistemas operacionais. Ao projetar a Google,
levamos em consideração tanto a taxa de crescimento da
web como as futuras inovações tecnológicas. A
Google foi planejada para crescimentos futuros, até conjuntos de
dados extremamente grandes. Ela faz uso eficiente de espaço para
armazenar o index. Suas estruturas de dados são otimizadas para
acesso rápido e eficiente (ver seção 4.2).
Ademais, nós prevemos que o custo de indexar e armazenar texto
ou HTML irá declinar, à medida em que a quantidade
armazenada aumente (ver Apêndice B). Isso facilitará o
crescimento de sistemas centralizados, como a Google.
1.3 Objetivos do projeto
1.3.1 Melhorar a qualidade da Busca
Nosso principal objetivo é melhorar a qualidade das
máquinas de busca na web. Em 1994, algumas pessoas acreditavam
que um index completo possibilitaria encontrar qualquer coisa com
facilidade. De acordo com o Best of the Web 1994 - Navigators, "o
melhor serviço de navegação deverá tornar
fácil encontrar quase qualquer coisa na Web (uma vez que todos
os dados tiverem sido coletados)". Entretanto, a situação
da Web em 1997 é bastante diferente. Qualquer um que tenha
utilizado uma máquina de busca recentemente pode testemunhar que
a completude do index não é o único fator a
determinar a qualidade dos resultados da pesquisa. "Maus
resultados" freqüentemente são apresentados so
usuário, em lugar daqueles que realmente interessam. De fato, em
novembro de 1997, apenas uma das quatro maiores máquinas de
busca comerciais encontra-se a si mesma (ou seja, apresenta a sua
própria página, em resposta a uma consulta pelo seu nome,
entre os dez primeiros resultados). Uma das principais causas desse
problema é que o número de documentos indexados cresceu
várias ordens de magnitude, mas a capacidade dos usuários
de consultar documentos não cesceu. As pessoas estão
dispostas, ainda, a consultar apneas as primeiras dezenas de
resultados. Por causa disso, à medida em que o tamanho do
conjunto aumenta, nós necessitamos de ferramentas que tenham
cada vez maior precisão (medida, por exemplo, pelo número
de documentos relevantes constantes entre as primeiras dezenas de
resultados). De fato, por "relevante", nós queremos dizer que
apenas os melhores documentos devem ser incluídos, já que
existem talvez dezenas de milhares de documentos que não
têm muita importância. Essa alta precisão é
importante, ainda que tenhamos que diminuir a abrangência
(número total de documentos relevantes que o sistema é
capaz de retornar). Há opiniões otimistas no sentido de
que o uso de informações hipertextuais possa aprimorar
tanto as buscas como outras aplicações [Marchiori 97]
[Spertus 97] [Weiss 96] [Kleinberg 98]. Em particular, a estrutura de
links [Page 98] e o texto do link provêem
informações valiosas tanto para avaliação
de relevância como para filtragem da qualidade. Google utiliza
tanto a estrutura de links como o texto de links (ver
seções 2.1 e 2.2).
1.3.2 Pesquisa Acadêmica sobre Máquinas de Busca
A par do crescimento explosivo, a Web tem-se tornado cada vez mais
comercial. Em 1993, 1,5% dos servidores web estavam em domínios
.com; essa cifra aumentou para mais de 60% em 1997. Ao mesmo tempo, as
máquinas de busca migraram do campo acadêmico para o
comercial. Até agora, muito da pesquisa sobre search engines foi
realizada por companhias que tornam públicas muito poucas
informações técnicas. Por isso, a tecnologia de
máquinas de busca permanece muito obscura e orientada a
publicidade (ver Apêndice A). Com a Google, nós
objetivamos trazer mais do desenvolvimento e compreensão para o
domínio acadêmico.
Outro importante objetivo do projeto foi construir sistemas que um
número razoável de pessoas pudesse utilizar. Esse
conceito é importante par nós porque achamos que
pesquisas interessantes podem ser feitas, tendo por base a imensa
quantidade de consultas que são feitas aos sistemas modernos.
Por exemplo, sabe-se que muitas dezenas de milhões de consultas
são realizadas por dia; contudo, é muito difícil
ter acesso a esses dados (Nota do Tradutor: por exemplo, quais termos
são mais pesquisados, quantas páginas são
clicadas, etc), porque seus proprietários os considerarm como
segredos comerciais.
Nosso objetivo principal foi construir uma arquitetura que permitisse
novas maneiras de busca em dados da web em larga escala. Para permitir
novas maneiras de busca, a Google armazena todos os documentos
rastreados, de forma comprimida. Um dos principais objetivos ao
projetar a Google foi criar um ambiente em que outros pesquisadores
pudessem entrar rapidamente, processar grandes porções da
web, e produzir resultados interessantes, que dificilmente teriam sido
obtidos de outra maneira.
No curto período em que o sistema tem estado funcionando,
diversos papers já foram escritos utilizando bancos de dados
gerados pela Google, e muitos outros estão sendo escritos. Outro
de nossos objetivos é criar um ambiente como o do Spacelab, onde
pesquisadores e mesmo estudantes possam propor e realizar experimentos
interessantes, utilizando nossos dados de larga escala.
|
|