Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Retornar à página sobre a Google

1. Introdução
(Nota: existem duas versões desse paper -- uma versão integral e uma mais curta, para impressão. A versão integral está disponível na web e no CD-ROM da conferência).
A web cria novos desafios para recuperação de informação. A quantidade de informação na web está crescendo rapidamente, assim como o número de novos usuários sem experiencia na arte de pesquisa. Provavelnte, as pessoas surfam a web usando seu próprio grafo de links, freqüentemente iniciando com algum diretório de alta qualidade mantido por humanos, como o Yahoo! ou outras máquinas de busca. Listas mantidas por humanos cobrem muito bem tópicos mais populares, mas elas são subjetivas, caras para se construir e se manter, são de lento desenvolvimento, e não cobrem os tópicos mais esotéricos. Máquinas de busca automatizadas que se baseiam no casamento de palavras-chave geralmente retornam muitos sites de baixa qualidade. Para piorar as coisas, vários sites procuram ganhar a atenção dos usuário através de táticas que procuram enganar as máquinas de busca.
A máquina de busca que nós construímos aborda - e ataca - muitos desses problemas conhecidos. Ela faz um uso particularmente intensivo da informação adicional presente nos hipertextos, a fim de prover resultados de mais alta qualidade. Nós escolhemos esse nome, Google, porque é uma maneira comum (embora incorreta) de se escrever googol, nome dado ao número 10 elevado à centésima potência; tal nome combina bem com nosso objetivo de construir uma máquina de busca de larga escala.


1.1 Máquinas de busca na web - de 1994 a 2000

A tecnologia por trás das máquinas de busca teve que evoluir dramaticamente para acompanhar o crescimento da Web. Em 1994, uma das primeiras máquinas de busca, a World Wide Web Worm (WWWW) [McBryan 94] tinha um índice de 110.000 páginas da web. Em novembro de 1997, as maiores máquinas de busca afirmam indexar de 2 milhões (WebCrawler) a 100 milhões de documentos web (de acordo com informações da Search Engine Watch). Preve-se que no ano 2000, um índice completo da web deverá cobrir mais de um bilhão de documentos. Ao mesmo tempo, o número de pesquisas a que as máquinas de busca devem responder tem também crescido muito rapidamente. Em março e abril de 1994, a World Wide Web Worm recebeu uma média de aproximadamente 1500 requisições por dia; em novembro de 1997, Altavista afirmava ter servido aproximadamente 20 milhões de pesquisas por dia. Com o aumento tanto do número de usuários como do número de outros sistemas automatizados que fazem consultas a máquinas de busca, é provável que as maiores máquinas estarão respondendo a centenas de milhões de pesquisas por dia, no ano 2000. O objetivo do nosso sistema é responder satisfatoriamente a muitas dessas questões, tanto em qualidade quanto em possibilidade de crescimento, apresentando uma tecnologia de pesquisas web que possa acompanhar os números extraordinários da web.

1.2 Google: acompanhando o crescimento da Web
Desenvolver uma tecnologia que satisfaça às necessidades atuais da web já é por si só um grande desafio. Uma tecnologia que permita rápido rastreamento da web é necessária, a fim de formar uma base de documentos e mantê-la atualizada. O espaço de armazenamento deve ser utilizado de forma eficiente para abrigar os índices e, opcionalmente, os próprios documentos. O sistema de indexamento deve processar eficientemente centenas de gigabytes de dados. As pesquisas devem ser respondidas prontamente, a uma taxa de centenas ou milhares de consultas por segundo.
Essas tarefas se tornam cada vez mais difíceis, à medida em que a web cresce. É verdade que o desempenho do hardware tem melhorado, assim como seu custo tem caído, o que ajuda a enfrentar as dificuldades tecnológicas; há, entretanto, algumas situações em que o progresso não tem sido tão rápido, como são os casos do tempo de acesso a discos e da robustez de sistemas operacionais. Ao projetar a Google, levamos em consideração tanto a taxa de crescimento da web como as futuras inovações tecnológicas. A Google foi planejada para crescimentos futuros, até conjuntos de dados extremamente grandes. Ela faz uso eficiente de espaço para armazenar o index. Suas estruturas de dados são otimizadas para acesso rápido e eficiente (ver seção 4.2). Ademais, nós prevemos que o custo de indexar e armazenar texto ou HTML irá declinar, à medida em que a quantidade armazenada aumente (ver Apêndice B). Isso facilitará o crescimento de sistemas centralizados, como a Google.


1.3 Objetivos do projeto
1.3.1 Melhorar a qualidade da Busca
Nosso principal objetivo é melhorar a qualidade das máquinas de busca na web. Em 1994, algumas pessoas acreditavam que um index completo possibilitaria encontrar qualquer coisa com facilidade. De acordo com o Best of the Web 1994 - Navigators, "o melhor serviço de navegação deverá tornar fácil encontrar quase qualquer coisa na Web (uma vez que todos os dados tiverem sido coletados)". Entretanto, a situação da Web em 1997 é bastante diferente. Qualquer um que tenha utilizado uma máquina de busca recentemente pode testemunhar que a completude do index não é o único fator a determinar a qualidade dos resultados da pesquisa. "Maus resultados"  freqüentemente são apresentados so usuário, em lugar daqueles que realmente interessam. De fato, em novembro de 1997, apenas uma das quatro maiores máquinas de busca comerciais encontra-se a si mesma (ou seja, apresenta a sua própria página, em resposta a uma consulta pelo seu nome, entre os dez primeiros resultados). Uma das principais causas desse problema é que o número de documentos indexados cresceu várias ordens de magnitude, mas a capacidade dos usuários de consultar documentos não cesceu. As pessoas estão dispostas, ainda, a consultar apneas as primeiras dezenas de resultados. Por causa disso, à medida em que o tamanho do conjunto aumenta, nós necessitamos de ferramentas que tenham cada vez maior precisão (medida, por exemplo, pelo número de documentos relevantes constantes entre as primeiras dezenas de resultados). De fato, por "relevante", nós queremos dizer que apenas os melhores documentos devem ser incluídos, já que existem talvez dezenas de milhares de documentos que não têm muita importância. Essa alta precisão é importante, ainda que tenhamos que diminuir a abrangência (número total de documentos relevantes que o sistema é capaz de retornar). Há opiniões otimistas no sentido de que o uso de informações hipertextuais possa aprimorar tanto as buscas como outras aplicações [Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]. Em particular, a estrutura de links [Page 98] e o texto do link provêem informações valiosas tanto para avaliação de relevância como para filtragem da qualidade. Google utiliza tanto a estrutura de links como o texto de links (ver seções 2.1 e 2.2).


1.3.2 Pesquisa Acadêmica sobre Máquinas de Busca
A par do crescimento explosivo, a Web tem-se tornado cada vez mais comercial. Em 1993, 1,5% dos servidores web estavam em domínios .com; essa cifra aumentou para mais de 60% em 1997. Ao mesmo tempo, as máquinas de busca migraram do campo acadêmico para o comercial. Até agora, muito da pesquisa sobre search engines foi realizada por companhias que tornam públicas muito poucas informações técnicas. Por isso, a tecnologia de máquinas de busca permanece muito obscura e orientada a publicidade (ver Apêndice A). Com a Google, nós objetivamos trazer mais do desenvolvimento e compreensão para o domínio acadêmico.
Outro importante objetivo do projeto foi construir sistemas que um número razoável de pessoas pudesse utilizar. Esse conceito é importante par nós porque achamos que pesquisas interessantes podem ser feitas, tendo por base a imensa quantidade de consultas que são feitas aos sistemas modernos. Por exemplo, sabe-se que muitas dezenas de milhões de consultas são realizadas por dia; contudo, é muito difícil ter acesso a esses dados (Nota do Tradutor: por exemplo, quais termos são mais pesquisados, quantas páginas são clicadas, etc), porque seus proprietários os considerarm como segredos comerciais.
Nosso objetivo principal foi construir uma arquitetura que permitisse novas maneiras de busca em dados da web em larga escala. Para permitir novas maneiras de busca, a Google armazena todos os documentos rastreados, de forma comprimida. Um dos principais objetivos ao projetar a Google foi criar um ambiente em que outros pesquisadores pudessem entrar rapidamente, processar grandes porções da web, e produzir resultados interessantes, que dificilmente teriam sido obtidos de outra maneira.
No curto período em que o sistema tem estado funcionando, diversos papers já foram escritos utilizando bancos de dados gerados pela Google, e muitos outros estão sendo escritos. Outro de nossos objetivos é criar um ambiente como o do Spacelab, onde pesquisadores e mesmo estudantes possam propor e realizar experimentos interessantes, utilizando nossos dados de larga escala.


<< Arquitetura Google - Introdução Google - Características do Sistema >>