Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Retornar à página sobre a Google

6 Conclusões
Google foi projetada para ser uma máquina de busca com  capacidade de crescimento. O objetivo principal é prover resultados de alta qualidade às pesquisas dos usuários, numa World Wide Web que cresce rapidamente. Google utiliza várias técnicas para melhorar a qualidade dos resultados, entre as quais se incluem Page Rank, texto âncora e proximidade de informações. Além disso, a Google dispõe de um sistema completo, capaz de descobrir novas páginas, indexá-las e realizar pesquisas sobre elas.

6.1 Trabalhos Futuros
Uma máquina de busca de larga escala é um sistema complexo, e muito ainda está por ser feito. Nossos objetivos imediatos são aumentar a eficiência das buscas e expandir as buscas até aproximadamente 100 milhões de páginas. Algumas melhorias simples que aumentarão a eficiência são cacheamento de pesquisas, melhor alocação de discos, e sub-índices. Outra área que requer muita pesquisa é a das atualizações do índice. Nós precisamos desenvolver algoritmos inteligentes que possam decidir quais páginas antigas devem ser visitadas novamente, e quais novas páginas devem passar a receber visitas. Trabalhos com esse objetivo têm sido desenvolvidos em [Cho 98]. Uma área promissora de pesquisas é a utilização de caches de proxy para construir bancos de dados de pesquisas, já que eles são construídos pelos usuários. Nós planejamos adicionar algumas características apresentadas por search engines comerciais, tais como operadores booleanos, negação e stemming [Nota do Tradutor: stemming é a técnica de se considerar palavras de mesmo radical como equivalentes; assim, ao se aplicar a técnica, palavras como Brasil, brasileiro, brasilidade, etc seriam equivalentes, para fins da pesquisa]. Entretanto, outras técnicas estão apenas no início, como feedbacks dos usuários e clustering (Google atualmente suporta apenas clustering baseado em um hostname) [Nota do Tradutor: em 2003/2004, o tema clustering ganhou boa parte dos fórums]. Nós também planejamos utilizar informações sobre o usuário (como sua localização), e sumarização de resultados. Nós estamos também trabalhando para ampliar o uso de estruturas de links e textos de links. Experimentos mostram que PageRank pode ser personalizado, através do incremento do peso da homepage do usuário ou bookmarks. Quanto ao texto de links, nós estamos fazendo experiências com a utilização do texto ao redor dos links, além do texto do próprio link. Uma máquina de busca é um ambiente rico para pesquisa de idéias. Nós temos muitas delas, e por isso não esperamos que essa seção de Trabalhos Futuros se reduza muito no futuro próximo.

6.2. Pesquisa de Alta Qualidade
O maior problema que os usuários de search engines enfrentam hoje é a qualidade dos resultados obtidos. Embora os resultados sejam freqüentemente divertidos e expandam os horizontes dos usuários, outras vezes eles são frustrantes e consomem tempo precioso. Por exemplo, o primeiro resultado de uma pesquisa por "Bill Clinton" em uma das mais populares máquinas de busca comerciais era uma Piada do Dia sobre Bill Clinton de 14 de abril de 1997. Google foi projetada para prover resultados de melhor qualidade; à medida em que a Web continue crescendo, Google permitirá que informações sejam encontradas mais facilmente. Para conseguir esses objetivos, Google faz largo uso de informação hipertextual, embutida na estrutura de links e no texto âncora de links. Google utiliza também proximidade de palavras e tamanho de fonte. Conquanto a avaliação de uma máquina de busca seja difícil, nossa opinião é que a Google retorna resultados de melhor qualidade que outras search engines comerciais. A análise da estrutura de links via PageRank permite à Google avaliar a qualidade de páginas. O uso do texto de links como uma descrição do assunto da página para a qual o link aponta ajuda a search engine a retornar resultados relevantes (e de melhor qualidade). Finalmente,  o uso de informações sobre proximidade de palavras ajuda a aumentar bastante a relevância de muitas pesqusas.

6.3 Arquitetura expansível (Scalable Architecture)
Além da qualidade das pesquisas, a Google foi projetada para crescer. Ela deve ser eficiente tanto no espaço como no tempo, e fatores constantes são muito importantes quando se trabalha com a Web inteira. Ao implementarmos Google, nós observamos gargalos na CPU, acesso a memória, capacidade de memória, pesquisas em disco, capacidade de discos, e I/O de networks. Google conseguir superar alguns desses gargalos durante várias operações. A estrutura de dados da Google faz uso eficiente do espaço de armazenamento disponível. Além disso, o crawling, a indexação e o ordenamento são de tal forma eficientes que permitem a indexação de uma porção substancial da web - 24 milhões de páginas - em menos de uma semana. Nós esperamos ser capazes de construir um index de 100 milhões de páginas em menos de um mês.

6.4 Uma Ferramenta para Pesquisas
Além de ser uma máquina de busca de alta qualidade, Google é uma ferramenta para pesquisas. Os dados que a Google coletou já propiciaram muitos outros papers que foram submetidos a conferências, e muitos outros estão sendo produzidos. Pesquisas recentes como [Abiteboul97] têm mostrado algumas limitações a pesquisas sobre a Web que podem ser respondidas sem a necessidade de se ter a Web disponível localmente. Isso significa que a Google (ou um sistema similar) é não apenas uma valiosa ferramenta de pesquisa, mas uma ferramenta necessária para uma vasta gama de aplicações. Nós esperamos que a Google seja um instrumento para pesquisadores de todo o mundo, que fomente a próxima geração de tecnologia de máquinas de busca.

7 Agradecimentos
Scott Hassan e Alan Setermberg têm sido fundamentais no desenvolvimento da Google. Seu talento e contrituições são inestimáveis, e os autores são muito gratos a eles. Nós agradecemos também a Hector Garcia-Molina, Rajeev Motwani, Jeff Ullman, e Terry Winograd, e também a todo o grupo WebBase, pelo apoio e comentários. Finalmente, queremos reconhecer o apoio generoso da IBM, Intel e Sun, que nos doaram equipamentos, e também de nossos financiadores. A pesquisa aqui descrita foi conduzida como parte do Stanford Integrated Digital Library Project, com apoio da National Science Foundation sob o Cooperative Agreement IRI-9411306. Financiamento para esse projeto proveio também da DARPA e NASA, assim como da Interval Research, e outros parceiros industriais da  Stanford Digital Libraries Project.

<< Resultados e Desempenho Bibliografia e Apêndices >>