Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info
«Retornar à página sobre a Google

Esse documento é uma tradução do original em inglês The Anatomy of a Large-Scale Hypertextual Web Search Engine

The Anatomy of a Large-Scale Hypertextual Web Search Engine
Sergey Brin and Lawrence Page
{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305
Resumo

Nesse paper, apresentamos Google, um protótipo de uma máquina de busca em larga escala que faz uso intensivo da estrutura presente em hipertextos. Google é projetada para rastrear e indexar eficientemente a Web e produzir resultados mais satisfatórios do que sistemas existentes. Um protótipo com bancos de dados de textos completos e hiperlinks de pelo menos 24 milhões de páginas está disponível em http://google.standford.edu
Projetar uma máquina de busca é uma tarefa desafiante. Máquinas de busca indexam dezenas ou centenas de milhões de páginas web, contendo um número comparável de diferentes termos. Elas respondem a dezenas de milhões de pesquisas todos os dias. Apesar da importância de máquinas de busca em larga escala na internet, muito pouca pesquisa acadêmica tem sido feita a esse respeito. Além disso, por causa do rápido avanço da tecnologia e do crescimento acelerado da web, criar uma máquina de busca hoje é muito mais difícil do que três anos atrás. Esse paper fornece uma descrição detalhada de nossa máquina de busca de larga escala - a primeira descrição desse tipo de que se tem notícia até o presente.
Além dos problemas de se adaptar as técnicas de pesquisa tradicionais a essas escalas gigantescas, existem outros desafios técnicos a serem enfrentados, referentes à utilização, para aprimoramento dos resultados, das informações adicionais presentes nos hipertextos.
Outro problema abordado é como lidar com o fato de que novas informações, na forma de hipertexto, podem ser livremente publicadas por qualquer pessoa.
       
 Palavras-chave: World Wide Web, Search Engines, Information Retrieval, PageRank, Google

Próximos capítulos (tradução da nomenclatura original):
»Arquitetura Google - Introdução. Por quê eles criaram a Google.
»Google - Características do Sistema. A primeira menção a PageRank: um medidor de popularidade utilizando links.
»Trabalhos de Pesquisa Relacionados. A primeira menção a "empresas que manipulam Search Engines".
»Anatomia da Google. Um pouco de explicações técnicas; recomenda-se ler esses textos básicos sobre Search Engines.
»Resultados e Desempenho. Texto auto-explicativo, não foi traduzido.
»Conclusões e Agradecimentos. Na Seção "Trabalhos Futuros", eles dão umas pistas sobre o que poderia ainda ser implementado.
»Bibliografia e Apêndices. Inclui a biografia deles por eles mesmos (antes de serem bilionários) e novas referências ao spam.