Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Retornar à página sobre a Google
6 Conclusões
Google foi projetada para ser uma máquina de busca com
capacidade de crescimento. O objetivo principal é prover
resultados de alta qualidade às pesquisas dos usuários,
numa World Wide Web que cresce rapidamente. Google utiliza
várias técnicas para melhorar a qualidade dos resultados,
entre as quais se incluem Page Rank, texto âncora e proximidade
de informações. Além disso, a Google dispõe
de um sistema completo, capaz de descobrir novas páginas,
indexá-las e realizar pesquisas sobre elas.
6.1 Trabalhos Futuros
Uma máquina de busca de larga escala é um sistema
complexo, e muito ainda está por ser feito. Nossos objetivos
imediatos são aumentar a eficiência das buscas e expandir
as buscas até aproximadamente 100 milhões de
páginas. Algumas melhorias simples que aumentarão a
eficiência são cacheamento de pesquisas, melhor
alocação de discos, e sub-índices. Outra
área que requer muita pesquisa é a das
atualizações do índice. Nós precisamos
desenvolver algoritmos inteligentes que possam decidir quais
páginas antigas devem ser visitadas novamente, e quais novas
páginas devem passar a receber visitas. Trabalhos com esse
objetivo têm sido desenvolvidos em [Cho 98]. Uma área
promissora de pesquisas é a utilização de caches
de proxy para construir bancos de dados de pesquisas, já que
eles são construídos pelos usuários. Nós
planejamos adicionar algumas características apresentadas por
search engines comerciais, tais como operadores booleanos,
negação e stemming [Nota do Tradutor: stemming é a
técnica de se considerar palavras de mesmo radical como
equivalentes; assim, ao se aplicar a técnica, palavras como
Brasil, brasileiro, brasilidade, etc seriam equivalentes, para fins da
pesquisa]. Entretanto, outras técnicas estão apenas no
início, como feedbacks dos usuários e clustering (Google
atualmente suporta apenas clustering baseado em um hostname) [Nota do
Tradutor: em 2003/2004, o tema clustering ganhou boa parte dos
fórums]. Nós também planejamos utilizar
informações sobre o usuário (como sua
localização), e sumarização de resultados.
Nós estamos também trabalhando para ampliar o uso de
estruturas de links e textos de links. Experimentos mostram que
PageRank pode ser personalizado, através do incremento do peso
da homepage do usuário ou bookmarks. Quanto ao texto de links,
nós estamos fazendo experiências com a
utilização do texto ao redor dos links, além do
texto do próprio link. Uma máquina de busca é um
ambiente rico para pesquisa de idéias. Nós temos muitas
delas, e por isso não esperamos que essa seção de
Trabalhos Futuros se reduza muito no futuro próximo.
6.2. Pesquisa de Alta Qualidade
O maior problema que os usuários de search engines enfrentam
hoje é a qualidade dos resultados obtidos. Embora os resultados
sejam freqüentemente divertidos e expandam os horizontes dos
usuários, outras vezes eles são frustrantes e consomem
tempo precioso. Por exemplo, o primeiro resultado de uma pesquisa por
"Bill Clinton" em uma das mais populares máquinas de busca
comerciais era uma Piada do Dia sobre Bill Clinton de 14 de abril de
1997. Google foi projetada para prover resultados de melhor qualidade;
à medida em que a Web continue crescendo, Google
permitirá que informações sejam encontradas mais
facilmente. Para conseguir esses objetivos, Google faz largo uso de
informação hipertextual, embutida na estrutura de links e
no texto âncora de links. Google utiliza também
proximidade de palavras e tamanho de fonte. Conquanto a
avaliação de uma máquina de busca seja
difícil, nossa opinião é que a Google retorna
resultados de melhor qualidade que outras search engines comerciais. A
análise da estrutura de links via PageRank permite à
Google avaliar a qualidade de páginas. O uso do texto de links
como uma descrição do assunto da página para a
qual o link aponta ajuda a search engine a retornar resultados
relevantes (e de melhor qualidade). Finalmente, o uso de
informações sobre proximidade de palavras ajuda a
aumentar bastante a relevância de muitas pesqusas.
6.3 Arquitetura expansível (Scalable Architecture)
Além da qualidade das pesquisas, a Google foi projetada para
crescer. Ela deve ser eficiente tanto no espaço como no tempo, e
fatores constantes são muito importantes quando se trabalha com
a Web inteira. Ao implementarmos Google, nós observamos gargalos
na CPU, acesso a memória, capacidade de memória,
pesquisas em disco, capacidade de discos, e I/O de networks. Google
conseguir superar alguns desses gargalos durante várias
operações. A estrutura de dados da Google faz uso
eficiente do espaço de armazenamento disponível.
Além disso, o crawling, a indexação e o
ordenamento são de tal forma eficientes que permitem a
indexação de uma porção substancial da web
- 24 milhões de páginas - em menos de uma semana.
Nós esperamos ser capazes de construir um index de 100
milhões de páginas em menos de um mês.
6.4 Uma Ferramenta para Pesquisas
Além de ser uma máquina de busca de alta qualidade,
Google é uma ferramenta para pesquisas. Os dados que a Google
coletou já propiciaram muitos outros papers que foram submetidos
a conferências, e muitos outros estão sendo produzidos.
Pesquisas recentes como [Abiteboul97] têm mostrado algumas
limitações a pesquisas sobre a Web que podem ser
respondidas sem a necessidade de se ter a Web disponível
localmente. Isso significa que a Google (ou um sistema similar)
é não apenas uma valiosa ferramenta de pesquisa, mas uma
ferramenta necessária para uma vasta gama de
aplicações. Nós esperamos que a Google seja um
instrumento para pesquisadores de todo o mundo, que fomente a
próxima geração de tecnologia de máquinas
de busca.
7 Agradecimentos
Scott Hassan e Alan Setermberg têm sido fundamentais no
desenvolvimento da Google. Seu talento e contrituições
são inestimáveis, e os autores são muito gratos a
eles. Nós agradecemos também a Hector Garcia-Molina,
Rajeev Motwani, Jeff Ullman, e Terry Winograd, e também a todo o
grupo WebBase, pelo apoio e comentários. Finalmente, queremos
reconhecer o apoio generoso da IBM, Intel e Sun, que nos doaram
equipamentos, e também de nossos financiadores. A pesquisa aqui
descrita foi conduzida como parte do Stanford Integrated Digital
Library Project, com apoio da National Science Foundation sob o
Cooperative Agreement IRI-9411306. Financiamento para esse projeto
proveio também da DARPA e NASA, assim como da Interval Research,
e outros parceiros industriais da Stanford Digital Libraries
Project.
|
|