Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Retornar à página sobre a Google

3 Trabalhos relacionados
Pesquisas sobre máquinas de busca na internet têm um hitórico curto e conciso. A World Wide Web Worm (WWWW) [McBryan 94] foi uma das primeiras máquinas de busca. Ela foi seguida por outras máquinas de busca acadêmicas, muitas das quais são companhias públicas, atualmente. Em vista do crescimento da Web e da importância das search engines, pode-se dizer que existem poucos - e preciosos - documentos recentes sobre search engines [Pinkerton 94]. De acordo com Michael Maudin (cientista-chefe da Lycos Inc) [Mauldin], "as várias empresas (incluindo Lycos) guardam com cuidado os detalhes de seus banco de dados".  
Entretanto, alguns trabalhos têm sido desenvolvidos a respeito de algumas características de Search Engines. Também são populares alguns trabalhos que obtêm seus resultados a partir de pós-processamento dos resultados de outras search engines comerciais. Por fim, bastante pesquisa tem sido desenvolvida em sistemas de recuperação de informações, especialmente em ambientes controlados. Nas próximas duas seções, discutimos algumas áreas onde as pesquisas precisam ser estendidas, para melhor se aplicarem à web.

3.1.Coleta de informações (information retrieval)
Os trabalhos sobre sistemas de coleta de informação têm sido desenvolvidos desde há muitos anos, e estão em estágio avançado [Witten 94]. Entretanto, a maior parte das pesquisas nesse tópico foram conduzidas em ambientes controlados que abrangiam um universo reduzido, como uma coleção de papers científicos ou tópicos particulares de newsgroups. Na verdade, mesmo o benchmark primário para análise de recuperação de informações, o Text Retrieval Conference [TREC 96], utiliza uma coleção pequena e controlada, para determinar os benchmarks; o que eles denominam "Corpus de Tamanho Muito Grande" tem apenas 20GB, enquanto nossa pesquisa (crawl) acumulou 24 milhões de páginas com volume total de 147 GB. Coisas que funcionam bem na TREC freqüentemente deixam de produzir bons resultados na Web. Por exemplo, o modelo padrão de vetores espaciais tenta retornar o documento que mais se aproxime da pesquisa, baseado no princípio de que ambos, termos de pesquisa e documento, são vetores definidos pela ocorrência de palavras; na web, essa estratégia freqüentemente retorna documentos muito curtos, contendo apenas as palavras pesquisadas mais algumas poucas adicionais. Por exemplo, nós observamos uma das maiores search engines retornando uma página contendo apenas uma foto e a frase "Bill Clinton Sucks", quando pesquisamos por "Bill Clinton". Algumas pessoas defendem a idéia de que, na web, as pessoas devem utilizar termos mais específicos e, se for o caso, adicionar mais termos à pesquisa; nós discordamos veementemente dessa posição. Se um usuário faz uma pesquisa por "Bill Clinton", ele deveria obter resultados razoáveis, já que existe uma quantidade enorme de informação de alta qualidade disponível sobre esse tópico. Em vista de exemplos como esse, nós acreditamos que o padrão de qualidade da recuperação de informações deve ser elevado, para se manter no nível da web.

3.2. Diferenças entre a web e ambientes controlados

A web é uma vasta coleção de documentos heterogêneos e completamente sem controle. Documentos na web apresentam extrema variação, tanto em seu próprio conteúdo como nas meta-informações externas a seu respeito que possam estar disponíveis. Por exemplos, conteúdos de documentos podem variar em linguagem (tanto linguagens humanas como de codificação), vocabulário (endereços de email, links, códigos postais, números de telefones, números de produtos), tipo ou formatação (texto, HTML, PDF, imagens, sons), e podem mesmo ser gerados por máquinas (log files, outputs de bancos de dados, etc). Por outro lado, definimos meta-informação externa como sendo informações a respeito de um documento, mas que não estão contidas dentro do mesmo; exemplos de meta-informação são freqüência com que a página é atualizada, citações, qualidade e popularidade das fontes que fizeram citações, etc. Não apenas o número de possíveis fontes de meta informação é grande, mas também a quantidade de coisas que podem ser avaliadas é variada. A título de exemplo, comparemos a qualidade da informação provida por uma importante homepage, como a da Yahoo, que recebe diariamente milhões de visitantes, com uma página obscura que receba alguns visitantes por ano; claramente, essas duas páginas devem ser tratadas diferentemente por uma máquina de busca.
Outra grande diferença entre a web e ambientes controlados é que, na web, não existe nenhum controle sobre o que as pessoas podem colocar online.  Essa flexibilidade, aliada à percepção de que as máquinas de busca têm enorme influência no roteamento de tráfego e à existência de companhias que deliberadamente manipulam search engines em busca de tráfego, pode resultar em problemas sérios; esse tipo de problema não existe em sistemas fechados de informação. É interessante observar também que os metadados não podem ser utilizados pelas SEs, já que qualquer texto na página que não é mostrado ao usuário é objeto de abusos, visando a manipular search engines. Existem várias companhias cuja especialidade é manipular search engines em busca de lucro.


<< Arquitetura da Google Anatomia da Google >>