Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Retornar à página sobre a Google
3 Trabalhos relacionados
Pesquisas sobre máquinas de busca na internet têm um
hitórico curto e conciso. A World Wide Web Worm (WWWW) [McBryan
94] foi uma das primeiras máquinas de busca. Ela foi seguida por
outras máquinas de busca acadêmicas, muitas das quais
são companhias públicas, atualmente. Em vista do
crescimento da Web e da importância das search engines, pode-se
dizer que existem poucos - e preciosos - documentos recentes sobre
search engines [Pinkerton 94]. De acordo com Michael Maudin
(cientista-chefe da Lycos Inc) [Mauldin], "as várias empresas
(incluindo Lycos) guardam com cuidado os detalhes de seus banco de
dados".
Entretanto, alguns trabalhos têm sido desenvolvidos a respeito de
algumas características de Search Engines. Também
são populares alguns trabalhos que obtêm seus resultados a
partir de pós-processamento dos resultados de outras search
engines comerciais. Por fim, bastante pesquisa tem sido desenvolvida em
sistemas de recuperação de informações,
especialmente em ambientes controlados. Nas próximas duas
seções, discutimos algumas áreas onde as pesquisas
precisam ser estendidas, para melhor se aplicarem à web.
3.1.Coleta de informações (information retrieval)
Os trabalhos sobre sistemas de coleta de informação
têm sido desenvolvidos desde há muitos anos, e
estão em estágio avançado [Witten 94]. Entretanto,
a maior parte das pesquisas nesse tópico foram conduzidas em
ambientes controlados que abrangiam um universo reduzido, como uma
coleção de papers científicos ou tópicos
particulares de newsgroups. Na verdade, mesmo o benchmark
primário para análise de recuperação de
informações, o Text Retrieval Conference [TREC 96],
utiliza uma coleção pequena e controlada, para determinar
os benchmarks; o que eles denominam "Corpus de Tamanho Muito Grande"
tem apenas 20GB, enquanto nossa pesquisa (crawl) acumulou 24
milhões de páginas com volume total de 147 GB. Coisas que
funcionam bem na TREC freqüentemente deixam de produzir bons
resultados na Web. Por exemplo, o modelo padrão de vetores
espaciais tenta retornar o documento que mais se aproxime da pesquisa,
baseado no princípio de que ambos, termos de pesquisa e
documento, são vetores definidos pela ocorrência de
palavras; na web, essa estratégia freqüentemente retorna
documentos muito curtos, contendo apenas as palavras pesquisadas mais
algumas poucas adicionais. Por exemplo, nós observamos uma das
maiores search engines retornando uma página contendo apenas uma
foto e a frase "Bill Clinton Sucks", quando pesquisamos por "Bill
Clinton". Algumas pessoas defendem a idéia de que, na web, as
pessoas devem utilizar termos mais específicos e, se for o caso,
adicionar mais termos à pesquisa; nós discordamos
veementemente dessa posição. Se um usuário faz uma
pesquisa por "Bill Clinton", ele deveria obter resultados
razoáveis, já que existe uma quantidade enorme de
informação de alta qualidade disponível sobre esse
tópico. Em vista de exemplos como esse, nós acreditamos
que o padrão de qualidade da recuperação de
informações deve ser elevado, para se manter no
nível da web.
3.2. Diferenças entre a web e ambientes controlados
A web é uma vasta coleção de documentos
heterogêneos e completamente sem controle. Documentos na web
apresentam extrema variação, tanto em seu próprio
conteúdo como nas meta-informações externas a seu
respeito que possam estar disponíveis. Por exemplos,
conteúdos de documentos podem variar em linguagem (tanto
linguagens humanas como de codificação),
vocabulário (endereços de email, links, códigos
postais, números de telefones, números de produtos), tipo
ou formatação (texto, HTML, PDF, imagens, sons), e podem
mesmo ser gerados por máquinas (log files, outputs de bancos de
dados, etc). Por outro lado, definimos meta-informação
externa como sendo informações a respeito de um
documento, mas que não estão contidas dentro do mesmo;
exemplos de meta-informação são
freqüência com que a página é atualizada,
citações, qualidade e popularidade das fontes que fizeram
citações, etc. Não apenas o número de
possíveis fontes de meta informação é
grande, mas também a quantidade de coisas que podem ser
avaliadas é variada. A título de exemplo, comparemos a
qualidade da informação provida por uma importante
homepage, como a da Yahoo, que recebe diariamente milhões de
visitantes, com uma página obscura que receba alguns visitantes
por ano; claramente, essas duas páginas devem ser tratadas
diferentemente por uma máquina de busca.
Outra grande diferença entre a web e ambientes controlados
é que, na web, não existe nenhum controle sobre o que as
pessoas podem colocar online. Essa flexibilidade, aliada à
percepção de que as máquinas de busca têm
enorme influência no roteamento de tráfego e à
existência de companhias que deliberadamente manipulam search
engines em busca de tráfego, pode resultar em problemas
sérios; esse tipo de problema não existe em sistemas
fechados de informação. É interessante observar
também que os metadados não podem ser utilizados pelas
SEs, já que qualquer texto na página que não
é mostrado ao usuário é objeto de abusos, visando
a manipular search engines. Existem várias companhias cuja
especialidade é manipular search engines em busca de lucro.
|
|