Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Retornar à página sobre a Google
Referências
Best of the Web 1994 -- Navigators
http://botw.org/1994/awards/navigators.html
Bill Clinton Joke of the Day: April 14, 1997.
http://www.io.com/~cjburke/clinton/970414.html.
Bzip2 Homepage http://www.muraroa.demon.co.uk/
Google Search Engine http://google.stanford.edu/
Harvest http://harvest.transarc.com/
Mauldin, Michael L. Lycos Design Choices in an Internet Search Service,
IEEE Expert Interview
http://www.computer.org/pubs/expert/1997/trends/x1008/mauldin.htm
The Effect of Cellular Phone Use Upon Driver Attention
http://www.webfirst.com/aaa/text/cell/cell0toc.htm
Search Engine Watch http://www.searchenginewatch.com/
RFC 1950 (zlib)
ftp://ftp.uu.net/graphics/png/documents/zlib/zdoc-index.html
Robots Exclusion Protocol:
http://info.webcrawler.com/mak/projects/robots/exclusion.htm
Web Growth Summary:
http://www.mit.edu/people/mkgray/net/web-growth-summary.html
Yahoo! http://www.yahoo.com/
[Abiteboul 97] Serge Abiteboul and Victor Vianu, Queries and
Computation on the Web. Proceedings of the International Conference on
Database Theory. Delphi, Greece 1997.
[Bagdikian 97] Ben H. Bagdikian. The Media Monopoly. 5th Edition.
Publisher: Beacon, ISBN: 0807061557
[Chakrabarti 98] S.Chakrabarti, B.Dom, D.Gibson, J.Kleinberg, P.
Raghavan and S. Rajagopalan. Automatic Resource Compilation by
Analyzing Hyperlink Structure and Associated Text. Seventh
International Web Conference (WWW 98). Brisbane, Australia, April
14-18, 1998.
[Cho 98] Junghoo Cho, Hector Garcia-Molina, Lawrence Page. Efficient
Crawling Through URL Ordering. Seventh International Web Conference
(WWW 98). Brisbane, Australia, April 14-18, 1998.
[Gravano 94] Luis Gravano, Hector Garcia-Molina, and A. Tomasic. The
Effectiveness of GlOSS for the Text-Database Discovery Problem. Proc.
of the 1994 ACM SIGMOD International Conference On Management Of Data,
1994.
[Kleinberg 98] Jon Kleinberg, Authoritative Sources in a Hyperlinked
Environment, Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.
[Marchiori 97] Massimo Marchiori. The Quest for Correct Information on
the Web: Hyper Search Engines. The Sixth International WWW Conference
(WWW 97). Santa Clara, USA, April 7-11, 1997.
[McBryan 94] Oliver A. McBryan. GENVL and WWWW: Tools for Taming the
Web. First International Conference on the World Wide Web. CERN, Geneva
(Switzerland), May 25-26-27 1994.
http://www.cs.colorado.edu/home/mcbryan/mypapers/www94.ps
[Page 98] Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd.
The PageRank Citation Ranking: Bringing Order to the Web. Manuscript in
progress. http://google.stanford.edu/~backrub/pageranksub.ps
[Pinkerton 94] Brian Pinkerton, Finding What People Want: Experiences
with the WebCrawler. The Second International WWW Conference Chicago,
USA, October 17-20, 1994. http://info.webcrawler.com/bp/WWW94.html
[Spertus 97] Ellen Spertus. ParaSite: Mining Structural Information on
the Web. The Sixth International WWW Conference (WWW 97). Santa Clara,
USA, April 7-11, 1997.
[TREC 96] Proceedings of the fifth Text REtrieval Conference (TREC-5).
Gaithersburg, Maryland, November 20-22, 1996. Publisher: Department of
Commerce, National Institute of Standards and Technology. Editors: D.
K. Harman and E. M. Voorhees. Full text at: http://trec.nist.gov/
[Witten 94] Ian H Witten, Alistair Moffat, and Timothy C. Bell.
Managing Gigabytes: Compressing and Indexing Documents and Images. New
York: Van Nostrand Reinhold, 1994.
[Weiss 96] Ron Weiss, Bienvenido Velez, Mark A. Sheldon, Chanathip
Manprempre, Peter Szilagyi, Andrzej Duda, and David K. Gifford.
HyPursuit: A Hierarchical Network Search Engine that Exploits
Content-Link Hypertext Clustering. Proceedings of the 7th ACM
Conference on Hypertext. New York, 1996.
Vitae
Sergey Brin recebeu seu bacharelado em Matemática e
Ciência da Computação na Universidade de Maryland
no College Park em 1993. Atualmente, ele é um estudante de Phd
de Ciência da Computação na Universidade de
Stanford, onde ele obteve seu Mestrado em 1995. Ele é bolsista
da National Science Foundation Graduate Fellowship. Seus interesses
são máquinas de busca, extração de
informação de fontes não-estruturadas, e data
mining de grandes coleções de textos e dados
científicos.
Lawrence Page nasceu em East Lansing, Michigan, e recebeu seu
bacharelado em Engenharia de Computação na Universidade
de Michigan Ann Arbor iem 1995. Ele atualmente é estudante de
Phd em Ciência da Computação na Universidade
Stanford. Alguns de seus interesses de pesquisa são a estrutura
de links da web, interação entre humanos e computadores,
máquinas de busca, escalabilidade de acesso a
informação, e data mining pessoal.
8. Apêndice A: Publicidade e mistura de interesses
Atualmente, o modelo de negócios predominante nas
máquinas de busca comerciais baseia-se em publicidade. Os
objetivos desse modelo de negócios nem sempre correspondem aos
interesses dos usuários. Por exemplo, no protótipo de
nossa máquina um dos primeiros resultados para telefone celular
é "Os efeitos do uso do telefone celular sobre a
atenção de motoristas", um estudo que explica em detalhes
as distrações e riscos associados ao hábito de
conversar no celular ao volante. Esse foi o primeiro resultado da
pesquisa graças à sua grande importância, conforme
julgamento do algoritmo de PageRank, uma aproximação da
importância de citações na web [Page, 98]. É
evidente que uma search engine que estivesse cobrando para exibir
anúncios de telefones celulares teria dificuldades para
explicar aquela página para seus anunciantes. Por razões
como essa e após experiências com outras mídias
[Bagdikian 83], nós achamos que search engines que dependam de
anúncios de publicidade para se financiar serão parciais
com os anunciantes e se afastarão das necessidades dos
consumidores.
Como é difícil, mesmo para especialistas, avaliar
máquinas de busca, a parcialidade de máquinas de busca
é um tema sujeito a discussão. Um bom exemplo é a
OpenText, que foi acusada de vender a companhias o direito de ser
listado no topo dos resultados para termos específicos
[Marchiori 97]. Esse tipo de parcialidade é muito pior que
publicidade, pois não é claro quem "merece" estar
lá, e quem está disposto a comprar seus rankings.
Esse modelo de negócios levou a desconfianças, a
OpenText deixou de ser uma máquina de busca viável.
Contudo, parcialidades menos evidentes são provavelmente mais
toleradas pelo mercado. Por exemplo, uma search engine poderia
adicionar um pequeno peso a companhias "amigas", e diminui o peso de
competidores. Esse tipo de parcialidade é muito difícil
de se detectar, mas poderia ter um impacto significativo no mercado.
Ademais, as receitas de publicidade freqüentemente cosntituem um
incentivo a resultados de baixa qualidade. Por exemplo, nós
observamos que uma grande search engine não retornava o
site de uma grande companhia aérea, mesmo quando se pesquisava
pelo nome da companhia; o que ocorria é que a companhia
aérea tinha pago caro por alguns anúncios, ligados
às pesquisas por seu nome; uma search engine mais honesta teria
tornado esses anúncios desnecessários, economizando assim
recursos da companhia.
Em geral, pode-se dizer que do ponto de vista do consumidor, quanto
melhor a search engine for, menos anúncios o consumidor
encontrará antes de chegar ao que procura. Isso obviamente
é prejudicial aos negócios das atuais search engines.
Entretanto, sempre haverá anunciantes querendo que os
consumidores mudem suas preferências, ou anunciantes que
ofereçam produtos genuinamente inéditos. Mas nós
acreditamos que a questão da publicidade traz bastantes
problemas, e é crucial haver uma search engine competitiva que
seja transparente e se mantenha no domínio acadêmioco.
Apêndice B: Escalabilidade (capacidade de crescimento)
9.1 Escalabilidade da Google
Nós projetamos a Google para crescer, no curto prazo, até
100 milhões de páginas. Nós recentemente recebemos
discos e máquinas para trabalhar com esse montante. Todas as
partes do sistema que consomem tempo são paralelizados e crescem
linearmente. Isso inclui partes como crawlers, indexers e sorters.
Nós achamos também que a maior parte das estruturas de
dados serão capazes de enfrentar o crescimento com facilidade.
Entretanto, após as 100 milhões de páginas
nós estaremos muito perto dos limites dos sistemas operacionais
mais comuns (nós atualmente rodamos em Solaris e Linux). Isso
inclui aspectos como enderaçamento de memória,
número de descritores de arquivos abertos, soquetes de rede e
largura de banda, entre outros. Nós acreditamos que para
ultrapassar a marca de 100 milhões de páginas, teremos
que aumentar bastante a complexidade do nosso sistema.
9.2 Escalabilidade de Arquiteturas de Indexação
Centralizadas
À medida em que as capacidades dos computadores aumentam,
torna-se possível indexar grandes montantes de texto a um custo
razoável. Evidentemente, outras mídias que utilizam
mais largura de banda, como vídeo, provavelmente
tornar-se-ão mais difundidas. Mas como o custo de
produção de texto é menor do que o de videos,
texto provavelmente permanecerá como o meio mais popular por
algum tempo. Além disso, é provável que logo
nós disponhamos de técnicas de reconhecimento de
fala que facilitem a conversão de fala em texto,
aumentando assim o volume de texto existente.
Todos esses fatos trazem possibilidades fantaásticas para
sistemas de indexação centralizada. Eis um exemplo
ilustrativo. Suponhamos que queiramos indexar tudo que for escrito por
todas as pessoas nos Estados Unidos durante um ano. Suponhamos que
existam 250 milhões de pessoas nos Estados Unidos, e que cada
uma escreva uma média de 10 kB por dia; isso resulta num volume
anual de aproximadamente 850 Terabytes. Suponhamos que a
indexação de um terabyte possa ser feita a um custo
razoável. Suponhamos também que os métodos de
indexação sejam lineares, ou quase lineares, em sua
complexidade. Dadas todas suposições nós podemos
estimar quanto tempo levaria para indexar 850 Terabytes a custo
razoável, pressupondo algumas taxas de crescimento. A Lei de
Moore, enunciada em 1965, diz que a capacidade de processamento dobra a
cada 18 meses; essa lei tem sido surpreendentemente válida,
não apenas para processadores, mas também para outros
fatores importantes como capacidade de disco. Se nós assumirmos
que a Lei de Moore continuará válida, nós
necessitaremos de apenas dez períodos de 18 meses, ou 15 anos,
para atingir nosso objetivo de indexar tudo o que for escrito nos EUA
por um ano a um custo suportável por uma pequena empresa. Alguns
especialistas em hardware predizem que a Lei de Moore não se
manterá válida pelos próximos 15 anos, mas ainda
assim haverá várias aplicações
interessantes, mesmo que apenas algumas das nossas
suposições se materializem.
Evidentemente, sistemas distribuídos como Gloss [Gravano 94] ou
Harvest serão no mais das vezes as soluções mais
eficientes e elegantes de indexação, mas parece ser
difícil convencer o mundo a utilizar esses sitemas por causa dos
altos custos de configuração e administação
de um grande número de sub-partes. É claro que é
possível que os custos de administração se reduzam
drasticamente; se isso ocorrer, e se todos passarem a utilizar um
sistema de indexação distribuída, as pesquisas na
web melhorariam drasticamente.
Como os humanos podem escrever ou falar um volume limitado de
informações, e como os computadores continuam evoluindo,
a indexação de textos funcionará melhor do que
hoje. Pode ocorrer que surja um volume infinito de conteúdo
gerado por máquinas, mas somente a indexação de
conteúdo gerado por humanos é útil. Por isso,
estamos otimistas em relação a que nossa arquitetura de
search engine evolua em sua capacidade de cobrir
informações relevantes em textos, e que há um
futuro brilhante para os trabalhos de searching.
|
|