Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Retornar à página sobre a Google

Referências
Best of the Web 1994 -- Navigators http://botw.org/1994/awards/navigators.html
Bill Clinton Joke of the Day: April 14, 1997. http://www.io.com/~cjburke/clinton/970414.html.
Bzip2 Homepage http://www.muraroa.demon.co.uk/
Google Search Engine http://google.stanford.edu/
Harvest http://harvest.transarc.com/
Mauldin, Michael L. Lycos Design Choices in an Internet Search Service, IEEE Expert Interview http://www.computer.org/pubs/expert/1997/trends/x1008/mauldin.htm
The Effect of Cellular Phone Use Upon Driver Attention http://www.webfirst.com/aaa/text/cell/cell0toc.htm
Search Engine Watch http://www.searchenginewatch.com/
RFC 1950 (zlib) ftp://ftp.uu.net/graphics/png/documents/zlib/zdoc-index.html
Robots Exclusion Protocol: http://info.webcrawler.com/mak/projects/robots/exclusion.htm
Web Growth Summary: http://www.mit.edu/people/mkgray/net/web-growth-summary.html
Yahoo! http://www.yahoo.com/
[Abiteboul 97] Serge Abiteboul and Victor Vianu, Queries and Computation on the Web. Proceedings of the International Conference on Database Theory. Delphi, Greece 1997.
[Bagdikian 97] Ben H. Bagdikian. The Media Monopoly. 5th Edition. Publisher: Beacon, ISBN: 0807061557
[Chakrabarti 98] S.Chakrabarti, B.Dom, D.Gibson, J.Kleinberg, P. Raghavan and S. Rajagopalan. Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. Seventh International Web Conference (WWW 98). Brisbane, Australia, April 14-18, 1998.
[Cho 98] Junghoo Cho, Hector Garcia-Molina, Lawrence Page. Efficient Crawling Through URL Ordering. Seventh International Web Conference (WWW 98). Brisbane, Australia, April 14-18, 1998.
[Gravano 94] Luis Gravano, Hector Garcia-Molina, and A. Tomasic. The Effectiveness of GlOSS for the Text-Database Discovery Problem. Proc. of the 1994 ACM SIGMOD International Conference On Management Of Data, 1994.
[Kleinberg 98] Jon Kleinberg, Authoritative Sources in a Hyperlinked Environment, Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.
[Marchiori 97] Massimo Marchiori. The Quest for Correct Information on the Web: Hyper Search Engines. The Sixth International WWW Conference (WWW 97). Santa Clara, USA, April 7-11, 1997.
[McBryan 94] Oliver A. McBryan. GENVL and WWWW: Tools for Taming the Web. First International Conference on the World Wide Web. CERN, Geneva (Switzerland), May 25-26-27 1994. http://www.cs.colorado.edu/home/mcbryan/mypapers/www94.ps
[Page 98] Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web. Manuscript in progress. http://google.stanford.edu/~backrub/pageranksub.ps
[Pinkerton 94] Brian Pinkerton, Finding What People Want: Experiences with the WebCrawler. The Second International WWW Conference Chicago, USA, October 17-20, 1994. http://info.webcrawler.com/bp/WWW94.html
[Spertus 97] Ellen Spertus. ParaSite: Mining Structural Information on the Web. The Sixth International WWW Conference (WWW 97). Santa Clara, USA, April 7-11, 1997.
[TREC 96] Proceedings of the fifth Text REtrieval Conference (TREC-5). Gaithersburg, Maryland, November 20-22, 1996. Publisher: Department of Commerce, National Institute of Standards and Technology. Editors: D. K. Harman and E. M. Voorhees. Full text at: http://trec.nist.gov/
[Witten 94] Ian H Witten, Alistair Moffat, and Timothy C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. New York: Van Nostrand Reinhold, 1994.
[Weiss 96] Ron Weiss, Bienvenido Velez, Mark A. Sheldon, Chanathip Manprempre, Peter Szilagyi, Andrzej Duda, and David K. Gifford. HyPursuit: A Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering. Proceedings of the 7th ACM Conference on Hypertext. New York, 1996.
Vitae
 

Sergey Brin recebeu seu bacharelado em Matemática e Ciência da Computação na Universidade de Maryland no College Park em 1993. Atualmente, ele é um estudante de Phd de Ciência da Computação na Universidade de Stanford, onde ele obteve seu Mestrado em 1995. Ele é bolsista da National Science Foundation Graduate Fellowship. Seus interesses são máquinas de busca, extração de informação de fontes não-estruturadas, e data mining de grandes coleções de textos e dados científicos.

Lawrence Page nasceu em East Lansing, Michigan, e recebeu seu bacharelado em Engenharia de Computação na Universidade de Michigan Ann Arbor iem 1995. Ele atualmente é estudante de Phd em Ciência da Computação na Universidade Stanford. Alguns de seus interesses de pesquisa são a estrutura de links da web, interação entre humanos e computadores, máquinas de busca,  escalabilidade de acesso a informação, e data mining pessoal.


8. Apêndice A: Publicidade e mistura de interesses
Atualmente, o modelo de negócios predominante nas máquinas de busca comerciais baseia-se em publicidade. Os objetivos desse modelo de negócios nem sempre correspondem aos interesses dos usuários. Por exemplo, no protótipo de nossa máquina um dos primeiros resultados para telefone celular é "Os efeitos do uso do telefone celular sobre a atenção de motoristas", um estudo que explica em detalhes as distrações e riscos associados ao hábito de conversar no celular ao volante. Esse foi o primeiro resultado da pesquisa graças à sua grande importância, conforme julgamento do algoritmo de PageRank, uma aproximação da importância de citações na web [Page, 98]. É evidente que uma search engine que estivesse cobrando para exibir anúncios de telefones celulares teria dificuldades para  explicar aquela página para seus anunciantes. Por razões como essa e após experiências com outras mídias [Bagdikian 83], nós achamos que search engines que dependam de anúncios de publicidade para se financiar serão parciais com os anunciantes e se afastarão das necessidades dos consumidores.
Como é difícil, mesmo para especialistas, avaliar máquinas de busca, a parcialidade de máquinas de busca é um tema sujeito a discussão. Um bom exemplo é a OpenText, que foi acusada de vender a companhias o direito de ser listado no topo dos resultados para termos específicos [Marchiori 97]. Esse tipo de parcialidade é muito pior que publicidade, pois não é claro quem "merece" estar lá, e quem está disposto a comprar seus rankings.  Esse modelo de negócios levou a desconfianças,  a OpenText deixou de ser uma máquina de busca viável. Contudo, parcialidades menos evidentes são provavelmente mais toleradas pelo mercado. Por exemplo, uma search engine poderia adicionar um pequeno peso a companhias "amigas", e diminui o peso de competidores. Esse tipo de parcialidade é muito difícil de se detectar, mas poderia ter um impacto significativo no mercado. Ademais, as receitas de publicidade freqüentemente cosntituem um incentivo a resultados de baixa qualidade. Por exemplo, nós observamos que uma grande search engine  não retornava o site de uma grande companhia aérea, mesmo quando se pesquisava pelo nome da companhia; o que ocorria é que a companhia aérea tinha pago caro por alguns anúncios, ligados às pesquisas por seu nome; uma search engine mais honesta teria tornado esses anúncios desnecessários, economizando assim recursos da companhia.
Em geral, pode-se dizer que do ponto de vista do consumidor, quanto melhor a search engine for, menos anúncios o consumidor encontrará antes de chegar ao que procura. Isso obviamente é prejudicial aos negócios das atuais search engines. Entretanto, sempre haverá anunciantes querendo que os consumidores mudem suas preferências, ou anunciantes que ofereçam produtos genuinamente inéditos. Mas nós acreditamos que a questão da publicidade traz bastantes problemas, e é crucial haver uma search engine competitiva que seja transparente e se mantenha no domínio acadêmioco.

Apêndice B: Escalabilidade (capacidade de crescimento)
9.1 Escalabilidade da Google
Nós projetamos a Google para crescer, no curto prazo, até 100 milhões de páginas. Nós recentemente recebemos discos e máquinas para trabalhar com esse montante. Todas as partes do sistema que consomem tempo são paralelizados e crescem linearmente. Isso inclui partes como crawlers, indexers e sorters. Nós achamos também que a maior parte das estruturas de dados serão capazes de enfrentar o crescimento com facilidade. Entretanto, após as 100 milhões de páginas nós estaremos muito perto dos limites dos sistemas operacionais mais comuns (nós atualmente rodamos em Solaris e Linux). Isso inclui aspectos como enderaçamento de memória, número de descritores de arquivos abertos, soquetes de rede e largura de banda, entre outros. Nós acreditamos que para ultrapassar a marca de 100 milhões de páginas, teremos que aumentar bastante a complexidade do nosso sistema.
9.2 Escalabilidade de Arquiteturas de Indexação Centralizadas
À medida em que as capacidades dos computadores aumentam, torna-se possível indexar grandes montantes de texto a um custo razoável.  Evidentemente, outras mídias que utilizam mais largura de banda, como vídeo, provavelmente tornar-se-ão mais difundidas. Mas como o custo de produção de texto é menor do que o de videos, texto provavelmente permanecerá como o meio mais popular por algum tempo. Além disso, é provável que logo nós disponhamos de técnicas de reconhecimento de fala  que facilitem a conversão de fala em texto, aumentando assim o volume de texto existente.
Todos esses fatos trazem possibilidades fantaásticas para sistemas de indexação centralizada. Eis um exemplo ilustrativo. Suponhamos que queiramos indexar tudo que for escrito por todas as pessoas nos Estados Unidos durante um ano. Suponhamos que existam 250 milhões de pessoas nos Estados Unidos, e que cada uma escreva uma média de 10 kB por dia; isso resulta num volume anual de aproximadamente 850 Terabytes. Suponhamos que a indexação de um terabyte possa ser feita a um custo razoável. Suponhamos também que os métodos de indexação sejam lineares, ou quase lineares, em sua complexidade. Dadas todas suposições nós podemos estimar quanto tempo levaria para indexar 850 Terabytes a custo razoável, pressupondo algumas taxas de crescimento. A Lei de Moore, enunciada em 1965, diz que a capacidade de processamento dobra a cada 18 meses; essa lei tem sido surpreendentemente válida, não apenas para processadores, mas também para outros fatores importantes como capacidade de disco. Se nós assumirmos que a Lei de Moore continuará válida, nós necessitaremos de apenas dez períodos de 18 meses, ou 15 anos, para atingir nosso objetivo de indexar tudo o que for escrito nos EUA por um ano a um custo suportável por uma pequena empresa. Alguns especialistas em hardware predizem que a Lei de Moore não se manterá válida pelos próximos 15 anos, mas ainda assim haverá várias aplicações interessantes, mesmo que apenas algumas das nossas suposições se materializem.
Evidentemente, sistemas distribuídos como Gloss [Gravano 94] ou Harvest serão no mais das vezes as soluções mais eficientes e elegantes de indexação, mas parece ser difícil convencer o mundo a utilizar esses sitemas por causa dos altos custos de configuração e administação de um grande número de sub-partes. É claro que é possível que os custos de administração se reduzam drasticamente; se isso ocorrer, e se todos passarem a utilizar um sistema de indexação distribuída, as pesquisas na web melhorariam drasticamente.
Como os humanos podem escrever ou falar um volume limitado de informações, e como os computadores continuam evoluindo, a indexação de textos funcionará melhor do que hoje. Pode ocorrer que surja um volume infinito de conteúdo gerado por máquinas, mas somente a indexação de conteúdo gerado por humanos é útil. Por isso, estamos otimistas em relação a que nossa arquitetura de search engine evolua em sua capacidade de cobrir informações relevantes em textos, e que há um futuro brilhante para os trabalhos de searching.

<< Conclusões e Agradecimentos Volta à primeira parte: Introdução >>