Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Ask Jeeves - Teoma
A Teoma foi adquirida pela AskJeeves em 2001; atualmente, embora ambas as Search Engines mantenham sites e interfaces independentes, os seus resultados de pesquisa são idênticos. A AskJeeves, que operava no domínio AskJeeves.com, adquiriu também o domínio ask.com, para onde redirecionou o domínio antigo; todo o tráfego proveniente da AskJeeves é exibido nos logs como ask.com.
A AskJeeves foi criada em 1995. O significado do termo é "Pergunte ao Jeeves"; Jeeves é o nome do mordomo, até hoje presente na homepage do site, que supostamente consegue compreender o significado das perguntas, e buscar na web as páginas que respondam às mesmas.
Assim, em vez de se pesquisar simplesmente [brasil], o usuário é incentivado a pesquisar por [quem descobriu o brasil?] ou [qual o tamanho do brasil?], e Jeeves buscará as respostas. Observe que as páginas retornadas são escolhidas por um algoritmo, e não por um ser humano; qualquer Search Engine é também capaz de responder a perguntas (embora, talvez, o algoritmo da Jeeves seja mais apto a prover respostas relevantes).
Teoma significa "expert" em gaélico. A Teoma foi criada em 2000, por uma equipe de pesquisadores da Universidade Rutgers; a promissora tecnologia da Teoma atraiu a atenção da Jeeves, que comprou a Teoma em setembro de 2001.
Por ter sido incubada em ambiente acadêmico, tal qual a Google, a Teoma é menos reticente em divulgar aspectos de sua tecnologia. Por exemplo, na página How Teoma Works (Como a Teoma Funciona), é feita uma breve descrição dos pontos que diferenciam o algoritmo da Teoma das demais Search Engines.
Como todas as grandes SEs, a Teoma incorporou análise de links a seu algoritmo; entretanto, a Teoma foi além. O trecho abaixo é uma tradução do texto da própria Teoma:
"Em vez de ordenar resultados baseando-se em sites com o maior número de links apontando para eles, Teoma analisa a Web da maneira como ela é organicamente organizada - em comunidades espontaneamente criadas que tratam de um mesmo tópico ou de tópicos relacionados - para determinar quais sites são mais relevantes. Teoma detém a única tecnologia capaz de localizar comunidades na Web que tratem de temas específicos, desde que elas existam. E isso nos permite refinar o processo de busca, provendo assim resultados mais precisos."
Isso significa que, em vez de levar em conta todos os links que apontam para uma página, a Teoma considera apenas links que provenham de sites que abordem temas correlatos.
A Google já percebeu que uma das maiores deficiências do PageRank é que, como os links todos eram igualmente considerados, tornava-se fácil manipular o PageRank através da compra de links; para sanar essa deficiência, a tática da Google foi incorporar o algoritmo Hilltop, que elege algumas páginas como "experts", e dá grande valor a links contidos nessas páginas.
A abordagem da Teoma é, a meu ver, muito mais avançada do que a que foi apresentada no trabalho sobre Hilltop (entretanto, é provável que a implementação da Google tenha sido muito mais complexa do que o que foi apresentado ao público).
O algoritmo da Teoma é baseado em um trabalho chamado HITS, desenvolvido por um pesquisador chamado Kleinberg; o paper original era intitulado Authoritative Sources in a Hyperlinked Environment. Esse paper foi mais discutido do que o do PageRank; faça uma pesquisa por [HITS algorithm Kleinberg], ou visite a página de recursos, para acessar mais informações sobre esse algoritmo.
O algoritmo procura classificar cada página em "hub" (que contém muitos links apontando para outras páginas) ou "authority" (que recebe muitos links de outras páginas). Entretanto, em vez de qualificar uma página simplesmente como "hub" ou "authority" (que é mais ou menos o que foi proposto no algoritmo Hilltop), o algoritmo de Kleinberg atribui a cada página dois índices, um "hub index" e um "authority index". O peso de cada link dependerá dos índices hub e authority da página em que se encontra.
O processo de cálculo é recursivo e pode envolver bilhões de páginas. Quando de sua concepção, o algoritmo mostrou-se impraticável porque exigia volumes enormes de recursos computacionais.
Há alguns anos, a Teoma adquiriu os direitos sobre o HITs. Não se sabe quais barreiras tecnológicas a Teoma conseguiu vencer, e quanto do algoritmo foi efetivamente implementado.
Entretanto, os fatos sugerem que a Teoma tem grande potencial para se tornar uma das mais importantes Search Engines da web.
Leituras interessantes:
uma entrevista com pesquisadores da Teoma.
Topic distillation: hits, clever, discoweb then Teoma Do paper até a implementação do algoritmo
|
|