Methods and apparatus for employing usage statistics in document retrieval, ou Métodos e aparatos para incluir estatísticas de uso no ranking de documentos.
Nesse tópico, descrevi um histórico (que já está desatualizado) sobre a briga entre Search Engines e as pessoas que querem manipular os rankings das Search Engines.
No início, os rankings eram baseados principalmente em fatores on-page (título, densidade de palavras, cabeçalhos, etc); ou seja, era o próprio webmaster quem definia os elementos de rankeamento.
A Google implementou o rankeamento por PageRank, que nada mais era que um fator associado à interconectividade de páginas; ou seja, agora eram os outros webmasters quem definiam os elementos de rankeamento.
Mas, segundo a Google, essas técnicas com o tempo demonstraram algumas fraquezas que impediam um melhor rankeamento.
De acordo com a patente:
[0007] Conventional methods of determining relevance are based on matching a user’s search terms to terms indexed from web pages. More advanced techniques determine the importance of a web page based on more than the content of the web page. For example, one known method, described in the article entitled “The Anatomy of a Large-Scale Hypertextual Search Engine,” by Sergey Brin and Lawrence Page, assigns a degree of importance to a web page based on the link structure of the web page.
[0008] Each of these conventional methods has shortcomings, however. Term-based methods are biased towards pages whose content or display is carefully chosen towards the given term-based method. Thus, they can be easily manipulated by the designers of the web page. Link-based methods have the problem that relatively new pages have usually fewer hyperlinks pointing to them than older pages, which tends to give a lower score to newer pages.
[0009] There exists, therefore, a need to develop other techniques for determining the importance of documents.
Ou seja, a Google percebeu que precisava desenvolver novas técnicas; e note-se que a patente data de 2002, quando o comércio de links (que é muito mais nocivo do que o problema apontado pela Google, de que links tendem a favorecer páginasmais antigas) não era um grande problema.
E qual foi a nova técnica?
Systems and methods consistent with the present invention address this and other needs by identifying compounds based on the overall context of a user query. One aspect of the present invention is directed to a method of organizing a set of documents by receiving a search query and identifying a plurality of documents responsive to the search query. Each identified document is assigned a score based on usage information, and the documents are organized based on the assigned scores.
O comportamento do usuário passa a ser elemento de rankeamento.
É uma evolução natural do algoritmo da Google: no início, os próprios autores definiam o ranking de uma página (fatores on-page); depois, a comunidade de autores definia o ranking (PageRank); agora, é o usuário quem define o ranking.
Exemplo prático:
- eu escrevo uma página sobre [carros]; quando alguém pesquisa por [carros], minha página é selecionada(responde à query, isso se chama hit - note que um hit é diferente de uma impression ou de um click - basta a minha página conter a palavra-chave para gerar um hit); como, porém, outros milhões de páginas também satisfarão a query, o score ganho por cada uma é baixo.
- eu escrevo uma página sobre [onde comprar manaual de carros da Fiat]; quando algum usuário pesquisar por essa expressão, poucas páginas satisfarão à query, logo, cada uma dessas páginas ganhará um bom score; o problema é que poucos usuários fazem essa pesquisa, e portanto o ganho acumulado é baixo.
- logo, para se ganhar mais score, é necessário escrever sobre temas que ao mesmo tempo 1) sejam bastante pesquisados e 2) seja tratado por poucas outras páginas; um exemplo seria saber que um evento de impacto ocorrerá e escrever de antemão sobre ele - algo como [recall de fiat style].
- evidentemente,torna-se difícil descobrir sobre quais tópicos escrever. E é essa justamente a intenção da Google: criar um algoritmo que não pode ser manipulado. Subirão no ranking as páginas que melhor atenderem às necessidades dos usuários.
A patente traz muitas informações e explica muito do que se tem visto nos rankings nos últimos anos.
Por exemplo, esse trecho é interessante: [0045] Furthermore, although FIGS. 4 and 5 illustrate determining usage information on a document-by-document basis, other techniques consistent with the information may be used to associate usage information with a document. For example, rather than maintaining usage information for each document, one could maintain usage information on a site-by-site basis. This site usage information could then be associated with some or all of the documents within that site.
Um score é associado a todas as páginas do site (ou seja, um SiteRank); enquanto o SiteRank for baixo (ou seja, enquanto o site não satisfizer a um mínimo de pesquisas dos usuários), nenhuma das páginas do site conseguirá rankear, independentemente do PageRank ou do conteúdo on-page. Para mim, essa é uma explicação perfeita do que se chamou de SandBox.