Archive for March, 2009

Patente Google: opinião editorial

Wednesday, March 4th, 2009

Acostumamo-nos a pensar que todo o rankeamento da Google é feito por robôs e algoritmos, sem intervenção humana.

Nessa patente: System and method for supporting editorial opinion in the ranking of search result, sistema e método para incorporar opinião editorial no rankeamento de uma pesquisa, a Google expressamente informa que pretende incorporar a opinião de editores humanos nos rankings.

Editores (ou seja, seres humanos) terão múltiplos papéis:

  • criar categorias de pesquisas, como Turismo, Esportes, etc. O algoritmo teria pesos diferentes de acordo com a categoria da palavra-chave pesquisada; por exemplo, para pesquisas sobre Turismo, o PageRank pode ser mais importante que a idade da página/links/site, ou o score do usuário pode gerar pontos extras, etc.
  • ademais, cada página teria um score diferente, dependendo da palavra-chave pesquisada; páginas seriam dividas em favored sources e non-favored sources, as quais ou seriam avaliadas por editores, ou seriam páginas de outros diretórios avaliados por editores (exemplos citados textualmente na patente: Yahoo e dmoz)
  • visitar páginas/sites e atribuir uma opinião editorial; páginas consideradas boas teriam um acréscimo no score, páginas consideradas ruins teriam decréscimo no score.

A patente tem diversas filigranas, mas o essencial é: há editores humanos interferindo nos rankings; há diversas formas de se enganar bots e o algoritmo, mas é muito mais difícil enganar um editor humano e bem treinado.

Patente Google: usuários afetam rankings

Wednesday, March 4th, 2009

Methods and apparatus for employing usage statistics in document retrieval, ou Métodos e aparatos para incluir estatísticas de uso no ranking de documentos.

Nesse tópico, descrevi um histórico (que já está desatualizado) sobre a briga entre Search Engines e as pessoas que querem manipular os rankings das Search Engines.

No início, os rankings eram baseados principalmente em fatores on-page (título, densidade de palavras, cabeçalhos, etc); ou seja, era o próprio webmaster quem definia os elementos de rankeamento.

A Google implementou o rankeamento por PageRank, que nada mais era que um fator associado à interconectividade de páginas; ou seja, agora eram os outros webmasters quem definiam os elementos de rankeamento.

Mas, segundo a Google, essas técnicas com o tempo demonstraram algumas fraquezas que impediam um melhor rankeamento.

De acordo com a patente:

[0007] Conventional methods of determining relevance are based on matching a user’s search terms to terms indexed from web pages. More advanced techniques determine the importance of a web page based on more than the content of the web page. For example, one known method, described in the article entitled “The Anatomy of a Large-Scale Hypertextual Search Engine,” by Sergey Brin and Lawrence Page, assigns a degree of importance to a web page based on the link structure of the web page.

[0008] Each of these conventional methods has shortcomings, however. Term-based methods are biased towards pages whose content or display is carefully chosen towards the given term-based method. Thus, they can be easily manipulated by the designers of the web page. Link-based methods have the problem that relatively new pages have usually fewer hyperlinks pointing to them than older pages, which tends to give a lower score to newer pages.

[0009] There exists, therefore, a need to develop other techniques for determining the importance of documents. 

Ou seja, a Google percebeu que precisava desenvolver novas técnicas; e note-se que a patente data de 2002, quando o comércio de links (que é muito mais nocivo do que o problema apontado pela Google, de que links tendem a favorecer páginasmais antigas) não era um grande problema.

E qual foi a nova técnica?

Systems and methods consistent with the present invention address this and other needs by identifying compounds based on the overall context of a user query. One aspect of the present invention is directed to a method of organizing a set of documents by receiving a search query and identifying a plurality of documents responsive to the search query. Each identified document is assigned a score based on usage information, and the documents are organized based on the assigned scores.

O comportamento do usuário passa a ser elemento de rankeamento.

É uma evolução natural do algoritmo da Google: no início, os próprios autores definiam o ranking de uma página (fatores on-page); depois, a comunidade de autores definia o ranking (PageRank); agora, é o usuário quem define o ranking.

Exemplo prático:

  • eu escrevo uma página sobre [carros]; quando alguém pesquisa por [carros], minha página é selecionada(responde à query, isso se chama hit - note que um hit é diferente de uma impression ou de um click - basta a minha página conter a palavra-chave para gerar um hit); como, porém, outros milhões de páginas também satisfarão a query, o score ganho por cada uma é baixo.
  • eu escrevo uma página sobre [onde comprar manaual de carros da Fiat]; quando algum usuário pesquisar por essa expressão, poucas páginas satisfarão à query, logo, cada uma dessas páginas ganhará um bom score; o problema é que poucos usuários fazem essa pesquisa, e portanto o ganho acumulado é baixo.
  • logo, para se ganhar mais score, é necessário escrever sobre temas que ao mesmo tempo 1) sejam bastante pesquisados e 2) seja tratado por poucas outras páginas; um exemplo seria saber que um evento de impacto ocorrerá e escrever de antemão sobre ele - algo como [recall de fiat style].
  • evidentemente,torna-se difícil descobrir sobre quais tópicos escrever. E é essa justamente a intenção da Google: criar um algoritmo que não pode ser manipulado. Subirão no ranking as páginas que melhor atenderem às necessidades dos usuários.

A patente traz muitas informações e explica muito do que se tem visto nos rankings nos últimos anos.

Por exemplo, esse trecho é interessante: [0045] Furthermore, although FIGS. 4 and 5 illustrate determining usage information on a document-by-document basis, other techniques consistent with the information may be used to associate usage information with a document. For example, rather than maintaining usage information for each document, one could maintain usage information on a site-by-site basis. This site usage information could then be associated with some or all of the documents within that site.

Um score é associado a todas as páginas do site (ou seja, um SiteRank); enquanto o SiteRank for baixo (ou seja, enquanto o site não satisfizer a um mínimo de pesquisas dos usuários), nenhuma das páginas do site conseguirá rankear, independentemente do PageRank ou do conteúdo on-page.  Para mim, essa é uma explicação perfeita do que se chamou de SandBox.

Isso é black hat

Wednesday, March 4th, 2009

SEOs brasileiros ainda acham que black hat é repetir palavras-chave no texto e nas meta-tags, usar negrito, etc; isso é coisa de amador.

Os black hats são possivelmente as pessoas que mais entendem de SEO, redes, DBs, protocolos, etc; ver exemplos de técnicas black hat aqui e aqui.

Nesse post, John Mu fala de “um hack que você nunca descobriria”. Impressionante.