Patente Google: opinião editorial

March 4th, 2009

Acostumamo-nos a pensar que todo o rankeamento da Google é feito por robôs e algoritmos, sem intervenção humana.

Nessa patente: System and method for supporting editorial opinion in the ranking of search result, sistema e método para incorporar opinião editorial no rankeamento de uma pesquisa, a Google expressamente informa que pretende incorporar a opinião de editores humanos nos rankings.

Editores (ou seja, seres humanos) terão múltiplos papéis:

  • criar categorias de pesquisas, como Turismo, Esportes, etc. O algoritmo teria pesos diferentes de acordo com a categoria da palavra-chave pesquisada; por exemplo, para pesquisas sobre Turismo, o PageRank pode ser mais importante que a idade da página/links/site, ou o score do usuário pode gerar pontos extras, etc.
  • ademais, cada página teria um score diferente, dependendo da palavra-chave pesquisada; páginas seriam dividas em favored sources e non-favored sources, as quais ou seriam avaliadas por editores, ou seriam páginas de outros diretórios avaliados por editores (exemplos citados textualmente na patente: Yahoo e dmoz)
  • visitar páginas/sites e atribuir uma opinião editorial; páginas consideradas boas teriam um acréscimo no score, páginas consideradas ruins teriam decréscimo no score.

A patente tem diversas filigranas, mas o essencial é: há editores humanos interferindo nos rankings; há diversas formas de se enganar bots e o algoritmo, mas é muito mais difícil enganar um editor humano e bem treinado.

Patente Google: usuários afetam rankings

March 4th, 2009

Methods and apparatus for employing usage statistics in document retrieval, ou Métodos e aparatos para incluir estatísticas de uso no ranking de documentos.

Nesse tópico, descrevi um histórico (que já está desatualizado) sobre a briga entre Search Engines e as pessoas que querem manipular os rankings das Search Engines.

No início, os rankings eram baseados principalmente em fatores on-page (título, densidade de palavras, cabeçalhos, etc); ou seja, era o próprio webmaster quem definia os elementos de rankeamento.

A Google implementou o rankeamento por PageRank, que nada mais era que um fator associado à interconectividade de páginas; ou seja, agora eram os outros webmasters quem definiam os elementos de rankeamento.

Mas, segundo a Google, essas técnicas com o tempo demonstraram algumas fraquezas que impediam um melhor rankeamento.

De acordo com a patente:

[0007] Conventional methods of determining relevance are based on matching a user’s search terms to terms indexed from web pages. More advanced techniques determine the importance of a web page based on more than the content of the web page. For example, one known method, described in the article entitled “The Anatomy of a Large-Scale Hypertextual Search Engine,” by Sergey Brin and Lawrence Page, assigns a degree of importance to a web page based on the link structure of the web page.

[0008] Each of these conventional methods has shortcomings, however. Term-based methods are biased towards pages whose content or display is carefully chosen towards the given term-based method. Thus, they can be easily manipulated by the designers of the web page. Link-based methods have the problem that relatively new pages have usually fewer hyperlinks pointing to them than older pages, which tends to give a lower score to newer pages.

[0009] There exists, therefore, a need to develop other techniques for determining the importance of documents. 

Ou seja, a Google percebeu que precisava desenvolver novas técnicas; e note-se que a patente data de 2002, quando o comércio de links (que é muito mais nocivo do que o problema apontado pela Google, de que links tendem a favorecer páginasmais antigas) não era um grande problema.

E qual foi a nova técnica?

Systems and methods consistent with the present invention address this and other needs by identifying compounds based on the overall context of a user query. One aspect of the present invention is directed to a method of organizing a set of documents by receiving a search query and identifying a plurality of documents responsive to the search query. Each identified document is assigned a score based on usage information, and the documents are organized based on the assigned scores.

O comportamento do usuário passa a ser elemento de rankeamento.

É uma evolução natural do algoritmo da Google: no início, os próprios autores definiam o ranking de uma página (fatores on-page); depois, a comunidade de autores definia o ranking (PageRank); agora, é o usuário quem define o ranking.

Exemplo prático:

  • eu escrevo uma página sobre [carros]; quando alguém pesquisa por [carros], minha página é selecionada(responde à query, isso se chama hit - note que um hit é diferente de uma impression ou de um click - basta a minha página conter a palavra-chave para gerar um hit); como, porém, outros milhões de páginas também satisfarão a query, o score ganho por cada uma é baixo.
  • eu escrevo uma página sobre [onde comprar manaual de carros da Fiat]; quando algum usuário pesquisar por essa expressão, poucas páginas satisfarão à query, logo, cada uma dessas páginas ganhará um bom score; o problema é que poucos usuários fazem essa pesquisa, e portanto o ganho acumulado é baixo.
  • logo, para se ganhar mais score, é necessário escrever sobre temas que ao mesmo tempo 1) sejam bastante pesquisados e 2) seja tratado por poucas outras páginas; um exemplo seria saber que um evento de impacto ocorrerá e escrever de antemão sobre ele - algo como [recall de fiat style].
  • evidentemente,torna-se difícil descobrir sobre quais tópicos escrever. E é essa justamente a intenção da Google: criar um algoritmo que não pode ser manipulado. Subirão no ranking as páginas que melhor atenderem às necessidades dos usuários.

A patente traz muitas informações e explica muito do que se tem visto nos rankings nos últimos anos.

Por exemplo, esse trecho é interessante: [0045] Furthermore, although FIGS. 4 and 5 illustrate determining usage information on a document-by-document basis, other techniques consistent with the information may be used to associate usage information with a document. For example, rather than maintaining usage information for each document, one could maintain usage information on a site-by-site basis. This site usage information could then be associated with some or all of the documents within that site.

Um score é associado a todas as páginas do site (ou seja, um SiteRank); enquanto o SiteRank for baixo (ou seja, enquanto o site não satisfizer a um mínimo de pesquisas dos usuários), nenhuma das páginas do site conseguirá rankear, independentemente do PageRank ou do conteúdo on-page.  Para mim, essa é uma explicação perfeita do que se chamou de SandBox.

Isso é black hat

March 4th, 2009

SEOs brasileiros ainda acham que black hat é repetir palavras-chave no texto e nas meta-tags, usar negrito, etc; isso é coisa de amador.

Os black hats são possivelmente as pessoas que mais entendem de SEO, redes, DBs, protocolos, etc; ver exemplos de técnicas black hat aqui e aqui.

Nesse post, John Mu fala de “um hack que você nunca descobriria”. Impressionante.

Google usa Ajax nas SERPs e dificulta análise de estatísticas

February 8th, 2009

Fonte.

Segundo o blog acima, a Google, ao expandir seu uso de Ajax, estaria alterando (para pior, segundo a óptica de SEO) a formação de URLs de pesquisa, e por conseguinte dificultando a análise de palavras-chaves que aparecem nas estatísticas de visitação.

Explicando: hoje, quando fazemos uma pesquisa, a palavra-chave passa a ser parte da URL da página de resposta da Google; por exemplo, ao pesquisarmos pela palavra [brasil] em google.com, a Google gera uma página com a seguinte URL (chamada SERP, Search Engine Response Page): http://www.google.com/search?hl=en&q=brasil; outros parâmetros podem aparecer, separados pelo símbolo &, como por exemplo http://www.google.com/search?hl=en&safe=off&q=brasil&start=10, que informa que o idioma da pesquisa foi inglês, o modo safe estava off, a palavra-chave foi [brasil] e que a SERP gerada começa na segunda página.

Quando clicamos em qualquer um dos links dessa SERP, a URL inteira aparece como referrer nas estatísticas do servidor da página de destino. A partir daí, softwares de análise de tráfego como analytics ou statcounter são capazes de encontrar as palavras-chave codificadas na URL e assim determinar qual palavra-chave foi utilizada na google para gerar a SERP, e qual a posição da página na pesquisa.

E o que vai mudar? Nas SERPs em que a Google migrou para Ajax, a SERP gerada passa a ter o formato http://www.google.com/#q=ajax&hl=en&q=brasil.

Note que, logo após google.com/, é introduzido o símbolo #. E, por convenção do protocolo http, tudo o que vem após o # é truncado no servidor que envia a URL para o cliente. Isso significa que o servidor do cliente entenderá que todas as requisições da Google virão da URL google.com.

Ou seja, não haverá maneira de se saber qual palavra-chave foi utilizada na Google, nem qual era a posição da sua página nas SERPs.

Veja a repercussão do caso no WebmasterWorld.

Google: perguntas e respostas

November 12th, 2008

Deparei-me com essa excelente seleção de perguntas e respostas sobre a Google (texto em inglês).

As perguntas referem-se apenas a indexação e rankeamento, e foram feitas em um live chat ocorrido em outubro de 2008. As respostas foram dadas por diversos membros do Search Quality Assurance da Google, incluindo estrelas como Matt Cutts e John Mu.

É bem verdade que o staff da Google não tem por prioridade satisfazer a curiosidade dos SEOs. Mas é verdade também que há muitas dúvidas e mitos circulando na internet, que a Google pode muito bem esclarecer sem com isso dar instrumentos a spammers.

Isso quer dizer que o texto deve ser lido e interpretado com cuidado, mas é possivelmente um dos mais esclarecedores textos sobre o algoritmo da Google.

O texto é longo, não tenho tempo para traduzi-lo.

Segue abaixo apenas uma amostra das perguntas feitas e respondidas:

  • Qual o peso que a idade de um site e o tempo de registro de um domínio têm no seu posicionamento?
  • A Google recentemente removeu a sugestão “submeta seu site a diretórios importantes como dmoz e Yahoo!” das guidelines. Isso quer dizer que esses links serão descontados no futuro?
  • O uso de sub-domínios pode ajudar/atrapalhar rankings?
  • Links de outros sites da mesma companhia (ou mesmo webmaster) ajudam ou atrapalham rankings?
  • Se meu site tiver um número enorme de páginas, devo incluir todas elas no xml sitemap?
  • Um link de .edu e .gov vale mais do que os outros links?
  • Qual o peso de links de social bookmarks e blogs?
  • Vocês não acham que um webmaster deve ser informado quando da aplicação de uma penalidade manual? E nesses casos, os pedidos de reinclusão não deveriam ser examinados com mais cuidado?
  • O uso demasiado de “nofollow” causa alguma penalidade?
  • A velocidade de carregamento da página influencia no ranking?
  • Existe alguma metatag que possamos utilizar para indicar à Google qual país desejamos atingir?
  • Quanto tempo demora para Google tomar providências quando informamos um caso de compra e venda de links?
  • Como a Google trata sub-domínios? O que é melhor: subdominio.dominio.com ou dominio.com/subdominio ?
  • Como posso saber se não serei penalizado por linkar para um site de que a Google não goste?
  • Existe alguma vantagem em usar IPs dedicados? Há alguma desvantagem em usar IPs compartilhados?
  • Por que alguns sites são penalizados por utilizar conteúdo duplicado e outros grandes sites como Yahoo! postam conteúdo duplicado e não são penalizados?
  • Se eu altero uma URL para otimizá-la, e utilizo um redirect 301 para a nova URL, ela receberá todo o benefício dos links da velha URL?
  • O que é melhor para nomear URLs: hifens ou underscores?
  • Um blog que recebe muitos comentários melhora sua posição nos rankings?
  • A utilização de web standards melhora o ranking do site?

Algo que se nota nas respostas é a ênfase em incentivar os webmasters em criar conteúdo de qualidade e manter os usuários satisfeitos (”P: Aumentar a velocidade do servidor melhora o ranking do site? R: Melhorar o servidor faz com que a página seja apresentada mais rápida, e portanto torna o usuário mais satisfeito, e isso pode melhorar o rankign”).

Isso pode ser apenas retórica, mas eu acredito que de fato a Google tem meios para avaliar o grau de satisfação do usuário. E onde esses meios não existem ou são imperfeitos, a Google está trabalhando para criá-los ou melhorá-los. E isso porque o objetivo da Google (e todas as outras SEs) é apresentar aos seus usuários os sites que melhor atendam suas expectativa.

SEO é trabalho para o longo prazo

October 10th, 2008

Existe mais de uma maneira de se ganhar dinheiro na internet.

Uma maneira: criar um blog, sem nenhum tópico definido, trocar links (”fazer parcerias”) a esmo, escrever todos os dias sobre um tópico que esteja em evidência (os chamados hypes), torcer para que a Google envie tráfego que clique nos anúncios e gere cliques do Adsense (e, claro, torcer para que os anunciantes continuem pagando para aparecer em um site que provavelmente não lhes traz lucro).

Outra maneira é trabalhar pensando no longo prazo, criando desde logo um site que seja útil para os visitantes e lucrativo para os anunciantes.

O gráfico abaixo mostra o crescimento do tráfego em um dos meus sites, no período que vai de 1 de dezembro de 2005 até 10 de outubro de 2008 (ou seja, quase três anos).

seo-longo-prazo.jpg

Nota-se que o tráfego cresce de forma gradual e constante (algo parecido com o que se passa com esse outro site).

O crescimento do tráfego acompanhou a subida do site nos rankings de todas as Search Engines; o método empregado está descrito nesse post sobre como chegar ao topo da Google (basicamente: conteúdo + links + tempo). Atualmente, a homepage do site está na primeira página da Google, Yahoo e msn para a palavra-chave desejada; na Google, a competição, atualmente, é contra outras 32.000.000 de páginas.

A palavra-chave (o tema do site) foi escolhido de forma que a página nunca deixe de ser visitada (uma página sobre “mulher melancia” terá tráfego efêmero; uma página sobre “ortodontia” nunca deixará de ter tráfego). O site gera receitas a partir de afiliados, adsense e anúncios diretos; e com o passar do tempo, mais e mais empresas do setor procuram divulgar seus sites na internet.

O site é o melhor no seu nicho (graças ao conteúdo, que melhor atende às necessidades dos visitantes - o site em questão tem umas 300 páginas) e o que mais tem links relevantes (consequência do conteúdo relevante e, obviamente, do trabalho de SEO); os visitantes gostam do site, tomam-no como referência, clicam nos anúncios e, com mais probabilidades do que no caso dos blogs aleatórios, geram lucro para os anunciantes; o site praticamente não requer manutenção (adiciono uma ou duas páginas por mês), o que me permite identificar outros nichos e começar a trabalhar em outros sites (que atingirão a maturidade em alguns anos).

Um site como esse, resultado do trabalho de SEO de longo prazo, é uma máquina de fazer dinheiro.

As punições da Google não são todas iguais

October 1st, 2008

Um dos meus sites foi punido pela Google.

Trata-se de um blog que utiliza wordpress e que foi hackeado (o que me fez repensar sobre as vantagens de se escrever as páginas em html, em vez de depender de bancos de dados). O invasor aproveitou-se de uma das vulnerabilidades do WP e conseguiu infiltrar SQL injections; com essa técnica, as páginas geradas pelo WP passam a conter elementos espúrios, introduzidos pelo invasor.

E o invasor fez mais ainda: conseguiu implementar um cloaking no WP; com isso, o WP servia uma página para um visitante comum, e uma página diferente - que continha links para sites de interesse do invasor - para o Googlebot. Resultado: páginas do meu site passavam PageRank e TrustRank para os sites do invasor, enquanto usuários comuns (inclusive eu mesmo) não conseguiam enxergar os links espúrios, mesmo examinando o código fonte. Parece ter sido exatamente o mesmo caso desse site, comentado pelo Marketing de Busca.

O interessante, no caso, foi a maneira como a Google lidou com o caso. Em geral, a Google se mantém silenciosa quanto à aplicação das punições; muitos webmasters ficam confusos quando vêem uma súbita queda no tráfego, sem saber se houve punição, quais as causas, quais os remédios.

No caso do meu site em questão, o tráfego teve o comportamento abaixo (estatísticas medidas por statcounter.com, que tem a grande vantagem de mostrar as keywords em tempo real):

punicao-google.jpg

Como se vê, desde o início do ano, seguindo essa receita do sucesso na Google, o site vinha tendo um crescimento gradual e constante (o crescimento mais rápido no final de março possivelmente deveu-se a algum link temporário de alta qualidade). No final de maio, houve uma súbita queda (as visitas da Google praticamente zeraram; o tráfego veio de outros sites e máquinas de busca).

No início de julho, recebo uma mensagem da Google! Na mensagem, o editor da Google informa que meu site provavelmente foi invadido, acusou o cloaking, sugeriu remédios, e informou que seria aplicada uma penalidade, com duração mínima de trinta dias; informou ainda que ao final dos trinta dias, caso eu tivesse eliminado os problemas, eu deveria solicitar reinclusão no índice.

Corrigi (ou melhor, pensei ter corrigido) os problemas, mas o site foi novamente hackeado alguns dias depois. Em 20 de julho, o tráfego da Google novamente desabou. Corrigi novamente os problemas, dessa vez com mais cuidado. Solicitei reinclusão. Em 19 de agosto, exatamente 30 dias após o início da punição, o tráfego retornou.

CONCLUSÕES: as penalidades da Google não são todas iguais. A Google parece ser mais condescendente com alguns sites e mais rigorosa com outros. No caso em questão, trata-se de um site de alta qualidade, que foi claramente invadido por terceiros; a Google viu-se na obrigação de aplicar uma punição, mas fez um esforço para ver o site retornar ao índice.

SEO negativo (anti-SEO)

June 17th, 2008

Em mercados de SEO mais maduros que o brasileiro, existe a idéia de SEO negativo (ou anti-SEO).

A idéia é, em vez de fazer determinado site subir para uma dada palavra (SEO positivo), buscar meios de diminuir a visibilidade de um concorrente.

Como se pode diminuir a visibilidade do concorrente (e, indiretamente, ganhar visibilidade para si próprio)?

1) Há controvérsias a respeito da possibilidade de alguém diminuir rankings de um concorrente por meio de links. Ou seja, há alguma maneira de se criar um esquema de links apontando para o site A que faça com que o site A desça nos rankings?

Essa técnica é conhecida como google bowling (boliche Google); diversos sites já afirmaram que sofreram efeitos do google bowling (ver discussões aqui e aqui; o pessoal do seochat conduziu um experimento controlado sobre bowling, mas não chegou a conclusão nenhuma).

Essa técnica ganhou alguma força depois que a Google alterou suas recomendações (webmaster guidelines) de : “não há nada que um competidor possa fazer para prejudicar seus rankings” para “não há quase nada que um competidor possa fazer para prejudicar seus rankings”.

2) Outra técnica é ocupar todos os espaços disponíveis na primeira página, de modo que a concorrência não tenha visibilidade (já que poucos usuários vão além da primeira página); por exemplo, não é difícil perceber que a pesquisa por Boston real estate (imóveis em Boston) retorna diversos sites que são controlados por um mesmo grupo ou pessoa.

Essa técnica é particularmente aplicável em alguns nichos em que a primeira página tem lugar cativo para alguns sites. Por exemplo, uma pesquisa para qualquer nome de país trará na primeira página a wikipedia, lonelyplanet, infoplease, o site oficial do país, etc (sem mencionar que a Google coloca várias de suas próprias páginas no topo); assim, colocando o seu site na primeira página, reduz-se o espaço para concorrentes.

3) Uma outra forma de SEO negativo é ressaltar as más qualidades do concorrente. Os usuários chegarão à página do concorrente, mas tomarão conhecimento de coisas ruins sobre ele.

Caso interessante é esse do Rancho da Traíra. Um (ex-)comensal visita o restaurante e escreve, em 26/05/08, suas (más) impressões sobre ele em seu blog; o blog é novo, PR cinza, o post teria impacto quase nulo. Em 12/06/08, o advogado do restaurante escreve uma resposta ao blog (a primeira resposta ao post), menciona leis, indenizações, etc. e exige a remoção do logo do restaurante. Em poucos dias, blogs revoltados com o comportamento do restaurante linkam para o post, e este sobe para a primeira página para a busca [rancho da traíra] (hoje, 17/06/08, o post é #3); todos os que procurarem uma opinião na google sobre o restaurante tomarão conhecimento do ocorrido. Perfeito exemplo de SEO negativo (no caso, involuntário); os concorrentes do Rancho da Traíra devem agradecer àquele advogado.

O valor de um link no Yahoo

June 7th, 2008

Quer subir na Google? Você precisa conseguir links (eles são necessários, tanto mais quanto mais competitiva for a palavra-chave de seu interesse), mas não qualquer link. A Google precisa acreditar que o link foi criado porque o autor do link acreditava na relevância da página que foi linkada (o autor do link tem que ter TrustRank). E hoje, reconhecer quais sites/páginas/links carregam TR é um dos trabalhos mais importantes de um SEO.

A Google, obviamente, não vai informar qual o TR de determinada página (já que o objetivo dela é justamente confundir os SEOs). Matt Cutts tem sido, compreensivelmente (já que ele é o líder do esquadrão anti-SEOs da Google), sempre evasivo quanto a dizer as causas de subidas e descidas de qualquer site/página nos rankings. E é mais evasivo ainda quando se trata de diretórios.

Nesse thread do webmaster, discutia-se o fato de que algumas páginas do Diretório Yahoo apresentavam PR cinza. Matt Cutts interveio para afirmar:

Looks like there’s a PR8 on dir.yahoo.com on all data centers, so I wouldn’t jump to conclusions. It’s possible that Yahoo changed their linking somehow, or that there was an issue on our side with how we canonicalized a url, but I do know that the Yahoo Directory has PageRank in our internal system, so I’ll ask folks here about it. Thanks for mentioning this.

E, mais adiante, nova mensagem:

It looks like it’s just a matter of canonicalizing upper vs. lowercase as to why some of the subdirectories look the way they do in the toolbar. I just wanted to reiterate that the Yahoo Directory has plenty of PageRank in our internal systems.

Não vejo como ele poderia ser mais claro: o PR que é visível nas páginas do Yahoo é irrelevante; o Yahoo tem um peso significante (alto TR) no algoritmo da Google.

E, se é assim com o Yahoo, é provável que seja assim com outros sites/domínios/páginas.

Google tornando-se mais transparente ?

May 23rd, 2008

O blog oficial da Google publicou uma entrevista com Udi Manber, um dos Vice-Presidentes da empresa, que cuida do setor da Qualidade das Buscas.

Udi reconhece que a Google tem sido bastante fechada no que diz respeito ao algoritmo de busca. “Fazemos isso por dois motivos: concorrência e abuso. Não queremos que nossos concorrentes conheçam nossos segredos. E se nossos algoritmos fossem mais facilmente acessíveis, ficaria fácil para as pessoas burlarem o sistema”.

Mas o interessante vem alguns parágrafos a seguir: “Mas ser completamente fechado não é o ideal, e esse post é um renovado esforço para nos tornarmos um pouco mais abertos que no passado. Procuraremos periodicamente explicar coisas novas, explicar coisas antigas, dar conselhos, divulgar notícias participar de conversações. Vou começar explicando genericamente como nosso grupo trabalha. Mais posts virão.”

Udi explica os diversos grupos que trabalham em conjunto para garantir Qualidade das Buscas; entre os grupos, há o de engenharia, o de lingüística/semântica, o de modelos temporais (”algumas pesquisas são melhor respondidas com páginas geradas há 30 minutas, outras são melhor respondidas com páginas que passaram no teste dos tempos”), o de modelos personalizados.

PageRank é ainda utilizado, mas é parte de um universo maior.

Em 2007, foram feitas 450 melhorias no algoritmo.

Em janeiro de 2008, foram feitas “significativas mudanças” no algoritmo de PageRank.

Vamos ver o que significa “tornar-se mais transparente”. Evidentemente, a Google não vai revelar nenhuma informação crucial; como o próprio Udi Manber mencionou na entrevista, o que ele pretende é diminuir a “segurança por ignorância” (security by obscurity).

De qualquer forma, o caminho para o sucesso na Google continuará o mesmo: para estar no topo da Google, é necessário ser o melhor site sobre aquele tópico.