Archive for May, 2007

O poder dos links: um caso prático

Thursday, May 31st, 2007

Deparei-me há pouco com esse post: http://www.brpoint.net/arquivo/blogs/ganhe-um-dominio-gratis.html (removi os links desse post, para não causar nenhuma influência no experimento abaixo).

O Bruno, webmaster do site brpoint.net, teve uma ótima idéia: está pagando o registro de um domínio por um ano para todos os webmasters que fizerem uma avaliação daquele site e incluírem dois links para o mesmo.

Os avaliadores têm o trabalho de examinar os pontos positivos e negativos do brpoint.net; em troca, ganham um ano de registro de domínio. O Bruno tem que pagar algo entre US$ 6 e US$ 12 por participante, mas em troca ganha não apenas uma avaliação (provavelmente imparcial) do seu site - e isso é importante para que se possa aprimorar o mesmo -, mas também (e principalmente) os links, que provavelmente melhorarão os rankings do brpoint nas diversas Search Engines. Uma situação em que todos ganham.

Espero que ganhemos também nós, estudiosos dos algoritmos.

Parece que o Bruno não vai ter problemas em conseguir os 200 links (2 de cada site, até um máximo de 100 sites). As regras que ele estipulou exigem que os links estejam em páginas indexadas na Google; além disso, foi exigido de todos os participantes que incluíssem nos respectivos sites um pequeno texto, o qual continha dois links.


Ganhe um domínio grátis.Basta participar da promoção
que está sendo realizada pelo BrPoint.

De novo, removi os links; veja o código-fonte para conferir o código dos links.

Ou seja, o post vai receber 100 links com a âncora ‘promoção’, e a homepage vai receber 100 links com a âncora ‘BrPoint’.

Minha intenção é ver o impacto que os links vão causar nos rankings do post e da homepage, para diversas palavras chave. Teria sido muito bom acompanhar o experimento desde o início, mas ainda podemos tirar várias conclusões.

O post do BrPoint foi criado em 16/5/2007; o Bruno já reconheceu 40 pares de links. Nesse momento (31/5, quase meia-noite), vejo o seguinte:

Na Google:

  • O post já é #1 (193.000 páginas) para [ganhe um domínio grátis], que é o Título da página; isso quer dizer que em quinze dias a página já foi indexada e ganhou um score considerável
  • O post é #17 (mostrando 10 resultados por página) para [domínio grátis], que é consideravelmente mais competitiva (2.180.000 páginas); a intenção é ver quanto ainda ela vai subir, com os links extras que ainda virão
  • O post já está na posição #56 para [promoção], que é altamente competitiva (21.800.000 páginas)
  • A homepage já é, evidentemente, #1 para brpoint (e também #2, para uma página de 12/03/2007, solicitando ajuda para o Aldemir - não vou colocar a URL porque poderia influenciar o ranking). Mas é interessante ver o que acontecerá com o ranking para outros termos: a homepage é #2 para [problogging] (a #1 é problogging.com); a homepage está em #700 (100 resultados por página) para a palavra [tecnologia] (91.800.000 páginas), que está no Título da página no cache da Google; para a palavra [promoção], ao redor da posição #163, há outra página do Brpoint com um FAQ, datada de 23/05/2007
  • Excelente: parece que de ontem para hoje o Título da homepage foi alterado de ‘BrPoint | Problogging, Tecnologia e Opinião’ para ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Vamos ver o que vai acontecer então com os rankings para [tecnologia] (item anterior), [Dicas de Blog] e [SEO]. Hoje, para [dicas de blog], há uma página com dicas para o Adsense na posição #680; para [SEO], há dois links (100 resultados por SERP) do seo.brpoint.net nas posições #45/46 - uma sobre o-fim-do-seo e outra sobre yahoo-permite-nao-indexacao-de-parte-das-paginas (128.000.000 de páginas - estranhamente, há muitas páginas escritas em japonês nas primeiras posições << investigar); ao redor das posições #50/51, há duas páginas do www.brpoint.net - uma página sobre o seo-brasil-transferido e outra sobre seo-nao-confunda-alhos-com-bugalhos.Vamos acompanhar o que acontece nos próximos dias/semanas/meses.
  • Para [opinião], a homepage está em #121 (42.700.000 páginas)
  • No Cade.com.br:

  • o post já é #1 para [ganhe um domínio grátis] (47.200 páginas) e #9 para [domínio grátis] (3.930.000 páginas)
  • a homepage é #86 para [promoção], mas a palavra está na homepage; a página com FAQs da promoção é #146; o post em si não aparece entre os 1000 resultados apresentados (!!)
  • Para [problogging], a homepage é #1; para [tecnologia], a homepage é #249 (tecnologia está na página em cache); para [SEO], #25; para [dicas de blog], 159; para [opinião], #160.
  • No msn.com.br:

  • Para [ganhe um domínio grátis] (10.174 páginas), a primeira página está em #120, e é uma página interna em que se faz referência à promoção (ou seja, essa página tem mais peso do que o post sobre a própria promoção !!); para [domínio grátis], nem o post nem outra página aparecem entre os 1000 primeiros resultados
  • Para [problogging], a primeira página a aparecer é a página sobre wp-plugins, #180
  • Vamos acompanhar esses rankings, para ver o que ocorrerá nos próximos dias/semanas/meses.

    Atualização em 2 de julho: clique aqui.

    A importância da Primeira Página

    Monday, May 28th, 2007

    Nesse outro post, coloquei alguns motivos para explicar por que um bom posicionamento na primeira página de respostas (SERPs) vai tornar-se cada vez mais difícil e relevante.

    Minha experiência já havia demonstrado isso. Chegar à primeira página, ainda que ao último link dela,  gera um significativo aumento no número de visitas em relação à segunda página; depois, chegar ao que se chama ‘above the fold’, ou seja, o espaço visível da primeira página sem necessidade de rolagem vertical, gera um outro significativo aumento; e, finalmente, chegar ao topo da primeira página causa o maior dos aumentos em tráfego.

    E isso é fácil de explicar: as pessoas tendem naturalmente a clicar naquilo que está imediatamente na frente de sua vista (ou seja, o topo das SERPs); rolar a tela para baixo exige que se posicione o mouse em um local específico (poucas pessoas sabem que podem rolar a tela com as setas), e passar à segunda página exige ainda mais intimidade com o navegador (o usuário tem que clicar no pequeno 2 ou no obscuro Mais no finalzinho da página). Eu acho que o usuário típico clica no que quer que a Google mostre na primeira página, ou repete a pesquisa com outros termos.

    Recentemente, deparei-me com esse estudo sobre cliques na primeira página. Os resultados do estudo não apenas confirmam a importância da primeira página, mas mostram que é ainda mais importante estar no topo dela.

    A origem da História: em agosto de 2006, a AOL, maior provedora de acesso à internet dos Estados Unidos, deixou que um enorme banco de dados vazasse para a internet; esse banco continha uma relação de milhões de pesquisas efetuadas por usuários AOL, bem como seu comportamento (quais links foram clicados) perante as páginas de resposta. À época, houve grandes discussões nos EUA, pois isso poderia ser visto como uma violação à privacidade das pessoas (algumas pessoas podem se sentir desconfortáveis se *todas* as palavras que elas pesquisaram na internet fossem tornadas públicas); um exemplo dessa discussão está aqui.

    Mas voltemos ao estudo, que é o que nos interessa aqui. Alguém fez uma análise dos mais de 36 milhões de pesquisas e mais de 19 milhões de cliques (o que indica que quase a metade das pesquisas não gera nenhum clique). A figura abaixo mostra a distribuição dos cliques nos links da primeira página:

    estudo-aol.png

    Como se vê, a posição #1 recebe mais de 42% dos cliques ! Quase a metade de todos os usuários clicam o site #1. O site número 2 recebe aproximadamente 12% dos cliques, ou menos de um terço; o número 3 recebe pouco mais de 8%; os sites 6 em diante, que certamente está abaixo da dobra, recebem menos de 4%; é interessante observar que o site #10, provavelmente por ser a última opção apresentada ao usuário, recebe um pouco mais de cliques que o número 9.

    E a página 2? A pesquisa revelou como o número de visitantes que passam à página 2 cai drasticamente:

    estudo-aol-2.png

    Menos de 1% dos usuários passaram à página 2.

    Cabem algumas observações: primeiro, os dados referem-se apenas aos usuários da AOL, que, pode-se argumentar, não refletem o universo de usuários da internet; entretanto, sabe-se que os usuários AOL (americano, que paga mensalmente com cartão de crédito suas mensalidades) são dos mais contumazes compradores via internet, ou seja, são os que mais interessam a sites comerciais. Segundo, desde o vazamento dos dados, cada vez mais o topo das SERPs vem sendo tomado por links patrocinados (veja o site da AOL); isso significa que mesmo o topo dos links orgânicos pode ter perdido relevância hoje.

    Mas uma conclusão é certa: estar na primeira página das SERPs faz toda a diferença entre o sucesso e o fracasso de um site.

    Florida Update

    Sunday, May 27th, 2007

    Em outros posts, como esse último, eu menciono o Update Florida.

    Até meados de 2004, havia alguma regularidade nas atualizações do índice da Google. Durante aproximadamente um mês, os bots da Google vasculhavam a web coletando páginas e analisando links. Então, durante alguns dias, alguns servidores eram alimentados com os dados coletados, e tinha início o enorme trabalho de cálculo do PageRank. Feitos os cálculos, os novos dados (páginas, índice invertido, PageRank, etc) eram enviados aos servidores de SERPs (o processo tomava alguns dias), e o mundo podia ver o que a Google considerava ser as melhores páginas para cada palavra.

    Esse período em que os dados do índice eram atualizados eram chamados Google Dance; o nome deriva do fato de que as páginas se comportavam como se estivessem dançando (algumas subindo, algumas descendo). O pessoal da Webmasterworld resolveu batizar cada dança com um nome de mulher, e a cada vez com uma letra sucessiva, à semelhança com o que os Americanos fazem com furacões; assim é que houve, entre outras, as update Dominique, Emerald and Florida (são as de que me lembro; infelizmente, o arquivo da WMW não está indexado para buscas).

    A update Florida foi marcante. Até então (novembro de 2003), o algoritmo da Google era fortemente baseado em dois fatores: PageRank e texto-âncora. Muitas pessoas passavam um mês acumulando links em páginas de alto PR e, no mês seguinte, comemoravam abertamente o resultado nos forums.

    Depois da Florida, o mundo nunca mais foi o mesmo para os SEOs.

    Alguns links:

    Florida update: http://www.webmasterworld.com/forum3/18347.htm

    Florida update para membros da WMW (mais informação, menos ruído): http://www.webmasterworld.com/forum78/2874.htm

    Comentários de algumas pessoas que passaram imunes pelo Florida: http://www.webmasterworld.com/forum78/3138.htm

    Qual o mais terrível update na histórida das Search Engines? http://www.webmasterworld.com/forum5/3355.htm (parece que, em 1999, a Altavista, que era a Google de então, promoveu uma mudança profunda, para incluir os chamados “links patrocinados”).

    Vale a pena ler tudo isso? Sem dúvida; se não por outro motivo, para ver como a vida de um SEO pode ser mudada do dia para a noite. Eu já reli essas threads e as outras, referentes aos updates anteriores (Dominique, Emerald, etc) algumas vezes; é interessante ver como a Google, ainda que não pareça, está sempre um passo adiante dos webmasters.

    Patente da Google: uso de dados históricos

    Friday, May 25th, 2007

    Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

    O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

    E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

    No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

    Com seu exército de Phds, a Google certamente percebeu duas coisas.

    Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

    Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

    Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

    Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

    Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

    Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

    Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

    Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

    Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.

    Google combate Made For Adsense (MFA) sites

    Monday, May 21st, 2007

    Vários webmasters que trabalham com sites Made For Adsense receberam uma mensagem da Google, comunicando que as respectivas contas seriam desabilitadas em 1 de junho; ver, por exemplo, esse thread do webmasterworld.

    (Estou catalogando esse post como black hat porque pretendo escrever mais sobre o assunto no futuro; entretanto, a técnica por trás dos sites MFA se encaixaria melhor em gray hat, provavelmente).

    O que são sites Made For Adsense? São aqueles sites em que os webmasters têm o único propósito de gerar cliques (e dinheiro) por meio do programa Adsense. A página contém pouco ou nenhum conteúdo; as posições proeminentes (topo da página e barras de navegação) são ocupadas por anúncios Adsense. No restante da página, comumente se encontra um amontoado de palavras-chave, ou uma coleção de links sobre a palavra-chave obtida de uma Search Engine; esse amontoado e essa coleção são importantes para orientar o bot do Adsense a mostrar os anúncios conexos com a palavra-chave.

    A idéia é gerar milhares dessas páginas (geralmente, utilizando um software específico), colocá-las online e atrair milhares de visitantes (mesmo que cada página consiga uma ou duas visitas por dia, o acumulado é considerável). Como os visitantes não têm nada de útil para ler, eles clicam nos anúncios, gerando renda para o webmaster.

    E como atrair as visitas? Há os que utilizam técnicas de black hat; esses sempre foram monitorados pela Google, e são geralmente banidos assim que descobertos. E há os que utilizam (e terão que parar em 1 de junho) a arbitragem Adsense x Adwords.

    Como funciona isso? A idéia é descobrir um nicho em que os cliques sejam baratos, colocar anúncios (via Adwords) nesses sites, obter cliques e enviar os usuários para páginas que contenham anúncios Adsense em um outro nicho de valor mais elevado.

    Um exemplo (puramente hipotético): alguém descobre que Adwords em páginas sobre pneus custam US$ 0.05; ele coloca anúncios em todos os sites sobre pneus com o título “pneus de ferrari”; os visitantes são então levados a páginas com pouco mais que um palavreado sobre Ferrari, e anúncios de revendedores da Ferrari, que pagam US$ 5 por clique. A cada clique, o webmaster ganha US$ 5, ou seja, cem vezes mais do que ele pagou pelo visitante.

    É claro que diversos outros fatores afetam a lucratividade da operação. Por exemplo, a taxa de conversao - conversion rate -, ou seja, o número de pessoas que vêm do site sobre pneus e clicam no site sobre Ferrari; ou, ainda, o smart pricing, que tanto pode aumentar o custo dos cliques nos sites sobre pneus como diminuir o valor dos cliques nos sites para as Ferraris. Mas há todo um grupo de webmasters que se especializou nessa técnica, e por meio da monitoração de milhares de palavras-chave em diversos nichos, milhares de páginas-alvo (as landing pages), exaustivos testes de posicionamento, etc, atingiram lucros fabulosos (na thread do webmasterworld acima, há alguns webmasters que dizem ganhar mais de US$ 10 mil dólares, e há um que afirma ter ganho US$ 70 mil nesse mês).

    A Google, evidentemente, sempre soube que isso ocorria, e, apesar das reclamações de diversas pessoas (tanto publishers como anunciantes), jamais atuou para impedir esses webmasters; afinal - esse é um consenso que se formou nos boards - a Google ganha sua comissão em qualquer caso.

    Agora, parece que a Google se convenceu de que isso é negativo quer para sua imagem quer para sua lucratividade, e gentilmente deu um aviso-prévio para que os webmasters alterem suas práticas.

    A se analisar o impacto que isso terá para publishers e anunciantes.

    Afiliados e SERPs

    Thursday, May 17th, 2007

    Lembrei-me do caso Buscapé quando vi esse post.  Nele, o autor fala das maneiras como os links dos afiliados para o site destino (no caso, o Buscapé; o site original fala em merchants, que é a entidade que vende os produtos; o Buscapé é algo como um intermediário entre os afiliados e os merchants) podem ser configurados.

    A maneira mais simples, que é a adotada pelo Buscapé, é colocar um link direto, sem redirecionamento, como:

    http://busca.busc*pe.com.br/cprocura?lkout=1&site_origem=123&produto=DVD

    Nesse caso, o Buscapé cria uma página para cada afiliado; cada afiliado envia tráfego para sua página alvo, que será diferente das demais apenas no que tange ao parâmetro site_origem. Todas essas páginas terão idêntico conteúdo, apesar de terem URLs ligeiramente diferentes. A Google vai filtrar as páginas repetidas, e exibir a que julgar mais relevante; e qual será essa? será provavelmente aquela que recebeu um link do afiliado mais relevante.

    Nesse tipo de página, não ocorre redirecionamento. A página entregue pelo servidor http é exatamente a página requerida pelo navegador. Para indicar essa situação, o servidor http envia junto com a página um header de código 200; essa página tem uma ferramenta que faz um header check.

    Outras maneiras de se implementar o  link de afiliados fazem uso de redirecionamentos, implementados no servidor http. Por essa técnica, o que acontece é o seguinte: 1) o afiliado envia o visitante para uma URL do merchant, contendo o código do afiliado; 2) o servidor do merchant coloca um cookie na máquina do visitante, e partir daí qualquer transação do visitante é (ou deveria ser) associada ao afiliado;  3) o servidor redireciona o visitante para uma outra página do site, com o conteúdo que o visitante deseja. Nessa situação, os bots também seguem os redirecionamentos, e portanto apenas enxergam a página final (após o redirecionamento); por isso, não há como haver indexação de páginas duplicadas.

    Há dois tipos de redirecionamentos: 1) redirecionamento temporário: informa aos user agents (que incluem os navegadores e os bots) que a página destino é temporária, e que o conteúdo da página destino em algum momento retornará para a página sendo redirecionada; o bot provavelmente vai indexar a página sendo redirecionada; o servidor http envia o código 302 para sinalizar essa situação; 2) redirecionamento permanente: informa  aos user agents que o redirecionamento é permanente; o conteúdo da página final é o que deve ser levado em conta; os bots, nesse caso, vão indexar a página final.

    Abre parênteses. Durante algum tempo, os black hats utilizaram essas propriedades do redirecionamento temporário (header 302) para roubar rankings de outras páginas; escreverei sobre isso em outro post (atualização: leia mais sobre essa técnica black hat). Fecha parênteses.

    O autor do post sugere aos merchants que adote o redirecionamento permanente (301). Com isso, não apenas se evitaria a indexação de páginas de conteúdo repetido, como se teria a vantagem de que a única página indexada seria a do merchant (sem códigos de afiliados) e mais, todos os afiliados estariam contribuindo para o ranking daquela página específica. Para o visitante, a única diferença é que ele não veria aquela URL enorme na barra de navegação.

    As desvantagens seriam apenas dos afiliados (e o autor do post chama a atenção para esse ponto): além de depender do cookie do merchant (se a máquina do visitante não aceitasse cookies, o afiliado perderia a venda; o redirecionamento ocorre de qualquer maneira, gerando negócios para o merchant), o afiliado estaria sendo usado para alavancar o ranking do merchant.

    O Buscapé tomou a pior decisão de todas: não utilizou redirecionamentos (os quais teriam evitado a confusão desde o início), e após ver a indexação de páginas de afiliados, em vez de premiá-los, resolveu puni-los.

    Quanto vale um domínio?

    Wednesday, May 16th, 2007

    O registro de um domínio .com custa hoje ao redor de uns US$ 12 por ano; costumava ser US$ 35 há uns dez anos. Mas a quanto pode chegar o valor de venda de um domínio?

    Como em outras transações do mundo real, também na internet o valor de venda de um bem depende da lucratividade futura proporcionada pelo bem. Um domínio proporcionará tanto mais lucros: 1) quanto maior for a quantidade de tráfego; 2) quanto mais propenso a gerar lucro for o tráfego (leia esse post sobre qualidade de tráfego).

    Essas provavelmente são as explicações por trás de dois grandes negócios recentes envolvendo domínios: o poker.com foi vendido por mais de um milhão de dólares, e o porn.com foi vendido por nove milhões de dólares.

    Os compradores certamente sabem que: 1) muito usuários simplesmente digitam poker.com e porn.com na barra de endereços do navegador;  2) esses usuários são altamente qualificados, e são altamente propensos a comprar.

    Esse tipo de usuários é chamado de type-in visitors (usuários que digitam o domínio diretamente no navegador). Esse tipo de usuário é ainda mais qualificado do que os enviados pelas Search Engines. Isso explica porque certos domínios atingem alto valor de venda.

    O que é TrustRank ?

    Wednesday, May 16th, 2007

    O que fez a Google o que ela é hoje foi o Pagerank.

    O PageRank de uma página era um número calculado pelo algoritmo da Google, proporcional ao PageRank das páginas que continham um link apontando para aquela página. Sim, o processo é recursivo; para saber o PR de uma dada página, eu tenho que saber o PR das outras páginas que linkam para ela; e para saber os PR das páginas que linkam para ela, eu tenho que saber os PRs das outras páginas que linkam para as páginas que linkam para ela, etc., etc..

    Alguns sites (nenhum em Português, que eu saiba), tentaram explicar os fundamentos matemáticos do PageRank. Cada página tinha então um PR, que era usado como fator de pontuação e rankeamento: após calcular o score parcial de uma página em função dos demais critérios de rankeamento (número de vezes que a palavra aparece no texto, uso de palavras similares, palavras em negrito, etc), tal score parcial era “ajustado” pelo PageRank da página.

    Para quem entende de banco de dados: o PR era apenas uma variável extra num banco de dados relacional; a pontuação era calculada como se o PR não existisse (pelos mesmos critérios que se empregavam antigamente: densidade de palavras, palavras no título, palavras em negrito, etc), e daí essa pontuação era multiplicada pelo valor da variável PR.

    Dado isso, era relativamente fácil melhorar o posicionamento de uma página: bastava aumentar o PageRank. E como aumentar o PageRank? Bastava conseguir links em outras páginas com alto PageRank (na verdade, qualquer página, desde que tivesse algum PageRank, servia). Para garantir resultados ainda melhores, devia-se pedir à página com link que adotasse como texto-âncora a palavra desejada. O processo era todo automatizado, dependendo inteiramente de algoritmos, e algoritmos não são capazes de julgar as intenções dos webmasters.

    Desde o update Flórida, no final de 2003, isso mudou. Hoje em dia, o TrustRank é muito mais importante do que o PageRank.

    Trust é a palavra em inglês para ‘confiança’. A Google quer ter confiança num link, antes de lhe conceder o poder de alavancar uma página. Veja o paper original sobre TrustRank. Traduzo um trecho do resumo: “Páginas de spam utilizam várias técnicas para obter rankings melhores do que os merecidos nas Search Engines. Embora humanos possam identificar spam, o processo de avaliação manual de um grande número de páginas fica muito caro. Em vez disso, nós propomos técnicas para, de forma semi-automática, separar as páginas boas e reputáveis daquelas de spam. Uma vez que páginas-semente reputáveis sejam manualmente identificadas, nós utilizamos a estrutura de links da web para identificar outras páginas que provavelmente são também reputáveis. Nesse paper nós discutimos algumas maneiras possíveis para implementar a identificação de páginas-semente e a descoberta de novas páginas confiáveis”.

    Ou seja, o processo deixou de ser automático. Com TrustRank, um ser humano deve identificar quais são as páginas de confiança (que são chamadas de seed pages, ou páginas-semente); a essas páginas é atribuído um valor de TrustRank. A partir daí, TrustRank transmite-se por links, tal qual PageRank; entretanto, enquanto PR era transferido pela simples existência de um link, o TR fala em ‘páginas que provavelmente são reputáveis’, ou seja, pode ser que não haja transferência de TR.

    Quais são as páginas-semente? O paper não os discrimina, mas informa que naquele experimento foram utilizados 7.900 sites (e não páginas). Isso parece (pelo menos para mim) um indicativo de que o TrustRank é atribuído a sites, e não páginas. Isso faz uma enorme diferença: uma vez o site tendo sido identificado como de alto TR, todas as suas páginas assim também o serão; não importa mais o PageRank da página, importa sim o TrustRank do site.

    E quais são esses sites escolhidos como semente, para começar a distribuir TrustRank? Quais sites mereceriam a confiança da Google?

    Aqui começam as hipóteses e discussões. Um site de Trust provavelmente preza pela relevância das informações que apresenta, bem assim como dos links (que devem ser vistos como informações complementares) que contém. Um site do governo americano, por exemplo, é, a princípio, de alta confiança. Em certa medida, também as Universidades americanas, que sabem perfeitamente que sua imagem será avaliada pela qualidade das páginas do seu site. Por isso, formou-se um consenso de que páginas .gov e .edu são de alto TR (e seus links são mais valiosos).

    Quais mais? Em geral, os sites em que é visível a necessidade de publicar conteúdo relevante. Sites de notícias (cnn, bbc), grandes empresas (ford, ibm, apple), grandes instituições (nasa, cruz vermelha, nature), etc. Uma coisa em comum entre sites de alto TR é que é difícil incluir um link nesses sites apenas pela vontade de terceiros; esses sites tomam a iniciativa de encontrar documentos de valor e linkar para eles.

    E quais sites não merecem confiança? Acho que há dois tipos.

    Primeiro, aqueles em que é possível criar um link, qualquer que seja a qualidade da página que recebe o link. Isso inclui, por exemplo, sites que permitem links anônimos, sites que promovem troca indiscriminada de links, sites que listem outros sites em troca de dinheiro.

    Segundo, não merecem confiança os sites que se envolvem com sites do primeiro grupo. Por exemplo, um site que tem cem links, noventa dos quais provenientes de sites de pouco Trust, provavelmente terá também baixo Trust.

    Resumo da questão: procure obter links de sites de alto Trust. É melhor obter UM link de harvard.edu, ainda que o PageRank seja PR1, do que obter dez links de diretórios a US$10 cada, ainda que todos tenham PR4.

    E como obter esses links de alto trust? Produza uma página que contenha tanta informação que seja tão relevante, que o webmaster do site de alto trust queira linkar para você.

    A primeira visita da Google

    Saturday, May 12th, 2007

    Um dos trabalhos mais importantes de um SEO é analisar logs.

    Os logs dizem não apenas quantas pessoas visitam o site, mas de onde elas vêm, o que procuravam, quantas vezes retornaram, quanto tempo ficaram, por onde entraram no site, por onde saíram, qual o SO, qual a resolução, etc.

    Ontem, esse site recebeu a primeira visita de um usuário da Google, após sua ressureição. O site era google.com.br, e a expressão buscada era [world wide web worm 94]. A página desse site http://www.sites-de-busca.com/google/anatomia-google-1.html somente aparece (posição #1) se a pesquisa for restrita a “páginas em Português”.

    O site somente foi listado pelo Interney e em algumas páginas da pt.wikipedia. Mesmo com essa pouca divulgação, o site foi visitado 145 vezes pelos bots da Google, 6 vezes pelo bot da Yahoo (que provavelmente apenas leu robots.txt) e nenhuma vez pelos outros bots.

    Não pretendo utilizar nenhuma técnica de divulgação (além, é claro, de escrever conteúdo relevante). Será uma experiência interessante acompanhar o progresso do site.

    Qual o efeito de rel=nofollow ?

    Friday, May 11th, 2007

    Conformi escrevi nesse artigo, em janeiro de 2005 as três principais Search Engines do mercado, Google, Yahoo e msn se juntaram e criaram o atributo nofollow, que teria o propósito de informar a elas que o link NÃO deveria ser interpretado como um voto, e portanto não deveria trazer nenhum benefício à página para a qual o link apontasse.

    Passados mais de dois anos, será que alguma coisa mudou? Pelo menos no caso da Google, eu acho que sim.

    O nofollow foi criado quando o conceito de TrustRank estava incipiente (leia mais sobre TrustRank). O TrustRank mede a confiança que a Google tem em determinada página; se o TR (que, diferentemente do PageRank, a Google não informa) for alto, a Google tem tanto a página em si como os links nela contidos em alto conceito; se o TR for baixo, a Google não valoriza a página nem confia nos links nela contidos.

    Para mim, isso é quase equivalente a dizer que o nofollow é desnecessário.

    Nesse thread do blog do Matt Cutts, de 23 de janeiro de 2007, o Matt comenta sobre o fato de que a Wikipedia (site de altíssimo TrustRank), uma vez mais, resolveu adicionar nofollow a todos os seus links. Após o blá-blá-blá habitual, Matt escreveu: “I don’t expect this change to affect Google’s rankings very much, but it’s good to see the Wikipedia folks paying close attention to link spam”, ou seja “Eu não espero que essa mudança afete muito os rankings da Google, mas é bom ver que o pessoal da Wikipedia está prestando atenção ao link spam”.

    Isso faz muito sentido. A Google confia na Wiki (aliás, não apenas confia, como idolatra); prova disso é que a Wiki está na primeira página para várias [buscas]; essa confiança provém do excelente conteúdo da Wiki, dos milhões dos links legítimos que endossam a Wiki, e de sua política de auto-vigilância que suprime links de spam. A adição ou não de nofollow pouco deveria afetar a confiança da Google nos links da Wiki.

    Melhor que discutir hipóteses é tentar comprovar a tese.

    Peguemos um tema da Wiki em inglês sobre o qual tenhamos algum domínio, e que seja de média competitividade. Uma sugestão é escrever sobre tópicos referentes ao Brasil; isso faz com que nosso conhecimento sobressaia em relação ao contribuinte médio da Wiki, e por isso nossas contribuições (links externos) sejam mais facilmente aceitáveis.

    Por exemplo, tomemos um tópico como Clarice Lispector (750.000 páginas). Minha sugestão: escrevam uma página em inglês sobre a escritora com conteúdo de alta qualidade, que esteja dentro dos padrões da Wiki para constar como external link; façam com que esse link da Wiki seja o único link apontando para a página (ou seja, as melhorias de posição da página seriam devidas àquele link da Wiki, com nofollow). Observem a posição da página por alguns meses.

    Eu tenho feito algo similar com algumas páginas (NB: sem infringir nenhuma regra da Wiki). Minhas experiências mostram que links da Wiki ainda carregam muito valor.

    Um efeito do nofollow é assegurado: colocar ou removar nofollow manualmente mostra à Google, Y e msn que você sabe o que o nofollow faz; isso mostra que você tem alguma idéia do que seja SEO. Eu acho isso uma péssima idéia.