Archive for the ‘fatores de ranking’ Category

O valor de um link no Yahoo

Saturday, June 7th, 2008

Quer subir na Google? Você precisa conseguir links (eles são necessários, tanto mais quanto mais competitiva for a palavra-chave de seu interesse), mas não qualquer link. A Google precisa acreditar que o link foi criado porque o autor do link acreditava na relevância da página que foi linkada (o autor do link tem que ter TrustRank). E hoje, reconhecer quais sites/páginas/links carregam TR é um dos trabalhos mais importantes de um SEO.

A Google, obviamente, não vai informar qual o TR de determinada página (já que o objetivo dela é justamente confundir os SEOs). Matt Cutts tem sido, compreensivelmente (já que ele é o líder do esquadrão anti-SEOs da Google), sempre evasivo quanto a dizer as causas de subidas e descidas de qualquer site/página nos rankings. E é mais evasivo ainda quando se trata de diretórios.

Nesse thread do webmaster, discutia-se o fato de que algumas páginas do Diretório Yahoo apresentavam PR cinza. Matt Cutts interveio para afirmar:

Looks like there’s a PR8 on dir.yahoo.com on all data centers, so I wouldn’t jump to conclusions. It’s possible that Yahoo changed their linking somehow, or that there was an issue on our side with how we canonicalized a url, but I do know that the Yahoo Directory has PageRank in our internal system, so I’ll ask folks here about it. Thanks for mentioning this.

E, mais adiante, nova mensagem:

It looks like it’s just a matter of canonicalizing upper vs. lowercase as to why some of the subdirectories look the way they do in the toolbar. I just wanted to reiterate that the Yahoo Directory has plenty of PageRank in our internal systems.

Não vejo como ele poderia ser mais claro: o PR que é visível nas páginas do Yahoo é irrelevante; o Yahoo tem um peso significante (alto TR) no algoritmo da Google.

E, se é assim com o Yahoo, é provável que seja assim com outros sites/domínios/páginas.

Estudo de caso: Natal

Tuesday, November 20th, 2007

Um dos fatores de ranking que ainda é negligenciado por muitos SEOs é a maneira como os usuários interagem com um site ou página.

Se a Search Engine consegue detectar que uma página agrada aos visitantes, por que não dar uma pontuação extra à página? Aliás, a questão não é se a Search Engine daria essa pontuação; isso é certo (a Search Engine que não valorizar a preferência de seus usuários está fadada ao fracasso). A questão é se, e em que medida, a Search Engine consegue detectar e medir o quanto os usuários gostam de determinada página (esse último estudo de caso foi, para mim, uma evidência de que a Google detecta e premia as boas páginas).

O Natal é uma excelente época para se tentar avaliar a validade dessa hipótese. A palavra Natal tem em português diversos significados: período de festas, capital do RN, nascimento de crianças, etc. No período natalino, os usuários responderão diferentemente a buscas por [natal]; sites que falam sobre festas de Natal, que durante o restante do ano são pouco procurados, vão agora ganhar mais tráfego, os visitantes ficarão mais tempo, clicarão em mais links, etc.

Esse experimento vai acompanhar o que acontecerá na Google.com.br e no cade.com.br para buscas por [natal].

Em 20 de novembro, as primeiras 10 páginas em google.com.br são:
www.natal.com.br/
www.natal.rn.gov.br/
www.natal-brazil.com/portugues/
Resultados de notícias sobre natal (news.google.com.br)
pt.wikipedia.org/wiki/Natal
www.nataltrip.com/
natguia.com.br/
www.feriasemnatal.com.br/
www.arteducacao.pro.br/homenagem/Natal/natal.htm
www.diariodenatal.com.br/
Resultado das imagens para natal

Duas páginas que não estão na primeira página mas que eu acho interessantes acompanhar são
www.acidigital.com/fiestas/navidad/ (#13) e www.laurapoesias.com/natal/mensagens_de_natal.htm (#18)

No cade.com.br, as 10 primeiras páginas para [natal] são:
www.natal.rn.gov.br
pt.wikipedia.org/wiki/Natal
www.natal.com.br
www.natal-rn.tur.br
pt.wikipedia.org/wiki/Natal_(Rio_Grande_do_Norte)
www.natal.rn.gov.br/sectur
www.natalguia.com.br
www.natal-brazil.com/portugues
www.natal-brazil.com
www.chamada.com.br/mensagens/list/2

A página www.acidigital.com/fiestas/navidad/index.html está em #19; www.arteducacao.pro.br/homenagem/Natal/natal.htm está em #23; www.presentedenatal.com.br/historia_natal.htm está em #30.

Vou tentar acompanhar o que acontecerá a esses rankings entre hoje e até o Natal, e nas semanas após o Natal. Se minha suposições estiverem corretas, as páginas referentes à festa de Natal ganharão rankings nas próximas semanas.

Atualização, 8 de dezembro de 2007.

Uma pesquisa para [natal] na google.com.br traz os sites na seguinte ordem:
www.natal.com.br/natal-8-dez-2007.jpg
pt.wikipedia.org/wiki/Natal
www.natal.rn.gov.br/
www.natal-brazil.com/portugues/
www.arteducacao.pro.br/homenagem/Natal/natal.htm
www.nataltrip.com/
www.acidigital.com/fiestas/navidad/index.html
natguia.com.br/
www.feriasemnatal.com.br/
Resultados de notícias sobre natal
A página www.laurapoesias.com/natal/mensagens_de_natal.htm subiu para #11, e a página www.chamada.com.br/mensagens/list/2 subiu para #17

É evidente que cujas temas são Natal, a festa natalina, subiram muitas posições no ranking (mesmo a página da wiki sobre Natal trata da festa, e não da cidade).

Vejamos as mudanças no cadê. Hoje, 8 de dezembro, as primeiras posições para Natal são:
www.natal.rn.gov.brnatal-cade-8-dez-2007.jpg
pt.wikipedia.org/wiki/Natal
www.natal.rn.gov.br/sectur
www.natal.com.br
www.natal-rn.tur.br
www.natalguia.com.br
pt.wikipedia.org/wiki/Natal_(Rio_Grande_do_Norte)
pt.wikiquote.org/wiki/Natal
www.natal-brazil.com/portugues
natal.cbtu.gov.br

Outras páginas de interesse: www.chamada.com.br/mensagens/list/2 subiu para #14, www.arteducacao.pro.br/homenagem/Natal/natal.htm está em #28, www.acidigital.com/fiestas/navidad/index.html está em #32. Importante: parece que o Yahoo fez um update em 1 de dezembro.

Que conclusões se tiram: uma conclusão secundária é que o Yahoo ainda faz updates drásticos, que alteram radicalmente a ordem dos rankings; na Google, as atualizações são incrementais, sem mudanças abruptas. Outra conclusão sobre o Yahoo é que ele não leva (não muito, ao menos) em conta o comportamento dos usuários para criar rankings.

Mas a conclusão mais importante é que, sem dúvida, a Google dá mais importância às páginas que mais atendem às demandas dos usuários. As páginas sobre a festa Natal estão subindo porque, nessa época, são essas páginas que os usuários procuram mais; são nessas páginas que os usuários passam mais tempo, são os links dessas páginas que eles seguem, são a essas páginas que elas retornam mais, são essas páginas que elas repassam para amigos.

Vou ver se consigo tirar outro “retrato” às vésperas do Natal. Atualização: ver continuação desse post: Estudo de caso: Natal - parte 2.

Estudo de caso: subir na Google para a pesquisa sobre Receita Federal

Friday, November 16th, 2007

Deparei-me com outro caso interessante. O brpoint comentou que visitara um site que conseguira um aumento expressivo nos rankings, mas não conseguira aumento proporcional nos rendimentos.O site em questão é http://holococos.sjdr.com.br/.

O gráfico abaixo, que foi disponibilizado pelo webmaster do site, mostra o número de visitantes no período de 1 de julho a 12 de novembro de 2007.

aumento-trafego.png

Como se vê, em poucos dias o tráfego total do site subiu de algumas centenas de visitantes/dia para a marca de 3.000/dia, e daí aumentou gradualmente para a marca dos 6.000 visitantes/dia. A tabela abaixo mostra as páginas mais visitadas do site:

paginas-visitadas.png

Ainda segundo o autor do site, as expressões [receita federal] e [regularização de CPF] responderam por 42% do aumento no tráfego, e as expressões [como instalar o msn] e [site do msn] responderam por 33% do tráfego; ou seja, num site com quase 3.000 páginas indexadas, 4 páginas responderam por 75% do tráfego.

Que lições se pode tirar disso?

Primeiro: tráfego por si só não gera dinheiro. Como o próprio autor daquele post concluiu, pessoas procurando por [receita federal] não querem comprar nada, e portanto não geram dinheiro para eventuais patrocinadores. O mesmo se dá com pesquisas para [msn], [fotos do acidente da tam], e outros termos populares: eles trazem tráfego, mas não trazem rendimento. O brpoint é de opinião que o adsense teria dado mais dinheiro; eu sou de opinião diferente: se você mandar tráfego inútil para o Adsense, o algoritmo vai logo perceber a baixa qualidade do tráfego e diminuir o pagamento de todos os seus cliques (o que é conhecido como smartpricing); ninguém, seja adsense ou outro patrocinador, quer pagar por tráfego que não converte.

Segundo, e mais importante: por que aquelas páginas chegaram ao topo da Google?

Não, eu não quero chegar ao topo da Google para [receita federal]; mas se eu souber por que a Google gostou daquelas páginas, eu posso tentar aplicar as mesmas técnicas para outros termos e tentar rankear outras páginas, mais lucrativas.

Hoje, para a pesquisa [receita federal], essa página está em #6 na Google, num total de quase 2 milhões; os outros resultados da primeira página são na maioria de sites com autoridade (quatro da própria Receita, duas da fazenda, wikipedia, google notícias e essa outra página, que talvez mereça também um estudo). Para [regularização de cpf], essa página está em #3, entre outros 370.000 e um monte de spam. Para [criar conta no msn], esta página está em #1, em meio a um mar de spam.

O que essas páginas têm em comum, que fizeram a Google gostar tanto delas?

  • Em segundo lugar, os elementos on-page do post foram otimizados: os links que apontam para os posts contêm as palavras-chave, os títulos contêm as palavras-chave, os cabeçalhos dos textos contêm as palavras-chave, e os textos dos posts giram ao redor do tópico, ou seja, contêm diversas palavras correlatas ao tópico (até mesmo as respostas dos usuários contribuíram para isso).
  • Em terceiro lugar: os links externos apontam para sites de utilidade aos visitantes. O post sobre a regularização de cpf aponta para as páginas pertinentes da própria Receita, que é onde o visitante vai resolver seu problema; o post sobre criação de conta do msn dá um detalhado roteiro e aponta para as páginas da própria msn onde, de novo, o usuário conseguirá o que procura.

Isso significa que os links publicados no post foram úteis para o usuário; a Google reconheceu isso e premiou os posts. E como a Google pode ter reconhecido isso? Por exemplo (isso é mera suposição), a Google pode ter percebido que muitos visitantes saíam do post em http://holococos.sjdr.com.br/, iam para o site da Receita (ou do msn), ficavam um bom tempo no site da Receita, consultavam diversas páginas do site da Receita, e não voltavam para google.com.br para refazer a pesquisa inicial.

  • Por fim: tempo. O primeiro pico de tráfego se deu por volta do dia 2 de agosto; o único dos quatro posts sobre Receita e msn que estamos analisando que foi publicado antes de 2 de agosto foi o post sobre a Receita, publicado em 13 de julho. Isso significa que a Google demorou aproximadamente três semanas entre tomar conhecimento da página e atribuir-lhe ranking; esse é provavelmente o tempo necessário para que essa página ganhasse trust (outras páginas em sites mais antigos e com menos links talvez precisassem de mais tempo para ganhar trust). Desde que a Google passou a armazenar informações históricas sobre páginas, links, sites, etc, a idade de todos esses elementos passou a ser importante fator de trust e, consequentemente, de ranking.

Conclusão. Esse caso confirmou muito do que eu havia escrevido nesse outro post: para subir na Google, três elementos são fundamentais: prover informações relevantes, conseguir bons links e esperar (sem empregar truques) o tempo passar.

Google ajusta PR de alguns sites

Wednesday, October 24th, 2007

O site maujor.com é a maior autoridade em português sobre CSS e padrões web. Por anos, o autor dedicou-se a traduzir artigos da http://www.w3.org/ para o Português; a W3, um dos poucos PR10, colocava links para os artigos traduzidos. Graças a esses links da W3, e a milhares de outros que o maujor conquistou merecidamente, graças à alta qualidade da informação que produz (esse é um excelente exemplo de como se conquistam posições no topo da Google), o maujor.com chegou a PR7.

O maujor começou a vender links de publicidade; diferentemente do que dizem os boatos, isso não é problema para a Google (na verdade, a Google quer que os sites vendam publidade - de preferência através do Adsense). O que é um grande problema, sim, é vender publicidade utilizando-se o PR como chamariz.

Isso está ou estava escrito no site do maujor (links removidos): “O site está muitíssimo bem rankeado no Google. A Home Page tem PR7 e a maioria das páginas internas têm PR6.
Isto significa alta visibilidade em resultados de busca. Para saber mais sobre page rank visite esta página.
Para verificar online a PR de uma página visite PR checker info”

E o maujor publicou links para sites sobre pousadas, computadores, hospedagem de sites, imobiliárias, cadastros de sites, etc.

Desde hoje ou há alguns poucos dias, o maujor foi rebaixado para PR4.

Primeira lição: se for vender publicidade, jamais utilize as palavras PageRank, PR, Google, posicionamento, etc. Aliás, um passo ainda mais básico: jamais colocar links para tex**-ads-**lin*s.com ou rev**me.com (eu estou sendo tão cauteloso que, além de não colocar links, sequer escreverei o nome dos sites); se um site contém tais links, de que mais a Google precisa para saber que o site vende/compra links?

Segunda lição: acompanhar os efeitos do rebaixamento. Primeiro, acompanhar o tráfego da maujor, para ver se ele perde tráfego ou se a mudança foi apenas cosmética (para impedir a maujor de vender e desestimular possíveis compradores). Segundo, acompanhar alguns dos anunciantes do maujor, para ver se eles perdem seus bons rankings.

Update 1: não foi só o maujor. Diversos sites que abertamente vendem links tiveram o PR rebaixado; ver esse post do webmasterworld.

Update 2: Poucos dias após o ‘ajuste’ acima, a Google exportou uma nova lista de PR. Como de hábito, a ‘atualização’ causou barulho nos blogs brasileiros; ver, por exemplo, esse post. Também como de hábito, ninguém reportou grandes aumentos ou grandes diminuições de tráfego.

Update 3: o maujor não perdeu nenhum dos seus rankings. Continua, merecidamente, em primeiro lugar para a competitiva palavra CSS (inclusive com os também merecidos sitelinks). A Google não puniu o maujor; a Google quer estimular webmaster a criarem mais sites como o maujor, ricos em informação; a Google apenas não quer que o maujor venda links usando PageRank como incentivo.

Um número maior de pessoas começa a desconfiar de que esse tal de PageRank não é tão importante assim. Em mais alguns meses, algumas pessoas devem começar a perceber que TrustRank e o histórico dos sites são mais importantes que PageRank.

Update 4, 16 de novembro: o tráfego do Maujor não sofreu nenhuma redução; a redução de PR7 para PR4 não teve nenhum efeito.

Senado e ‘vergonha nacional’

Wednesday, October 10th, 2007

Desde uns dois dias atrás, o Senado não está mais em #1 para a pesquisa [vergonha nacional]. Nesse momento, a página senado.gov.br/sf/ é a mais bem colocada, em #15.

senado1.gif

E por que isso estaria ocorrendo? Ou seja, por que o site do Senado estaria perdendo posições para a pesquisa por [vergonha nacional]?

Uma hipótese é que os links estariam perdendo força. Como a maioria dos links estava em blogs, à medida que os posts vão para a segunda página, os links perdem força.

Outra hipótese é que a Google esteja aprendendo que a página do Senado não tem relação com a pesquisa [vergonha nacional]. E como a Google aprende isso? Estudando o comportamento do usuário. É provável que poucos usuários que pesquisem por [vergonha nacional] cliquem o link para o Senado; e dos poucos que clicam, menos ainda de fato se interessam pelo site do Senado.

Vamos ver o que acontece com a página ao longo do tempo; talvez possamos tirar conclusões úteis.

Update 22 de outubro: a página senado.gov.br/sf está em #11 para [vergonha nacional]

Update 20 de novembro: leiam esse post.

Como chegar ao topo da Google

Thursday, September 20th, 2007

Em 2002, Brett Tabke, criador do site Webmasterworld, escreveu um post que, em Português, seria traduzido como Um Site de Sucesso em 12 Meses somente com a Google; o post virou um clássico entre os SEOs. Basicamente, o post dizia: escreva conteúdo relevante periodicamente, submeta às Search Engines mais importantes, pratique técnicas básicas, escreva conteúdo relevante periodicamente, mantenha uma boa estrutura interna, escreva mais conteúdo relevante, repita …

Desde então, o post tornou-se ainda mais válido. As brechas que existiam no algoritmo da Google foram se fechando. Hoje, todos sabem o que o algoritmo da Google quer. A GOOGLE QUER LISTAR OS SITES MAIS RELEVANTES PARA CADA PALAVRA DE BUSCA.

Por exemplo, façamos uma pesquisa para Volkswagem. Qual é o site mais relevante? O website da Volkswagem (apesar da péssima otimização do site). E por que isso? Primeiro, porque o site oferece hoje (setembro/2007) mais de 700 páginas de informações sobre a Volkswagen, com aval da própria empresa (quem melhor do que ela para falar sobre seus próprios produtos?); segundo, porque o site é a fonte preferencial para qualquer um que procure informações sobre a Volkswagen, e em conseqüência o site tem milhares de links apontando para ele; terceiro, o domínio vw.com.br foi registrado em 22/11/1999 (há quase oito anos), o que significa que a Google teve tempo suficiente para conhecer o domínio e o site, e pôde verificar que ele é confiável (a Volkswagen nunca empregou técnicas de spam para divulgar seu site).

Outros exemplos: o primeiro lugar para uma palavra altamente competitiva como viagra é o site da Pfizer; o primeiro lugar da listagem orgânica para New York é o site oficial da cidade de Nova York.

Então, baseados nesses exemplos, podemos tentar concluir: o que fazer para chegar ao topo da Google para uma dada palavra-chave?

1) Escreva o conteúdo mais relevante para a dada palavra-chave. Escreva o que ninguém mais escreveu. Se alguém já escreveu, escreva com mais detalhes e precisão. Escreva conteúdo que responda às dúvidas dos usuários sobre a palavra-chave. Escreva temas correlatos à palavra-chave (se o tópico do site é Ferrari, escreva também algo sobre a McLarem, que tenha correlação com a Ferrari). Utilize gráficos, esquemas e mapas. Faça perguntas e respostas. Coloque links para outras fontes relevantes sobre o tópico. Em suma: faça o melhor site sobre a palavra-chave.

Isso evidentemente significa que o autor ou autores devem conhecer profundamente o tópico referente à palavra-chave (mais do que os autores dos outros sites). Quer ver o site em primeiro para ‘cirurgia plástica’? Esteja preparado para apresentar muita informação interessante e relevante sobre ‘cirurgia plástica’ (o primeiro lugar hoje é a Sociedade Brasileira de Cirurgia Plástica). Ou você sabe muito sobre cirurgia plástica, ou vai estudar muito, ou vai pagar alguém para escrever sobre cirurgia plástica; o que não é possível é encontrar um segredo que faça um site fraco ou medíocre subir ao topo da Google para um tema competitivo como cirurgia plástica.

Outra conseqüência é: escreva sobre temas de que você goste, pelos quais você tenha interesse em escrever ou aprender (ou seja, sobre temas nos quais você consiga ser a fonte mais relevante). No longo prazo, os melhores sites serão escritos por pessoas ou entidades que se interessem e gostem de escrever sobre os respectivos tópicos (e não aqueles que queiram apenas ganhar dinheiro). Se você escrever sobre o de que gosta, então criar e aprimorar o site será um prazer, e não um fardo. E quem faz as coisas por prazer sempre fará mais bem feito.

2) Consiga links relevantes.

A Google tem aprimorado constatemente suas ferramentas de avaliação on-site e on-page, ou seja, ferramentas que avaliem a relevância de páginas e sites sem depender de fontes externas. Isso pode ser conseguido, por exemplo, pela combinação de estudos de semântica e lingüística (a Google é um dos maiores empregadores de profissionais dessas áreas no mundo) com o enorme banco de dados de pesquisas que a Google acumulou ao longo dos anos e ainda com o estudo da maneira como usuários interagem com um site ou página.

Por exemplo, a Google sabe que uma página sobre ‘Independência do Brasil’ será mais relevante se contiver também a expressão ‘Dom Pedro I’. Por quê? A Google estudou História? Não! Porque, ao longo dos anos, a Google constatou que diversas pesquisas incluíram simultaneamente os termos ‘Independência do Brasil’ e ‘Dom Pedro I’; ou, ainda, que diversas páginas contêm esses mesmos termos, muito freqüentemente com links.

A Google ‘aprende’, apenas observando a estrutura da web, que esses termos são correlatos. É mais ou menos como nós, seres humanos, também aprendemos. É por isso que o item 1 acima é importante: a Google tem uma certa capacidade de reconhecer, apenas por análise estrutural/semântico do site e do seu posicionamento da web, a qualidade e relevância do site.

Entretanto, essa análise on-page ou on-site não é suficiente. A Google precisa de avaliadores externos para avaliar a relevância de uma página. A Google precisa de links.

Se o site do Museu do Ipiranga linkar para uma página sobre Independência do Brasil, a Google sabe que essa página é relevante para pesquisas sobre ‘Independência do Brasil’. Por quê? Porque a Google sabe que o site do Museu é uma autoridade para o tema Independência do Brasil. E por que o site do Museu é autoridade? Porque diversos sites da internet, que versam sobre História e Independência, apontam para o site do Museu.

Outro exemplo. Quem escreve sobre, digamos, engenharia de petróleo, precisa de links de sites que sejam autoridades em engenharia de petróleo. Quais são esses sites? Petrobrás, ANP, Shell, etc. E por que essas empresas são autoridades em engenharia de petróleo? Porque é provável que milhares de sites cujos temas sejam correlatos a petróleo apontem para Petrobrás, ANP, etc.

Os links não são todos iguais (como eles eram há alguns anos). O que interessa hoje para a Google são links relevantes. Quer subir no ranking para ‘Rogério Cenni’? Consiga links do site do São Paulo, do site do próprio Rogério, de sites de fãs-clubes do Rogério, de sites sobre os grandes goleiros do mundo, do site da CBF, de sites genericamente importantes (Yahoo, dmoz, etc). Conseguir qualquer um desses links é mais proveitoso do que conseguir cem links na blogsfera com o texto ‘blog do Fulano’.

E isso leva a outro elemento importante: o texto do link. O texto não é tão importante quanto já foi, mas ainda é importante. Não é mais tão importante, porque hoje a Google utiliza análise semântica para saber o tópico do site e da página; não adianta muito conseguir um link com o texto ‘Rogério Cenni’ se a página em que o link se encontra tratar de agricultura. Entretanto, se a página tratar sobre futebol, é muito melhor que o texto do link seja ‘Rogério Ceni’.

Reconhecer links relevantes é provavelmente a parte mais importante do trabalho de SEO. Isso porque escrever texto relevante, como explicado acima, e ganhar confiança pelo tempo, como explicado abaixo, são coisas difíceis de simular; ou você conhece o tópico, ou não; ou você tem tempo na internet, ou não. Mas links são sujeitos a manipulação; pode-se obter bons links com dinheiro. Por isso a Google se esforça muito para não demonstrar quais são os links de valor.

Conhecer e obter links relevantes constitui, atualmente, o trabalho mais importante de um SEO. Esse post fala um pouco mais do tema.

3) Tempo + Honestidade = Confiança (Trust)

Ninguém consegue disfarçar o tempo de vida na internet. Um site registrado em 1998 demonstra que o autor tinha interesse pelo tópico do site há muito tempo.

A Google tornou-se um dos registradores oficiais de domínios há alguns anos, mas nunca registrou nenhum domínio. Por quê? Porque a intenção da Google era apenas ter acesso ao banco de dados que informa quando um domínio foi registrado ou alterado.

Junte a isso os registros que a Google tem sobre o histórico do site (ele já tentou enganar os bots, ou ele sempre foi honesto? A Google armazena diversos dados sobre o site para determinar isso) e tem-se aí um grande fator de avaliação do site. De fato, o TrustRank, ou medida de confiança que a Google tem no site, há muito tornou-se mais relevante do que o PageRank.

É por isso que sites que promovem alterações radicais na estrutura sofrem alguma penalização; por exemplo, sites que mudam todas as URLs de dinâmicas para estáticas simultaneamente, ou mesmo sites que alteram todo o conteúdo repentinamente (típico caso de pessoas que compram domínios expirados e trocam o conteúdo - ver riotransito.com.br, por exemplo - a Google demora, mas um dia descobre, e pune).

Junte ainda dados sobre a maneira como os usuários interagem com o site (quanto tempo os usuários ficam no site? quantas vezes eles retornam? quantos usuários adicionam o site aos Favoritos?), acumulados ao longo do tempo (um site com dez anos tem muitos usuários fiéis), e tem-se outro fator que diz muito quanto à relevância do site.

A Google confia mais nos sites que têm longo tempo de vida, e que ao longo desse tempo se dedicou a produzir conteúdo relevante (e não se aproveitar de vulnerabilidades do algoritmo).

Em resumo: como chegar ao topo da Google? Escreva conteúdo relevante, obtenha links relevantes, mantenha um site honesto e aguarde.

O poder dos links: um mês depois

Monday, July 2nd, 2007

Nesse post, de aproximadamente um mês atrás (31 de maio), pudemos ver o início de um experimento; uma página específica de um blog começou a receber links de outros blog, todos com o mesmo texto.

Vejamos o que aconteceu após um mês.
Até o final de maio, o Bruno tinha recebido 40 pares de links; em 6 de junho, ele anunciou ter recebido mais dez, e em 20 de junho outros 10, perfazendo assim um total de 60 pares de links (60 para a homepage do blog, 60 para a página da promoção).

Resultados nas SERPs:

  • o post continua, naturalmente, #1 para [ganhe um domínio grátis]; o interessante é que hoje o número de páginas é 87.900, bem abaixo do que era em maio (193.000).
  • o post passou de #17 para #13 para [domínio grátis]; o número de páginas passou de 2.180.000 para 3.360.000
  • o post passou de #56 para #35 para [promoção]; o número de páginas aumentou de 21.800.000 para 22.600.000
  • a homepage continua #1 e #2 para [brpoint], com as mesmas páginas de 31 de maio (interessante investigar porque a mesma página continua em #2, ou seja, ela é a segunda página mais relevante para [brpoint]). A homepage continua #2 para [problogging], mas a #1 mudou para blogmedia.biz (PR4). Para [tecnologia], a homepage sumiu das primeiras 1000 posições (o que era de se esperar, pois a palavra tecnologia foi removida do Título).
  • O título da homepage permanece o mesmo: ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Para [dicas de blog], o site passou de #680 (página interna) para #29 (homepage). Para [SEO], o site passou de #45/#46 para #10 (homepage) e #11 (fim do SEO).
  • Para [opinião], a homepage passou de #121 para #137
  • CONCLUSÕES: Essas são minhas conclusões.

  • Para [promoção], houve uma esperada melhora, de #56 para #35; no longo prazo, essa é a palavra que mais deve melhorar de ranking, pois é a que mais receberá texto-âncora específico.
  • O interessante é que a palavra [domínio grátis] também teve uma boa melhoria. Pode ser porque a página ainda está ganhando score por ter ‘domínio grátis’ no Título.
    Mas, pode ser também porque a google olha para o texto ao redor do link e também melhora seus rankings. Eu acho isso bastante plausível; isso faz sentido, porque em casos como “Clique aqui para saber mais sobre a Ferrari”, mesmo que a palavra clicável seja Clique aqui, o tópico que o autor quis ressaltar foi a Ferrari. Poderíamos testar isso acompanhando a evolução de outras palavras-chave na frase do Bruno (Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.), mas, além de ‘domínio grátis’, ela só contém palavras genéricas.
  • Em relação às palavras que compõem o Título da homepage, observam-se comportamentos diversos. Para [problogging] e [opinião], não houve progresso. Para [dicas de blog] e [SEO], houve excelente progresso. Como interpretar? Primeiro, as palavras [problogging] e [opinão] já estavam no Título, e portanto tiveram menos a ganhar durante o mês passado; as palavras [dicas de blog] e [SEO], ao contrário, tinham acabado de entrar no Título, e portanto não estavam se beneficiando de tal situação.
    Primeira conclusão: as palavras do Título são importantíssimas para um bom rankeamento (o que aliás é bem sabido pelos SEOs mais experientes). Mas acho que uma segunda conclusão é possível; por que [problogging] e [opinão] subiram pouco, apesar daqueles links, e [SEO] e [dicas de blog] subiram tão rapidamente? Acho que a resposta é que a Google sabe que o blog do Bruno foca-se muito em redor dos tópicos [SEO] e [dicas blog], e gira apenas tangencialmente ao redor de [problogging] e [opinião]; em outras palavras, o blog tem autoridade para escrever sobre [SEO], mas é apenas mais um a escrever sobre [opinião]. E como a Google sabe disso? Análise semântica, links, vizinhanças, …
  • No Cade.com.br:

  • o post continua #1 para [ganhe um domínio grátis] e passou de #9 para #7 para [domínio grátis]
  • para [promoção], a página brpoint.net/tag/promocao aparece agora em #21; não há nenhuma outra página do domínio entre os 1000 primeiros (!!)
  • para [problogging], a homepage continua #1. Para [SEO], as páginas brpoint.net/categoria/seo e brpoint.net/tag/seo passaram para #12 e #13, e a homepage desapareceu. Para [dicas de blog], a homepage passou de #159 para #12, e a página brpoint.net/categoria/dicas passou do nada para #22. Para [opinião], a homepage passou de #160 para #193.
  • CONCLUSÕES:

  • o Yahoo parece dar menos valor ao texto-âncora do que a Google. Ou o Yahoo ainda está dando peso para o ‘domínio grátis’ do Título, ou parece que o Yahoo pode estar dando mais peso a palavras ao redor do texto-âncora (a acompanhar). No caso presente, o Yahoo deu pouco valor a [promoção], mas parece ter dado valor a [domínio grátis]
  • o Yahoo deu bastante valor a Tags e Categorias. Não sei como essas páginas e sub-diretórios são formados, vou investigar melhor.
  • No msn.com.br:

  • para [ganhe um domínio grátis], o post saiu de lugar nenhum para #11
  • a search.msn.com torna as coisas muito difíceis para se alterar o idioma para o Português.
  • Conclusão: 1) os links tiveram certamente forte influência para alavancar o post; 2) o msn não se preocupa muito com usabilidade.

    Encontrando os links ideais

    Saturday, June 2nd, 2007

    É fato bem sabido que LINKS são elemento essencial no algoritmo de TODAS as Search Engines.

    Outro fato, esse não tão sabido, é que os links não são todos iguais, ou melhor, nenhum link, no que se refere a peso nos rankings das SEs, é igual a outro. Vários webmasters ainda dão grande valor a PageRank para avaliar o valor de sites e páginas (e, conseqüentemente, ainda que de forma inconsciente, links); outros, de forma ainda mais simplista, dão valor simplesmente ao número de backlinks.

    Desde há muito tempo, há diversos outros fatores que influenciam no valor de um link. O mais incontroverso (pois afirmado pela própria Google - ver item 2.2 da Anatomia da Google), mas ainda assim desconhecido, é o texto-âncora do link. Outros fatores são o conteúdo da página que contém o link, o TrustRank do site que contém o link, o posicionamento do link na página, etc.

    Embore seja mencionado aqui por último, um dos fatores mais importantes é a vizinhança do link. Se sua página é sobre [bananas], um bom link é aquele que esteja em um site de uma vizinhança de sites que tratem de [bananas]. E será ainda melhor, se o link estiver numa página que seja uma autoridade (receba um grande número de links) ou um hub (aponte para outros sites relevantes) da vizinhança. E quanto mais desses links a sua página conseguir, mais relevante ela será para [bananas], e mais sua página subirá nos rankings para [bananas].

    Esse gráfico simples explica muito bem a situação:

    link-ideal.jpg

    Cada ponto é uma página, cada traço é um link. Como elas se linkam porque têm um tópico em comum, elas formam uma vizinhança.
    Veja que algumas páginas são aglutinadoras de links (são as autoridades da vizinhança); outras páginas são emissoras de links (são os hubs da vizinhança). Isso (a direção dos links) não está representada no esquema, mas a Google enxerga muito bem essas relações.

    Atente para a página representada pelo ponto negro no meio do gráfico. Ela não é a que mais recebe links, e possivelmente não tem alto PR. Mas é essa página que recebe links (recebe votos) de diversos pontos distribuídos por toda a vizinhança. Provavelmente, é essa a página que as SEs elegerão como a mais relevante da vizinhança.

    O trabalho de um SEO é conseguir que suas páginas estejam justamente naquele ponto negro.

    O poder dos links: um caso prático

    Thursday, May 31st, 2007

    Deparei-me há pouco com esse post: http://www.brpoint.net/arquivo/blogs/ganhe-um-dominio-gratis.html (removi os links desse post, para não causar nenhuma influência no experimento abaixo).

    O Bruno, webmaster do site brpoint.net, teve uma ótima idéia: está pagando o registro de um domínio por um ano para todos os webmasters que fizerem uma avaliação daquele site e incluírem dois links para o mesmo.

    Os avaliadores têm o trabalho de examinar os pontos positivos e negativos do brpoint.net; em troca, ganham um ano de registro de domínio. O Bruno tem que pagar algo entre US$ 6 e US$ 12 por participante, mas em troca ganha não apenas uma avaliação (provavelmente imparcial) do seu site - e isso é importante para que se possa aprimorar o mesmo -, mas também (e principalmente) os links, que provavelmente melhorarão os rankings do brpoint nas diversas Search Engines. Uma situação em que todos ganham.

    Espero que ganhemos também nós, estudiosos dos algoritmos.

    Parece que o Bruno não vai ter problemas em conseguir os 200 links (2 de cada site, até um máximo de 100 sites). As regras que ele estipulou exigem que os links estejam em páginas indexadas na Google; além disso, foi exigido de todos os participantes que incluíssem nos respectivos sites um pequeno texto, o qual continha dois links.

    
    Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.

    De novo, removi os links; veja o código-fonte para conferir o código dos links.

    Ou seja, o post vai receber 100 links com a âncora ‘promoção’, e a homepage vai receber 100 links com a âncora ‘BrPoint’.

    Minha intenção é ver o impacto que os links vão causar nos rankings do post e da homepage, para diversas palavras chave. Teria sido muito bom acompanhar o experimento desde o início, mas ainda podemos tirar várias conclusões.

    O post do BrPoint foi criado em 16/5/2007; o Bruno já reconheceu 40 pares de links. Nesse momento (31/5, quase meia-noite), vejo o seguinte:

    Na Google:

  • O post já é #1 (193.000 páginas) para [ganhe um domínio grátis], que é o Título da página; isso quer dizer que em quinze dias a página já foi indexada e ganhou um score considerável
  • O post é #17 (mostrando 10 resultados por página) para [domínio grátis], que é consideravelmente mais competitiva (2.180.000 páginas); a intenção é ver quanto ainda ela vai subir, com os links extras que ainda virão
  • O post já está na posição #56 para [promoção], que é altamente competitiva (21.800.000 páginas)
  • A homepage já é, evidentemente, #1 para brpoint (e também #2, para uma página de 12/03/2007, solicitando ajuda para o Aldemir - não vou colocar a URL porque poderia influenciar o ranking). Mas é interessante ver o que acontecerá com o ranking para outros termos: a homepage é #2 para [problogging] (a #1 é problogging.com); a homepage está em #700 (100 resultados por página) para a palavra [tecnologia] (91.800.000 páginas), que está no Título da página no cache da Google; para a palavra [promoção], ao redor da posição #163, há outra página do Brpoint com um FAQ, datada de 23/05/2007
  • Excelente: parece que de ontem para hoje o Título da homepage foi alterado de ‘BrPoint | Problogging, Tecnologia e Opinião’ para ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Vamos ver o que vai acontecer então com os rankings para [tecnologia] (item anterior), [Dicas de Blog] e [SEO]. Hoje, para [dicas de blog], há uma página com dicas para o Adsense na posição #680; para [SEO], há dois links (100 resultados por SERP) do seo.brpoint.net nas posições #45/46 - uma sobre o-fim-do-seo e outra sobre yahoo-permite-nao-indexacao-de-parte-das-paginas (128.000.000 de páginas - estranhamente, há muitas páginas escritas em japonês nas primeiras posições << investigar); ao redor das posições #50/51, há duas páginas do www.brpoint.net - uma página sobre o seo-brasil-transferido e outra sobre seo-nao-confunda-alhos-com-bugalhos.Vamos acompanhar o que acontece nos próximos dias/semanas/meses.
  • Para [opinião], a homepage está em #121 (42.700.000 páginas)
  • No Cade.com.br:

  • o post já é #1 para [ganhe um domínio grátis] (47.200 páginas) e #9 para [domínio grátis] (3.930.000 páginas)
  • a homepage é #86 para [promoção], mas a palavra está na homepage; a página com FAQs da promoção é #146; o post em si não aparece entre os 1000 resultados apresentados (!!)
  • Para [problogging], a homepage é #1; para [tecnologia], a homepage é #249 (tecnologia está na página em cache); para [SEO], #25; para [dicas de blog], 159; para [opinião], #160.
  • No msn.com.br:

  • Para [ganhe um domínio grátis] (10.174 páginas), a primeira página está em #120, e é uma página interna em que se faz referência à promoção (ou seja, essa página tem mais peso do que o post sobre a própria promoção !!); para [domínio grátis], nem o post nem outra página aparecem entre os 1000 primeiros resultados
  • Para [problogging], a primeira página a aparecer é a página sobre wp-plugins, #180
  • Vamos acompanhar esses rankings, para ver o que ocorrerá nos próximos dias/semanas/meses.

    Atualização em 2 de julho: clique aqui.

    Patente da Google: uso de dados históricos

    Friday, May 25th, 2007

    Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

    O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

    E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

    No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

    Com seu exército de Phds, a Google certamente percebeu duas coisas.

    Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

    Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

    Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

    Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

    Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

    Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

    Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

    Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

    Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.