Archive for the ‘Google’ Category

Como chegar ao topo da Google

Thursday, September 20th, 2007

Em 2002, Brett Tabke, criador do site Webmasterworld, escreveu um post que, em Português, seria traduzido como Um Site de Sucesso em 12 Meses somente com a Google; o post virou um clássico entre os SEOs. Basicamente, o post dizia: escreva conteúdo relevante periodicamente, submeta às Search Engines mais importantes, pratique técnicas básicas, escreva conteúdo relevante periodicamente, mantenha uma boa estrutura interna, escreva mais conteúdo relevante, repita …

Desde então, o post tornou-se ainda mais válido. As brechas que existiam no algoritmo da Google foram se fechando. Hoje, todos sabem o que o algoritmo da Google quer. A GOOGLE QUER LISTAR OS SITES MAIS RELEVANTES PARA CADA PALAVRA DE BUSCA.

Por exemplo, façamos uma pesquisa para Volkswagem. Qual é o site mais relevante? O website da Volkswagem (apesar da péssima otimização do site). E por que isso? Primeiro, porque o site oferece hoje (setembro/2007) mais de 700 páginas de informações sobre a Volkswagen, com aval da própria empresa (quem melhor do que ela para falar sobre seus próprios produtos?); segundo, porque o site é a fonte preferencial para qualquer um que procure informações sobre a Volkswagen, e em conseqüência o site tem milhares de links apontando para ele; terceiro, o domínio vw.com.br foi registrado em 22/11/1999 (há quase oito anos), o que significa que a Google teve tempo suficiente para conhecer o domínio e o site, e pôde verificar que ele é confiável (a Volkswagen nunca empregou técnicas de spam para divulgar seu site).

Outros exemplos: o primeiro lugar para uma palavra altamente competitiva como viagra é o site da Pfizer; o primeiro lugar da listagem orgânica para New York é o site oficial da cidade de Nova York.

Então, baseados nesses exemplos, podemos tentar concluir: o que fazer para chegar ao topo da Google para uma dada palavra-chave?

1) Escreva o conteúdo mais relevante para a dada palavra-chave. Escreva o que ninguém mais escreveu. Se alguém já escreveu, escreva com mais detalhes e precisão. Escreva conteúdo que responda às dúvidas dos usuários sobre a palavra-chave. Escreva temas correlatos à palavra-chave (se o tópico do site é Ferrari, escreva também algo sobre a McLarem, que tenha correlação com a Ferrari). Utilize gráficos, esquemas e mapas. Faça perguntas e respostas. Coloque links para outras fontes relevantes sobre o tópico. Em suma: faça o melhor site sobre a palavra-chave.

Isso evidentemente significa que o autor ou autores devem conhecer profundamente o tópico referente à palavra-chave (mais do que os autores dos outros sites). Quer ver o site em primeiro para ‘cirurgia plástica’? Esteja preparado para apresentar muita informação interessante e relevante sobre ‘cirurgia plástica’ (o primeiro lugar hoje é a Sociedade Brasileira de Cirurgia Plástica). Ou você sabe muito sobre cirurgia plástica, ou vai estudar muito, ou vai pagar alguém para escrever sobre cirurgia plástica; o que não é possível é encontrar um segredo que faça um site fraco ou medíocre subir ao topo da Google para um tema competitivo como cirurgia plástica.

Outra conseqüência é: escreva sobre temas de que você goste, pelos quais você tenha interesse em escrever ou aprender (ou seja, sobre temas nos quais você consiga ser a fonte mais relevante). No longo prazo, os melhores sites serão escritos por pessoas ou entidades que se interessem e gostem de escrever sobre os respectivos tópicos (e não aqueles que queiram apenas ganhar dinheiro). Se você escrever sobre o de que gosta, então criar e aprimorar o site será um prazer, e não um fardo. E quem faz as coisas por prazer sempre fará mais bem feito.

2) Consiga links relevantes.

A Google tem aprimorado constatemente suas ferramentas de avaliação on-site e on-page, ou seja, ferramentas que avaliem a relevância de páginas e sites sem depender de fontes externas. Isso pode ser conseguido, por exemplo, pela combinação de estudos de semântica e lingüística (a Google é um dos maiores empregadores de profissionais dessas áreas no mundo) com o enorme banco de dados de pesquisas que a Google acumulou ao longo dos anos e ainda com o estudo da maneira como usuários interagem com um site ou página.

Por exemplo, a Google sabe que uma página sobre ‘Independência do Brasil’ será mais relevante se contiver também a expressão ‘Dom Pedro I’. Por quê? A Google estudou História? Não! Porque, ao longo dos anos, a Google constatou que diversas pesquisas incluíram simultaneamente os termos ‘Independência do Brasil’ e ‘Dom Pedro I’; ou, ainda, que diversas páginas contêm esses mesmos termos, muito freqüentemente com links.

A Google ‘aprende’, apenas observando a estrutura da web, que esses termos são correlatos. É mais ou menos como nós, seres humanos, também aprendemos. É por isso que o item 1 acima é importante: a Google tem uma certa capacidade de reconhecer, apenas por análise estrutural/semântico do site e do seu posicionamento da web, a qualidade e relevância do site.

Entretanto, essa análise on-page ou on-site não é suficiente. A Google precisa de avaliadores externos para avaliar a relevância de uma página. A Google precisa de links.

Se o site do Museu do Ipiranga linkar para uma página sobre Independência do Brasil, a Google sabe que essa página é relevante para pesquisas sobre ‘Independência do Brasil’. Por quê? Porque a Google sabe que o site do Museu é uma autoridade para o tema Independência do Brasil. E por que o site do Museu é autoridade? Porque diversos sites da internet, que versam sobre História e Independência, apontam para o site do Museu.

Outro exemplo. Quem escreve sobre, digamos, engenharia de petróleo, precisa de links de sites que sejam autoridades em engenharia de petróleo. Quais são esses sites? Petrobrás, ANP, Shell, etc. E por que essas empresas são autoridades em engenharia de petróleo? Porque é provável que milhares de sites cujos temas sejam correlatos a petróleo apontem para Petrobrás, ANP, etc.

Os links não são todos iguais (como eles eram há alguns anos). O que interessa hoje para a Google são links relevantes. Quer subir no ranking para ‘Rogério Cenni’? Consiga links do site do São Paulo, do site do próprio Rogério, de sites de fãs-clubes do Rogério, de sites sobre os grandes goleiros do mundo, do site da CBF, de sites genericamente importantes (Yahoo, dmoz, etc). Conseguir qualquer um desses links é mais proveitoso do que conseguir cem links na blogsfera com o texto ‘blog do Fulano’.

E isso leva a outro elemento importante: o texto do link. O texto não é tão importante quanto já foi, mas ainda é importante. Não é mais tão importante, porque hoje a Google utiliza análise semântica para saber o tópico do site e da página; não adianta muito conseguir um link com o texto ‘Rogério Cenni’ se a página em que o link se encontra tratar de agricultura. Entretanto, se a página tratar sobre futebol, é muito melhor que o texto do link seja ‘Rogério Ceni’.

Reconhecer links relevantes é provavelmente a parte mais importante do trabalho de SEO. Isso porque escrever texto relevante, como explicado acima, e ganhar confiança pelo tempo, como explicado abaixo, são coisas difíceis de simular; ou você conhece o tópico, ou não; ou você tem tempo na internet, ou não. Mas links são sujeitos a manipulação; pode-se obter bons links com dinheiro. Por isso a Google se esforça muito para não demonstrar quais são os links de valor.

Conhecer e obter links relevantes constitui, atualmente, o trabalho mais importante de um SEO. Esse post fala um pouco mais do tema.

3) Tempo + Honestidade = Confiança (Trust)

Ninguém consegue disfarçar o tempo de vida na internet. Um site registrado em 1998 demonstra que o autor tinha interesse pelo tópico do site há muito tempo.

A Google tornou-se um dos registradores oficiais de domínios há alguns anos, mas nunca registrou nenhum domínio. Por quê? Porque a intenção da Google era apenas ter acesso ao banco de dados que informa quando um domínio foi registrado ou alterado.

Junte a isso os registros que a Google tem sobre o histórico do site (ele já tentou enganar os bots, ou ele sempre foi honesto? A Google armazena diversos dados sobre o site para determinar isso) e tem-se aí um grande fator de avaliação do site. De fato, o TrustRank, ou medida de confiança que a Google tem no site, há muito tornou-se mais relevante do que o PageRank.

É por isso que sites que promovem alterações radicais na estrutura sofrem alguma penalização; por exemplo, sites que mudam todas as URLs de dinâmicas para estáticas simultaneamente, ou mesmo sites que alteram todo o conteúdo repentinamente (típico caso de pessoas que compram domínios expirados e trocam o conteúdo - ver riotransito.com.br, por exemplo - a Google demora, mas um dia descobre, e pune).

Junte ainda dados sobre a maneira como os usuários interagem com o site (quanto tempo os usuários ficam no site? quantas vezes eles retornam? quantos usuários adicionam o site aos Favoritos?), acumulados ao longo do tempo (um site com dez anos tem muitos usuários fiéis), e tem-se outro fator que diz muito quanto à relevância do site.

A Google confia mais nos sites que têm longo tempo de vida, e que ao longo desse tempo se dedicou a produzir conteúdo relevante (e não se aproveitar de vulnerabilidades do algoritmo).

Em resumo: como chegar ao topo da Google? Escreva conteúdo relevante, obtenha links relevantes, mantenha um site honesto e aguarde.

Google Universal Search

Saturday, September 1st, 2007

A Google anunciou a Universal Search em maio de 2007, por isso ela não é novidade.

O que é novidade é que a Universal Search está começando a ter impactos práticos. Para algumas palavras, as SERPs estão sendo alteradas para acomodar resultados decorrentes do Universal Ranking. Para [são paulo], por exemplo, o primeiro resultado já é ‘Resultados de Notícias sobre São Paulo’, o que leva para a News.google.com.br sobre SP. Para outras cidades, como [recife], as notícias aparecem no final da primeira página; e para termos menos populares, as notícias ainda não aparecem na primeira página.

O que isso significa na prática? Significa que um site competindo para a expressão [são paulo] ganhou um novo e poderosíssimo concorrente: a página de notícias sobre São Paulo; a briga agora é pelas nove posições restantes. Ou seja, a disputa está agora mais acirrada, e ficará ainda mais à medida que, por exemplo, forem surgindo (e a Google os considerar relevantes) vídeos sobre São Paulo na web, e a Universal Search entender que eles merecem um lugar na primeira página (uma pesquisa sobre [ronaldinho] hoje já traz Notícias em #4, e vídeos do Youtube sobre o dito-cujo em #5 e #6).

Mais informações sobre a Universal Search: http://searchengineland.com/070831-085631.php

Adendo, dezembro de 2007: ao que parece, a Google prepara outro forte candidato à primeira página: o Knol, versão Google da Wikipedia.

O caso do blogverde

Tuesday, August 21st, 2007

Estive ocupado, cuidando dos meus sites.

Vejamos o que aconteceu com o blogverde.

Primeiro (e grande) problema: o webmaster não colocou links para os que participaram da promoção, o que tirou o interesse de potenciais participantes. Ele ganhou menos links do que poderia.

Mesmo assim, para a expressão [como ganhar dinheiro na internet], o blogverde passou de #90 para #29; isso mostra a influência que uns poucos links podem ter. O tecmarcos passou para #2 e #3; o número #1 agora é patraodigital.com.br, com PR1 (o que mostra como PR pode ser enganoso); o interney é #10. Para [”como ganhar dinheiro na internet”], ou seja, pesquisa com aspas pelo termo exato da âncora, o blogverde é #16.

No cade.com.br, o #1 é ainda dinheirofacil.hpg.ig.com.br; a primeira página está cheia de spam. A página blogverde.com/category/assunto-quente aparece em #89; a página blogverde/2007/06 aparece em #94.

Mais uma vez, não há surpresas: bons links com a âncora correta melhoram os rankings.

Update 24 de outubro: a homepage do blog verde está em #12 na google para  [como ganhar dinheiro na internet]; tecmarcos voltou para #1, patraodigital caiu para #25; há hoje 2.240.000 resultados.

No cade.com.br, o #1 para [como ganhar dinheiro na internet] é dinheirobr.kit.net; o post do blog verde blogverde.com/2007/06/28/ganhar-dinheiro-na-internet  aparece em #62, e a homepage aparece em #75.

Links e rankings: outro estudo de caso

Friday, July 6th, 2007

Esse post analisou a influência que um conjunto de links sobre os rankings.

Esse tipo de experimento é interessantíssimo. Como são poucas as pessoas que conhecem os algoritmos das SEs no Brasil, são poucas as que procuram melhorar seus rankings aplicando técnicas de otimização. Isso significa que, quando alguém aplica as técnicas, é fácil ver quais foram os resultados práticos das mesmas (daí aplicam-se as mesmas técnicas em outros domínios).

Na língua inglesa, isso é impraticável. Todos os termos que podem ser otimizados já o são (isso porque muitas pessoas já estão ganhando dinheiro há tempos com sites otimizados). Por exemplo, é impossível fazer um experimento controlado para [make money online], pois existem milhares de pessoas esforçando-se ao máximo para chegar ao topo (basta ver o número de pessoas utilizando Adwords para o termo); o #1, bidvertiser.com, é um PR7.

No Brasil, onde não há disputa, a situação é diferente. Vejamos o caso abaixo.

O webmaster do blogverde.com criou uma outra promoção: está propondo uma troca de links. Webmasters de outros sites devem linkar para a homepage do blog com o texto:

“Estou participando da promoção do Blog Verde, que ensina Como Ganhar Dinheiro na Internet com Blogs!”

O texto-âncora é “Como Ganhar Dinheiro na Internet” (link removido). Em troca, o webmaster dará um link de volta.

Acompanhemos, pois, o avanço do blog para o termo “Como Ganhar Dinheiro na Internet”.

Hoje, 6 de julho, o #1 na Google é o site tecmarcos.com, PR5 (o PR é registrado apenas para fins históricos); a página tecmarcos.com/ganhardinheiro.php aparece em #14. O blogverde.com aparece em #90. O interney.net aparece em #3 e #4.

No cade.com.br, o #1 é www.dinheiroffacil.hpg.ig.com.br; o www.tecmarcos.com/ganhardinheiro.php aparece em #4. A página blogverde.com/2007/02/01/fechamento-de-janeiro-07-recorde aparece em #778; a página blogverde.com/2007/03/10/silvio-santos-eu-quero-ganhar-mais aparece em #806; a homepage não aparece entre os 1000 primeiros.

O comando linkdomain:www.blogverde.com do Yahoo retorna 5400 links; todos os 100 primeiros links são ou da feedburner ou do novo-mundo, outro blog do mesmo webmaster. Uma análise completa do impacto dos links deveria levar em conta o número e a qualidade dos novos links (que é o que eu faço com meus próprios sites). Mas nesse estudo de caso isso é impraticável, pois toma muito tempo; ademais, como explicado acima, as especificidades do mercado brasileiro permitem que se tirem boas conclusões, mesmo com essa análise superficial.

Veremos o que acontecerá nos próximos meses.

PS: Para os que possam estar se perguntando por que a expressão [ganhar dinheiro na internet] e similares são tão disputadas, vai uma breve explicação:
Muitas pessoas procuram formas de ganhar dinheiro pela internet (se possível, sem muito esforço). Como tirar proveito disso? Crie uma página cheia de programas de afiliados, que pagam comissões para cada novo afiliado que você indicar; apresente essa página aos interessados em ganhar dinheiro, convença-os de que eles ganharão dinheiro fácil e convença-os a tornarem-se afiliados; quanto mais pessoas se afiliaram, e quanto mais eles ganharem, mais o indicador (você) ganhará.

O poder dos links: um mês depois

Monday, July 2nd, 2007

Nesse post, de aproximadamente um mês atrás (31 de maio), pudemos ver o início de um experimento; uma página específica de um blog começou a receber links de outros blog, todos com o mesmo texto.

Vejamos o que aconteceu após um mês.
Até o final de maio, o Bruno tinha recebido 40 pares de links; em 6 de junho, ele anunciou ter recebido mais dez, e em 20 de junho outros 10, perfazendo assim um total de 60 pares de links (60 para a homepage do blog, 60 para a página da promoção).

Resultados nas SERPs:

  • o post continua, naturalmente, #1 para [ganhe um domínio grátis]; o interessante é que hoje o número de páginas é 87.900, bem abaixo do que era em maio (193.000).
  • o post passou de #17 para #13 para [domínio grátis]; o número de páginas passou de 2.180.000 para 3.360.000
  • o post passou de #56 para #35 para [promoção]; o número de páginas aumentou de 21.800.000 para 22.600.000
  • a homepage continua #1 e #2 para [brpoint], com as mesmas páginas de 31 de maio (interessante investigar porque a mesma página continua em #2, ou seja, ela é a segunda página mais relevante para [brpoint]). A homepage continua #2 para [problogging], mas a #1 mudou para blogmedia.biz (PR4). Para [tecnologia], a homepage sumiu das primeiras 1000 posições (o que era de se esperar, pois a palavra tecnologia foi removida do Título).
  • O título da homepage permanece o mesmo: ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Para [dicas de blog], o site passou de #680 (página interna) para #29 (homepage). Para [SEO], o site passou de #45/#46 para #10 (homepage) e #11 (fim do SEO).
  • Para [opinião], a homepage passou de #121 para #137
  • CONCLUSÕES: Essas são minhas conclusões.

  • Para [promoção], houve uma esperada melhora, de #56 para #35; no longo prazo, essa é a palavra que mais deve melhorar de ranking, pois é a que mais receberá texto-âncora específico.
  • O interessante é que a palavra [domínio grátis] também teve uma boa melhoria. Pode ser porque a página ainda está ganhando score por ter ‘domínio grátis’ no Título.
    Mas, pode ser também porque a google olha para o texto ao redor do link e também melhora seus rankings. Eu acho isso bastante plausível; isso faz sentido, porque em casos como “Clique aqui para saber mais sobre a Ferrari”, mesmo que a palavra clicável seja Clique aqui, o tópico que o autor quis ressaltar foi a Ferrari. Poderíamos testar isso acompanhando a evolução de outras palavras-chave na frase do Bruno (Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.), mas, além de ‘domínio grátis’, ela só contém palavras genéricas.
  • Em relação às palavras que compõem o Título da homepage, observam-se comportamentos diversos. Para [problogging] e [opinião], não houve progresso. Para [dicas de blog] e [SEO], houve excelente progresso. Como interpretar? Primeiro, as palavras [problogging] e [opinão] já estavam no Título, e portanto tiveram menos a ganhar durante o mês passado; as palavras [dicas de blog] e [SEO], ao contrário, tinham acabado de entrar no Título, e portanto não estavam se beneficiando de tal situação.
    Primeira conclusão: as palavras do Título são importantíssimas para um bom rankeamento (o que aliás é bem sabido pelos SEOs mais experientes). Mas acho que uma segunda conclusão é possível; por que [problogging] e [opinão] subiram pouco, apesar daqueles links, e [SEO] e [dicas de blog] subiram tão rapidamente? Acho que a resposta é que a Google sabe que o blog do Bruno foca-se muito em redor dos tópicos [SEO] e [dicas blog], e gira apenas tangencialmente ao redor de [problogging] e [opinião]; em outras palavras, o blog tem autoridade para escrever sobre [SEO], mas é apenas mais um a escrever sobre [opinião]. E como a Google sabe disso? Análise semântica, links, vizinhanças, …
  • No Cade.com.br:

  • o post continua #1 para [ganhe um domínio grátis] e passou de #9 para #7 para [domínio grátis]
  • para [promoção], a página brpoint.net/tag/promocao aparece agora em #21; não há nenhuma outra página do domínio entre os 1000 primeiros (!!)
  • para [problogging], a homepage continua #1. Para [SEO], as páginas brpoint.net/categoria/seo e brpoint.net/tag/seo passaram para #12 e #13, e a homepage desapareceu. Para [dicas de blog], a homepage passou de #159 para #12, e a página brpoint.net/categoria/dicas passou do nada para #22. Para [opinião], a homepage passou de #160 para #193.
  • CONCLUSÕES:

  • o Yahoo parece dar menos valor ao texto-âncora do que a Google. Ou o Yahoo ainda está dando peso para o ‘domínio grátis’ do Título, ou parece que o Yahoo pode estar dando mais peso a palavras ao redor do texto-âncora (a acompanhar). No caso presente, o Yahoo deu pouco valor a [promoção], mas parece ter dado valor a [domínio grátis]
  • o Yahoo deu bastante valor a Tags e Categorias. Não sei como essas páginas e sub-diretórios são formados, vou investigar melhor.
  • No msn.com.br:

  • para [ganhe um domínio grátis], o post saiu de lugar nenhum para #11
  • a search.msn.com torna as coisas muito difíceis para se alterar o idioma para o Português.
  • Conclusão: 1) os links tiveram certamente forte influência para alavancar o post; 2) o msn não se preocupa muito com usabilidade.

    New York Times escreve sobre a Google

    Monday, June 4th, 2007

    Um jornalista do New York Times foi autorizado a participar de uma reunião entre os engenheiros responsáveis pelo Controle de Qualidade dos Resultados na Google. O texto do jornalista está aqui. Matt Cutts, um dos engenheiros da Google responsáveis pela Qualidade dos resultados, comentou a reportagem aqui, e disse “in my opinion it does a good job of describing search quality at Google.”

    O post do Matt é permanente, mas o artigo do NYTimes deve tornar-se ‘apenas para assinantes’ em breve. Abaixo, alguns trechos do artigo:

    Online stores, he notes, find that a quarter to a half of their visitors, and most of their new customers, come from search engines. And media sites are discovering that many people are ignoring their home pages — where ad rates are typically highest — and using Google to jump to the specific pages they want.

    “Google has become the lifeblood of the Internet,” Mr. Battelle says. “You have to be in it.”

    ….

    Some complaints involve simple flaws that need to be fixed right away. Recently, a search for “French Revolution” returned too many sites about the recent French presidential election campaign — in which candidates opined on various policy revolutions — rather than the ouster of King Louis XVI. A search-engine tweak gave more weight to pages with phrases like “French Revolution” rather than pages that simply had both words.

    At other times, complaints highlight more complex problems. In 2005, Bill Brougher, a Google product manager, complained that typing the phrase “teak patio Palo Alto” didn’t return a local store called the Teak Patio.

    So Mr. Singhal fired up one of Google’s prized and closely guarded internal programs, called Debug, which shows how its computers evaluate each query and each Web page. He discovered that Theteakpatio.com did not show up because Google’s formulas were not giving enough importance to links from other sites about Palo Alto.

    It was also a clue to a bigger problem. Finding local businesses is important to users, but Google often has to rely on only a handful of sites for clues about which businesses are best. Within two months of Mr. Brougher’s complaint, Mr. Singhal’s group had written a new mathematical formula to handle queries for hometown shops.

    …THE QDF solution revolves around determining whether a topic is “hot.” If news sites or blog posts are actively writing about a topic, the model figures that it is one for which users are more likely to want current information. The model also examines Google’s own stream of billions of search queries, which Mr. Singhal believes is an even better monitor of global enthusiasm about a particular subject.

    As Google compiles its index, it calculates a number it calls PageRank for each page it finds. This was the key invention of Google’s founders, Mr. Page and Sergey Brin. PageRank tallies how many times other sites link to a given page. Sites that are more popular, especially with sites that have high PageRanks themselves, are considered likely to be of higher quality.

    Mr. Singhal has developed a far more elaborate system for ranking pages, which involves more than 200 types of information, or what Google calls “signals.” PageRank is but one signal. Some signals are on Web pages — like words, links, images and so on. Some are drawn from the history of how pages have changed over time. Some signals are data patterns uncovered in the trillions of searches that Google has handled over the years.

    “The data we have is pushing the state of the art,” Mr. Singhal says. “We see all the links going to a page, how the content is changing on the page over time.”

    These signals and classifiers calculate several key measures of a page’s relevance, including one it calls “topicality” — a measure of how the topic of a page relates to the broad category of the user’s query. A page about President Bush’s speech about Darfur last week at the White House, for example, would rank high in topicality for “Darfur,” less so for “George Bush” and even less for “White House.” Google combines all these measures into a final relevancy score.

    The sites with the 10 highest scores win the coveted spots on the first search page, unless a final check shows that there is not enough “diversity” in the results. “If you have a lot of different perspectives on one page, often that is more helpful than if the page is dominated by one perspective,” Mr. Cutts says. “If someone types a product, for example, maybe you want a blog review of it, a manufacturer’s page, a place to buy it or a comparison shopping site.”

    Yahoo is now developing special search formulas for specific areas of knowledge, like health. Microsoft has bet on using a mathematical technique to rank pages known as neural networks that try to mimic the way human brains learn information.

    Google’s use of signals and classifiers, by contrast, is more rooted in current academic literature, in part because its leaders come from academia and research labs. Still, Google has been able to refine and advance those ideas by using computer and programming resources that no university can afford.

    “People still think that Google is the gold standard of search,” Mr. Battelle says. “Their secret sauce is how these guys are doing it all in aggregate. There are 1,000 little tunings they do.”

    Muita informação interessante, confirmada pela própria Google. Para ler e reler algumas vezes.

    Encontrando os links ideais

    Saturday, June 2nd, 2007

    É fato bem sabido que LINKS são elemento essencial no algoritmo de TODAS as Search Engines.

    Outro fato, esse não tão sabido, é que os links não são todos iguais, ou melhor, nenhum link, no que se refere a peso nos rankings das SEs, é igual a outro. Vários webmasters ainda dão grande valor a PageRank para avaliar o valor de sites e páginas (e, conseqüentemente, ainda que de forma inconsciente, links); outros, de forma ainda mais simplista, dão valor simplesmente ao número de backlinks.

    Desde há muito tempo, há diversos outros fatores que influenciam no valor de um link. O mais incontroverso (pois afirmado pela própria Google - ver item 2.2 da Anatomia da Google), mas ainda assim desconhecido, é o texto-âncora do link. Outros fatores são o conteúdo da página que contém o link, o TrustRank do site que contém o link, o posicionamento do link na página, etc.

    Embore seja mencionado aqui por último, um dos fatores mais importantes é a vizinhança do link. Se sua página é sobre [bananas], um bom link é aquele que esteja em um site de uma vizinhança de sites que tratem de [bananas]. E será ainda melhor, se o link estiver numa página que seja uma autoridade (receba um grande número de links) ou um hub (aponte para outros sites relevantes) da vizinhança. E quanto mais desses links a sua página conseguir, mais relevante ela será para [bananas], e mais sua página subirá nos rankings para [bananas].

    Esse gráfico simples explica muito bem a situação:

    link-ideal.jpg

    Cada ponto é uma página, cada traço é um link. Como elas se linkam porque têm um tópico em comum, elas formam uma vizinhança.
    Veja que algumas páginas são aglutinadoras de links (são as autoridades da vizinhança); outras páginas são emissoras de links (são os hubs da vizinhança). Isso (a direção dos links) não está representada no esquema, mas a Google enxerga muito bem essas relações.

    Atente para a página representada pelo ponto negro no meio do gráfico. Ela não é a que mais recebe links, e possivelmente não tem alto PR. Mas é essa página que recebe links (recebe votos) de diversos pontos distribuídos por toda a vizinhança. Provavelmente, é essa a página que as SEs elegerão como a mais relevante da vizinhança.

    O trabalho de um SEO é conseguir que suas páginas estejam justamente naquele ponto negro.

    O poder dos links: um caso prático

    Thursday, May 31st, 2007

    Deparei-me há pouco com esse post: http://www.brpoint.net/arquivo/blogs/ganhe-um-dominio-gratis.html (removi os links desse post, para não causar nenhuma influência no experimento abaixo).

    O Bruno, webmaster do site brpoint.net, teve uma ótima idéia: está pagando o registro de um domínio por um ano para todos os webmasters que fizerem uma avaliação daquele site e incluírem dois links para o mesmo.

    Os avaliadores têm o trabalho de examinar os pontos positivos e negativos do brpoint.net; em troca, ganham um ano de registro de domínio. O Bruno tem que pagar algo entre US$ 6 e US$ 12 por participante, mas em troca ganha não apenas uma avaliação (provavelmente imparcial) do seu site - e isso é importante para que se possa aprimorar o mesmo -, mas também (e principalmente) os links, que provavelmente melhorarão os rankings do brpoint nas diversas Search Engines. Uma situação em que todos ganham.

    Espero que ganhemos também nós, estudiosos dos algoritmos.

    Parece que o Bruno não vai ter problemas em conseguir os 200 links (2 de cada site, até um máximo de 100 sites). As regras que ele estipulou exigem que os links estejam em páginas indexadas na Google; além disso, foi exigido de todos os participantes que incluíssem nos respectivos sites um pequeno texto, o qual continha dois links.

    
    Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.

    De novo, removi os links; veja o código-fonte para conferir o código dos links.

    Ou seja, o post vai receber 100 links com a âncora ‘promoção’, e a homepage vai receber 100 links com a âncora ‘BrPoint’.

    Minha intenção é ver o impacto que os links vão causar nos rankings do post e da homepage, para diversas palavras chave. Teria sido muito bom acompanhar o experimento desde o início, mas ainda podemos tirar várias conclusões.

    O post do BrPoint foi criado em 16/5/2007; o Bruno já reconheceu 40 pares de links. Nesse momento (31/5, quase meia-noite), vejo o seguinte:

    Na Google:

  • O post já é #1 (193.000 páginas) para [ganhe um domínio grátis], que é o Título da página; isso quer dizer que em quinze dias a página já foi indexada e ganhou um score considerável
  • O post é #17 (mostrando 10 resultados por página) para [domínio grátis], que é consideravelmente mais competitiva (2.180.000 páginas); a intenção é ver quanto ainda ela vai subir, com os links extras que ainda virão
  • O post já está na posição #56 para [promoção], que é altamente competitiva (21.800.000 páginas)
  • A homepage já é, evidentemente, #1 para brpoint (e também #2, para uma página de 12/03/2007, solicitando ajuda para o Aldemir - não vou colocar a URL porque poderia influenciar o ranking). Mas é interessante ver o que acontecerá com o ranking para outros termos: a homepage é #2 para [problogging] (a #1 é problogging.com); a homepage está em #700 (100 resultados por página) para a palavra [tecnologia] (91.800.000 páginas), que está no Título da página no cache da Google; para a palavra [promoção], ao redor da posição #163, há outra página do Brpoint com um FAQ, datada de 23/05/2007
  • Excelente: parece que de ontem para hoje o Título da homepage foi alterado de ‘BrPoint | Problogging, Tecnologia e Opinião’ para ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Vamos ver o que vai acontecer então com os rankings para [tecnologia] (item anterior), [Dicas de Blog] e [SEO]. Hoje, para [dicas de blog], há uma página com dicas para o Adsense na posição #680; para [SEO], há dois links (100 resultados por SERP) do seo.brpoint.net nas posições #45/46 - uma sobre o-fim-do-seo e outra sobre yahoo-permite-nao-indexacao-de-parte-das-paginas (128.000.000 de páginas - estranhamente, há muitas páginas escritas em japonês nas primeiras posições << investigar); ao redor das posições #50/51, há duas páginas do www.brpoint.net - uma página sobre o seo-brasil-transferido e outra sobre seo-nao-confunda-alhos-com-bugalhos.Vamos acompanhar o que acontece nos próximos dias/semanas/meses.
  • Para [opinião], a homepage está em #121 (42.700.000 páginas)
  • No Cade.com.br:

  • o post já é #1 para [ganhe um domínio grátis] (47.200 páginas) e #9 para [domínio grátis] (3.930.000 páginas)
  • a homepage é #86 para [promoção], mas a palavra está na homepage; a página com FAQs da promoção é #146; o post em si não aparece entre os 1000 resultados apresentados (!!)
  • Para [problogging], a homepage é #1; para [tecnologia], a homepage é #249 (tecnologia está na página em cache); para [SEO], #25; para [dicas de blog], 159; para [opinião], #160.
  • No msn.com.br:

  • Para [ganhe um domínio grátis] (10.174 páginas), a primeira página está em #120, e é uma página interna em que se faz referência à promoção (ou seja, essa página tem mais peso do que o post sobre a própria promoção !!); para [domínio grátis], nem o post nem outra página aparecem entre os 1000 primeiros resultados
  • Para [problogging], a primeira página a aparecer é a página sobre wp-plugins, #180
  • Vamos acompanhar esses rankings, para ver o que ocorrerá nos próximos dias/semanas/meses.

    Atualização em 2 de julho: clique aqui.

    Patente da Google: uso de dados históricos

    Friday, May 25th, 2007

    Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

    O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

    E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

    No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

    Com seu exército de Phds, a Google certamente percebeu duas coisas.

    Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

    Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

    Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

    Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

    Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

    Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

    Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

    Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

    Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.

    O que é TrustRank ?

    Wednesday, May 16th, 2007

    O que fez a Google o que ela é hoje foi o Pagerank.

    O PageRank de uma página era um número calculado pelo algoritmo da Google, proporcional ao PageRank das páginas que continham um link apontando para aquela página. Sim, o processo é recursivo; para saber o PR de uma dada página, eu tenho que saber o PR das outras páginas que linkam para ela; e para saber os PR das páginas que linkam para ela, eu tenho que saber os PRs das outras páginas que linkam para as páginas que linkam para ela, etc., etc..

    Alguns sites (nenhum em Português, que eu saiba), tentaram explicar os fundamentos matemáticos do PageRank. Cada página tinha então um PR, que era usado como fator de pontuação e rankeamento: após calcular o score parcial de uma página em função dos demais critérios de rankeamento (número de vezes que a palavra aparece no texto, uso de palavras similares, palavras em negrito, etc), tal score parcial era “ajustado” pelo PageRank da página.

    Para quem entende de banco de dados: o PR era apenas uma variável extra num banco de dados relacional; a pontuação era calculada como se o PR não existisse (pelos mesmos critérios que se empregavam antigamente: densidade de palavras, palavras no título, palavras em negrito, etc), e daí essa pontuação era multiplicada pelo valor da variável PR.

    Dado isso, era relativamente fácil melhorar o posicionamento de uma página: bastava aumentar o PageRank. E como aumentar o PageRank? Bastava conseguir links em outras páginas com alto PageRank (na verdade, qualquer página, desde que tivesse algum PageRank, servia). Para garantir resultados ainda melhores, devia-se pedir à página com link que adotasse como texto-âncora a palavra desejada. O processo era todo automatizado, dependendo inteiramente de algoritmos, e algoritmos não são capazes de julgar as intenções dos webmasters.

    Desde o update Flórida, no final de 2003, isso mudou. Hoje em dia, o TrustRank é muito mais importante do que o PageRank.

    Trust é a palavra em inglês para ‘confiança’. A Google quer ter confiança num link, antes de lhe conceder o poder de alavancar uma página. Veja o paper original sobre TrustRank. Traduzo um trecho do resumo: “Páginas de spam utilizam várias técnicas para obter rankings melhores do que os merecidos nas Search Engines. Embora humanos possam identificar spam, o processo de avaliação manual de um grande número de páginas fica muito caro. Em vez disso, nós propomos técnicas para, de forma semi-automática, separar as páginas boas e reputáveis daquelas de spam. Uma vez que páginas-semente reputáveis sejam manualmente identificadas, nós utilizamos a estrutura de links da web para identificar outras páginas que provavelmente são também reputáveis. Nesse paper nós discutimos algumas maneiras possíveis para implementar a identificação de páginas-semente e a descoberta de novas páginas confiáveis”.

    Ou seja, o processo deixou de ser automático. Com TrustRank, um ser humano deve identificar quais são as páginas de confiança (que são chamadas de seed pages, ou páginas-semente); a essas páginas é atribuído um valor de TrustRank. A partir daí, TrustRank transmite-se por links, tal qual PageRank; entretanto, enquanto PR era transferido pela simples existência de um link, o TR fala em ‘páginas que provavelmente são reputáveis’, ou seja, pode ser que não haja transferência de TR.

    Quais são as páginas-semente? O paper não os discrimina, mas informa que naquele experimento foram utilizados 7.900 sites (e não páginas). Isso parece (pelo menos para mim) um indicativo de que o TrustRank é atribuído a sites, e não páginas. Isso faz uma enorme diferença: uma vez o site tendo sido identificado como de alto TR, todas as suas páginas assim também o serão; não importa mais o PageRank da página, importa sim o TrustRank do site.

    E quais são esses sites escolhidos como semente, para começar a distribuir TrustRank? Quais sites mereceriam a confiança da Google?

    Aqui começam as hipóteses e discussões. Um site de Trust provavelmente preza pela relevância das informações que apresenta, bem assim como dos links (que devem ser vistos como informações complementares) que contém. Um site do governo americano, por exemplo, é, a princípio, de alta confiança. Em certa medida, também as Universidades americanas, que sabem perfeitamente que sua imagem será avaliada pela qualidade das páginas do seu site. Por isso, formou-se um consenso de que páginas .gov e .edu são de alto TR (e seus links são mais valiosos).

    Quais mais? Em geral, os sites em que é visível a necessidade de publicar conteúdo relevante. Sites de notícias (cnn, bbc), grandes empresas (ford, ibm, apple), grandes instituições (nasa, cruz vermelha, nature), etc. Uma coisa em comum entre sites de alto TR é que é difícil incluir um link nesses sites apenas pela vontade de terceiros; esses sites tomam a iniciativa de encontrar documentos de valor e linkar para eles.

    E quais sites não merecem confiança? Acho que há dois tipos.

    Primeiro, aqueles em que é possível criar um link, qualquer que seja a qualidade da página que recebe o link. Isso inclui, por exemplo, sites que permitem links anônimos, sites que promovem troca indiscriminada de links, sites que listem outros sites em troca de dinheiro.

    Segundo, não merecem confiança os sites que se envolvem com sites do primeiro grupo. Por exemplo, um site que tem cem links, noventa dos quais provenientes de sites de pouco Trust, provavelmente terá também baixo Trust.

    Resumo da questão: procure obter links de sites de alto Trust. É melhor obter UM link de harvard.edu, ainda que o PageRank seja PR1, do que obter dez links de diretórios a US$10 cada, ainda que todos tenham PR4.

    E como obter esses links de alto trust? Produza uma página que contenha tanta informação que seja tão relevante, que o webmaster do site de alto trust queira linkar para você.