Archive for July, 2007

Livro: Google

Sunday, July 29th, 2007

Escrito pelos Americanos David A. Vise e Mark Malseed. Editora Rocco. Aproximadamente R$ 42; eu comprei no aeroporto do Recife.

Não fala nada sobre o algoritmo (além, evidentemente, do PageRank).

Fala sobre como Sergei e Brin se conheceram, suas famílias, o início numa garagem.

Eles tentaram vender a patente do PageRank para a Excite e para o Yahoo!, que recusaram. O Yahoo! alegou que seu objetivo (do Yahoo) era manter o usuário o máximo possível dentro do site (daí eles terem criado o mail, groups, flickr, jobs, travel, cars.yahoo, etc), e o PageRank faria com que os usuários encontrassem rapidamente o que buscavam e se afastariam do site.

Um professor, David Cheriton, apresentou Larry e Sergei a Andy Bechtolsheim, ele próprio um gênio em computação e investidor milionário. Bechtolsheim acreditou, com reticências, no potencial da dupla e fez um cheque de US$ 100.000 (’porque era um número redondo’) em nome da Google Inc.. Como tal empresa ainda não existia, Larry e Sergei tiveram que guardar o cheque até formalizar a Google.

Capítulo interessante é o que descreve o lançamento das ações na Bolsa. Esse é o momento em que,  geralmente, os fundadores perdem o controle da empresa; em todos os casos de IPO antes da Google, os grandes bancos de Wall Street impuseram aos fundadores condições que, visando a salvaguardar os interesses dos futuros investidores, colocavam o controle da empresa nas mãos de diretores profissionais.

A Google quebrou o paradigma. O IPO da Google foi pulverizado; todos puderam comprar ações, ainda que umas poucas. Sergei e Larry se mantiveram no controle, com autonomia para ditar os rumos da empresa; a concessão que fizeram foi aceitar a entrada de Eric Schmidt, que se tornou o ‘elemento financeiro’ na direção. Isso explica, em grande parte, porque a Google continua focada em melhorar o algoritmo e satisfazer o usuário, enquanto o Yahoo se tornou a maior vitrine comercial da internet.

Capítulo à parte sobre Charlie Ayers, ex-chef da banda Grateful Dead que assumiu o restaurante da Googleplex; como muitos outros, Charlie tornou-se milionário e aposentou-se.

Nos outros capítulos, a descrição do sucesso da empresa. Muito se fala do PageRank, mas a maior inovação da Google foram Adwords e Adsense (ver também o livro A Cauda Longa).

Links e rankings: outro estudo de caso

Friday, July 6th, 2007

Esse post analisou a influência que um conjunto de links sobre os rankings.

Esse tipo de experimento é interessantíssimo. Como são poucas as pessoas que conhecem os algoritmos das SEs no Brasil, são poucas as que procuram melhorar seus rankings aplicando técnicas de otimização. Isso significa que, quando alguém aplica as técnicas, é fácil ver quais foram os resultados práticos das mesmas (daí aplicam-se as mesmas técnicas em outros domínios).

Na língua inglesa, isso é impraticável. Todos os termos que podem ser otimizados já o são (isso porque muitas pessoas já estão ganhando dinheiro há tempos com sites otimizados). Por exemplo, é impossível fazer um experimento controlado para [make money online], pois existem milhares de pessoas esforçando-se ao máximo para chegar ao topo (basta ver o número de pessoas utilizando Adwords para o termo); o #1, bidvertiser.com, é um PR7.

No Brasil, onde não há disputa, a situação é diferente. Vejamos o caso abaixo.

O webmaster do blogverde.com criou uma outra promoção: está propondo uma troca de links. Webmasters de outros sites devem linkar para a homepage do blog com o texto:

“Estou participando da promoção do Blog Verde, que ensina Como Ganhar Dinheiro na Internet com Blogs!”

O texto-âncora é “Como Ganhar Dinheiro na Internet” (link removido). Em troca, o webmaster dará um link de volta.

Acompanhemos, pois, o avanço do blog para o termo “Como Ganhar Dinheiro na Internet”.

Hoje, 6 de julho, o #1 na Google é o site tecmarcos.com, PR5 (o PR é registrado apenas para fins históricos); a página tecmarcos.com/ganhardinheiro.php aparece em #14. O blogverde.com aparece em #90. O interney.net aparece em #3 e #4.

No cade.com.br, o #1 é www.dinheiroffacil.hpg.ig.com.br; o www.tecmarcos.com/ganhardinheiro.php aparece em #4. A página blogverde.com/2007/02/01/fechamento-de-janeiro-07-recorde aparece em #778; a página blogverde.com/2007/03/10/silvio-santos-eu-quero-ganhar-mais aparece em #806; a homepage não aparece entre os 1000 primeiros.

O comando linkdomain:www.blogverde.com do Yahoo retorna 5400 links; todos os 100 primeiros links são ou da feedburner ou do novo-mundo, outro blog do mesmo webmaster. Uma análise completa do impacto dos links deveria levar em conta o número e a qualidade dos novos links (que é o que eu faço com meus próprios sites). Mas nesse estudo de caso isso é impraticável, pois toma muito tempo; ademais, como explicado acima, as especificidades do mercado brasileiro permitem que se tirem boas conclusões, mesmo com essa análise superficial.

Veremos o que acontecerá nos próximos meses.

PS: Para os que possam estar se perguntando por que a expressão [ganhar dinheiro na internet] e similares são tão disputadas, vai uma breve explicação:
Muitas pessoas procuram formas de ganhar dinheiro pela internet (se possível, sem muito esforço). Como tirar proveito disso? Crie uma página cheia de programas de afiliados, que pagam comissões para cada novo afiliado que você indicar; apresente essa página aos interessados em ganhar dinheiro, convença-os de que eles ganharão dinheiro fácil e convença-os a tornarem-se afiliados; quanto mais pessoas se afiliaram, e quanto mais eles ganharem, mais o indicador (você) ganhará.

Black hat: 5 bilhões de páginas indexadas na Google.

Tuesday, July 3rd, 2007

Em maio/junho de 2006, um black hat conseguiu indexar 5 bilhões de páginas na Google: ver comentários, por exemplo, na ThreadWatch e no Digital Point (no Digital Point, o próprio Black Hat compareceu para discutir a técnica). Com bilhões de páginas indexadas, os sites atraem milhões de visitantes por dia, e rendem milhares de dólares em Adsense.

O que ele fez?

1) Ele registrou um domínio qualquer, como t1ps2see.com (dêem uma olhada no tráfego do site - expandam o período de tempo no gráfico - atualização: a Alexa restringiu o período máximo de visualização do tráfego a apenas alguns meses; entretanto, eu vi o tráfego do t1ps2see.com, e ele apresentava picos impressionantes) .
2) Ele percebeu que a Google dava aos sub-domínios um tratamento diferente do dado às páginas; um sub-domínio pagina.tips2see.com era facilmente indexável, enquanto a página tips2see.com/pagina estava sujeita a diversos filtros (o chamado efeito Sandbox), e demorava muito a aparecer.
3) De alguma forma (há diversas formas, desde as absolutamente legais - wordtracker - até as completamente ilegais - invasão de máquinas), ele passou a espionar os termos que as pessoas estavam pesquisando.
4) Para cada termo, um script automaticamente configurava um sub-dominio no servidor do black hat. Por exemplo, se alguém pesquisasse por ‘receita de bolo’, o script criava o sub-domínio receita-de-bolo.tips2see.com. Foi assim que ele gerou bilhões de páginas.
5) Ele gerou conteúdo para cada um dos sub-domínios. Como? Ele fez o que se chama content scrapping: pegue uma outra página já pronta (em geral, de uma Search Engine) e embaralhe o conteúdo; a nova página conterá diversas palavras e links correlatos com o assunto. Em lugares proeminentes da nova página (topo, laterais, etc), ele entupiu de Adsense.
6) Também por script, ele criou uma imensa interligação de sub-domínios correlatos. Tão logo uma página (na verdade, um sub-domínio) sobre ‘receitas de pudim’ fosse criada, o script automaticamente interligava essa página à outra, sobre ‘receita de bolo’.
7) Adicione alguns links (em blogs, forums, domínios expirados, etc) a algumas páginas-chave, e espere pelo efeito multiplicador de bilhões de páginas interligadas.

Na verdade, a grande sacada do Black Hat foi o item 2. Ele percebeu que a Google tratava cada sub-domínio como um domínio independente, e tirou proveito disso. Os outros itens da ‘técnica’ dele já eram mais ou menos conhecidos (tentarei detalhar mais, no futuro).

Novamente, como se vê, ser um black hat não é coisa de amadores.

O poder dos links: um mês depois

Monday, July 2nd, 2007

Nesse post, de aproximadamente um mês atrás (31 de maio), pudemos ver o início de um experimento; uma página específica de um blog começou a receber links de outros blog, todos com o mesmo texto.

Vejamos o que aconteceu após um mês.
Até o final de maio, o Bruno tinha recebido 40 pares de links; em 6 de junho, ele anunciou ter recebido mais dez, e em 20 de junho outros 10, perfazendo assim um total de 60 pares de links (60 para a homepage do blog, 60 para a página da promoção).

Resultados nas SERPs:

  • o post continua, naturalmente, #1 para [ganhe um domínio grátis]; o interessante é que hoje o número de páginas é 87.900, bem abaixo do que era em maio (193.000).
  • o post passou de #17 para #13 para [domínio grátis]; o número de páginas passou de 2.180.000 para 3.360.000
  • o post passou de #56 para #35 para [promoção]; o número de páginas aumentou de 21.800.000 para 22.600.000
  • a homepage continua #1 e #2 para [brpoint], com as mesmas páginas de 31 de maio (interessante investigar porque a mesma página continua em #2, ou seja, ela é a segunda página mais relevante para [brpoint]). A homepage continua #2 para [problogging], mas a #1 mudou para blogmedia.biz (PR4). Para [tecnologia], a homepage sumiu das primeiras 1000 posições (o que era de se esperar, pois a palavra tecnologia foi removida do Título).
  • O título da homepage permanece o mesmo: ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Para [dicas de blog], o site passou de #680 (página interna) para #29 (homepage). Para [SEO], o site passou de #45/#46 para #10 (homepage) e #11 (fim do SEO).
  • Para [opinião], a homepage passou de #121 para #137
  • CONCLUSÕES: Essas são minhas conclusões.

  • Para [promoção], houve uma esperada melhora, de #56 para #35; no longo prazo, essa é a palavra que mais deve melhorar de ranking, pois é a que mais receberá texto-âncora específico.
  • O interessante é que a palavra [domínio grátis] também teve uma boa melhoria. Pode ser porque a página ainda está ganhando score por ter ‘domínio grátis’ no Título.
    Mas, pode ser também porque a google olha para o texto ao redor do link e também melhora seus rankings. Eu acho isso bastante plausível; isso faz sentido, porque em casos como “Clique aqui para saber mais sobre a Ferrari”, mesmo que a palavra clicável seja Clique aqui, o tópico que o autor quis ressaltar foi a Ferrari. Poderíamos testar isso acompanhando a evolução de outras palavras-chave na frase do Bruno (Ganhe um domínio grátis.Basta participar da promoção
    que está sendo realizada pelo BrPoint.), mas, além de ‘domínio grátis’, ela só contém palavras genéricas.
  • Em relação às palavras que compõem o Título da homepage, observam-se comportamentos diversos. Para [problogging] e [opinião], não houve progresso. Para [dicas de blog] e [SEO], houve excelente progresso. Como interpretar? Primeiro, as palavras [problogging] e [opinão] já estavam no Título, e portanto tiveram menos a ganhar durante o mês passado; as palavras [dicas de blog] e [SEO], ao contrário, tinham acabado de entrar no Título, e portanto não estavam se beneficiando de tal situação.
    Primeira conclusão: as palavras do Título são importantíssimas para um bom rankeamento (o que aliás é bem sabido pelos SEOs mais experientes). Mas acho que uma segunda conclusão é possível; por que [problogging] e [opinão] subiram pouco, apesar daqueles links, e [SEO] e [dicas de blog] subiram tão rapidamente? Acho que a resposta é que a Google sabe que o blog do Bruno foca-se muito em redor dos tópicos [SEO] e [dicas blog], e gira apenas tangencialmente ao redor de [problogging] e [opinião]; em outras palavras, o blog tem autoridade para escrever sobre [SEO], mas é apenas mais um a escrever sobre [opinião]. E como a Google sabe disso? Análise semântica, links, vizinhanças, …
  • No Cade.com.br:

  • o post continua #1 para [ganhe um domínio grátis] e passou de #9 para #7 para [domínio grátis]
  • para [promoção], a página brpoint.net/tag/promocao aparece agora em #21; não há nenhuma outra página do domínio entre os 1000 primeiros (!!)
  • para [problogging], a homepage continua #1. Para [SEO], as páginas brpoint.net/categoria/seo e brpoint.net/tag/seo passaram para #12 e #13, e a homepage desapareceu. Para [dicas de blog], a homepage passou de #159 para #12, e a página brpoint.net/categoria/dicas passou do nada para #22. Para [opinião], a homepage passou de #160 para #193.
  • CONCLUSÕES:

  • o Yahoo parece dar menos valor ao texto-âncora do que a Google. Ou o Yahoo ainda está dando peso para o ‘domínio grátis’ do Título, ou parece que o Yahoo pode estar dando mais peso a palavras ao redor do texto-âncora (a acompanhar). No caso presente, o Yahoo deu pouco valor a [promoção], mas parece ter dado valor a [domínio grátis]
  • o Yahoo deu bastante valor a Tags e Categorias. Não sei como essas páginas e sub-diretórios são formados, vou investigar melhor.
  • No msn.com.br:

  • para [ganhe um domínio grátis], o post saiu de lugar nenhum para #11
  • a search.msn.com torna as coisas muito difíceis para se alterar o idioma para o Português.
  • Conclusão: 1) os links tiveram certamente forte influência para alavancar o post; 2) o msn não se preocupa muito com usabilidade.