Deprecated: Assigning the return value of new by reference is deprecated in /usr/www/users/brazz/sites-de-busca/blog/wp-includes/cache.php on line 36

Deprecated: Assigning the return value of new by reference is deprecated in /usr/www/users/brazz/sites-de-busca/blog/wp-includes/query.php on line 15

Deprecated: Assigning the return value of new by reference is deprecated in /usr/www/users/brazz/sites-de-busca/blog/wp-includes/theme.php on line 505
Google - Sites de Busca

Archive for the ‘Google’ Category

New York Times escreve sobre a Google

Monday, June 4th, 2007

Um jornalista do New York Times foi autorizado a participar de uma reunião entre os engenheiros responsáveis pelo Controle de Qualidade dos Resultados na Google. O texto do jornalista está aqui. Matt Cutts, um dos engenheiros da Google responsáveis pela Qualidade dos resultados, comentou a reportagem aqui, e disse “in my opinion it does a good job of describing search quality at Google.”

O post do Matt é permanente, mas o artigo do NYTimes deve tornar-se ‘apenas para assinantes’ em breve. Abaixo, alguns trechos do artigo:

Online stores, he notes, find that a quarter to a half of their visitors, and most of their new customers, come from search engines. And media sites are discovering that many people are ignoring their home pages — where ad rates are typically highest — and using Google to jump to the specific pages they want.

“Google has become the lifeblood of the Internet,” Mr. Battelle says. “You have to be in it.”

….

Some complaints involve simple flaws that need to be fixed right away. Recently, a search for “French Revolution” returned too many sites about the recent French presidential election campaign — in which candidates opined on various policy revolutions — rather than the ouster of King Louis XVI. A search-engine tweak gave more weight to pages with phrases like “French Revolution” rather than pages that simply had both words.

At other times, complaints highlight more complex problems. In 2005, Bill Brougher, a Google product manager, complained that typing the phrase “teak patio Palo Alto” didn’t return a local store called the Teak Patio.

So Mr. Singhal fired up one of Google’s prized and closely guarded internal programs, called Debug, which shows how its computers evaluate each query and each Web page. He discovered that Theteakpatio.com did not show up because Google’s formulas were not giving enough importance to links from other sites about Palo Alto.

It was also a clue to a bigger problem. Finding local businesses is important to users, but Google often has to rely on only a handful of sites for clues about which businesses are best. Within two months of Mr. Brougher’s complaint, Mr. Singhal’s group had written a new mathematical formula to handle queries for hometown shops.

…THE QDF solution revolves around determining whether a topic is “hot.” If news sites or blog posts are actively writing about a topic, the model figures that it is one for which users are more likely to want current information. The model also examines Google’s own stream of billions of search queries, which Mr. Singhal believes is an even better monitor of global enthusiasm about a particular subject.

As Google compiles its index, it calculates a number it calls PageRank for each page it finds. This was the key invention of Google’s founders, Mr. Page and Sergey Brin. PageRank tallies how many times other sites link to a given page. Sites that are more popular, especially with sites that have high PageRanks themselves, are considered likely to be of higher quality.

Mr. Singhal has developed a far more elaborate system for ranking pages, which involves more than 200 types of information, or what Google calls “signals.” PageRank is but one signal. Some signals are on Web pages — like words, links, images and so on. Some are drawn from the history of how pages have changed over time. Some signals are data patterns uncovered in the trillions of searches that Google has handled over the years.

“The data we have is pushing the state of the art,” Mr. Singhal says. “We see all the links going to a page, how the content is changing on the page over time.”

These signals and classifiers calculate several key measures of a page’s relevance, including one it calls “topicality” — a measure of how the topic of a page relates to the broad category of the user’s query. A page about President Bush’s speech about Darfur last week at the White House, for example, would rank high in topicality for “Darfur,” less so for “George Bush” and even less for “White House.” Google combines all these measures into a final relevancy score.

The sites with the 10 highest scores win the coveted spots on the first search page, unless a final check shows that there is not enough “diversity” in the results. “If you have a lot of different perspectives on one page, often that is more helpful than if the page is dominated by one perspective,” Mr. Cutts says. “If someone types a product, for example, maybe you want a blog review of it, a manufacturer’s page, a place to buy it or a comparison shopping site.”

Yahoo is now developing special search formulas for specific areas of knowledge, like health. Microsoft has bet on using a mathematical technique to rank pages known as neural networks that try to mimic the way human brains learn information.

Google’s use of signals and classifiers, by contrast, is more rooted in current academic literature, in part because its leaders come from academia and research labs. Still, Google has been able to refine and advance those ideas by using computer and programming resources that no university can afford.

“People still think that Google is the gold standard of search,” Mr. Battelle says. “Their secret sauce is how these guys are doing it all in aggregate. There are 1,000 little tunings they do.”

Muita informação interessante, confirmada pela própria Google. Para ler e reler algumas vezes.

Encontrando os links ideais

Saturday, June 2nd, 2007

É fato bem sabido que LINKS são elemento essencial no algoritmo de TODAS as Search Engines.

Outro fato, esse não tão sabido, é que os links não são todos iguais, ou melhor, nenhum link, no que se refere a peso nos rankings das SEs, é igual a outro. Vários webmasters ainda dão grande valor a PageRank para avaliar o valor de sites e páginas (e, conseqüentemente, ainda que de forma inconsciente, links); outros, de forma ainda mais simplista, dão valor simplesmente ao número de backlinks.

Desde há muito tempo, há diversos outros fatores que influenciam no valor de um link. O mais incontroverso (pois afirmado pela própria Google - ver item 2.2 da Anatomia da Google), mas ainda assim desconhecido, é o texto-âncora do link. Outros fatores são o conteúdo da página que contém o link, o TrustRank do site que contém o link, o posicionamento do link na página, etc.

Embore seja mencionado aqui por último, um dos fatores mais importantes é a vizinhança do link. Se sua página é sobre [bananas], um bom link é aquele que esteja em um site de uma vizinhança de sites que tratem de [bananas]. E será ainda melhor, se o link estiver numa página que seja uma autoridade (receba um grande número de links) ou um hub (aponte para outros sites relevantes) da vizinhança. E quanto mais desses links a sua página conseguir, mais relevante ela será para [bananas], e mais sua página subirá nos rankings para [bananas].

Esse gráfico simples explica muito bem a situação:

link-ideal.jpg

Cada ponto é uma página, cada traço é um link. Como elas se linkam porque têm um tópico em comum, elas formam uma vizinhança.
Veja que algumas páginas são aglutinadoras de links (são as autoridades da vizinhança); outras páginas são emissoras de links (são os hubs da vizinhança). Isso (a direção dos links) não está representada no esquema, mas a Google enxerga muito bem essas relações.

Atente para a página representada pelo ponto negro no meio do gráfico. Ela não é a que mais recebe links, e possivelmente não tem alto PR. Mas é essa página que recebe links (recebe votos) de diversos pontos distribuídos por toda a vizinhança. Provavelmente, é essa a página que as SEs elegerão como a mais relevante da vizinhança.

O trabalho de um SEO é conseguir que suas páginas estejam justamente naquele ponto negro.

O poder dos links: um caso prático

Thursday, May 31st, 2007

Deparei-me há pouco com esse post: http://www.brpoint.net/arquivo/blogs/ganhe-um-dominio-gratis.html (removi os links desse post, para não causar nenhuma influência no experimento abaixo).

O Bruno, webmaster do site brpoint.net, teve uma ótima idéia: está pagando o registro de um domínio por um ano para todos os webmasters que fizerem uma avaliação daquele site e incluírem dois links para o mesmo.

Os avaliadores têm o trabalho de examinar os pontos positivos e negativos do brpoint.net; em troca, ganham um ano de registro de domínio. O Bruno tem que pagar algo entre US$ 6 e US$ 12 por participante, mas em troca ganha não apenas uma avaliação (provavelmente imparcial) do seu site - e isso é importante para que se possa aprimorar o mesmo -, mas também (e principalmente) os links, que provavelmente melhorarão os rankings do brpoint nas diversas Search Engines. Uma situação em que todos ganham.

Espero que ganhemos também nós, estudiosos dos algoritmos.

Parece que o Bruno não vai ter problemas em conseguir os 200 links (2 de cada site, até um máximo de 100 sites). As regras que ele estipulou exigem que os links estejam em páginas indexadas na Google; além disso, foi exigido de todos os participantes que incluíssem nos respectivos sites um pequeno texto, o qual continha dois links.


Ganhe um domínio grátis.Basta participar da promoção
que está sendo realizada pelo BrPoint.

De novo, removi os links; veja o código-fonte para conferir o código dos links.

Ou seja, o post vai receber 100 links com a âncora ‘promoção’, e a homepage vai receber 100 links com a âncora ‘BrPoint’.

Minha intenção é ver o impacto que os links vão causar nos rankings do post e da homepage, para diversas palavras chave. Teria sido muito bom acompanhar o experimento desde o início, mas ainda podemos tirar várias conclusões.

O post do BrPoint foi criado em 16/5/2007; o Bruno já reconheceu 40 pares de links. Nesse momento (31/5, quase meia-noite), vejo o seguinte:

Na Google:

  • O post já é #1 (193.000 páginas) para [ganhe um domínio grátis], que é o Título da página; isso quer dizer que em quinze dias a página já foi indexada e ganhou um score considerável
  • O post é #17 (mostrando 10 resultados por página) para [domínio grátis], que é consideravelmente mais competitiva (2.180.000 páginas); a intenção é ver quanto ainda ela vai subir, com os links extras que ainda virão
  • O post já está na posição #56 para [promoção], que é altamente competitiva (21.800.000 páginas)
  • A homepage já é, evidentemente, #1 para brpoint (e também #2, para uma página de 12/03/2007, solicitando ajuda para o Aldemir - não vou colocar a URL porque poderia influenciar o ranking). Mas é interessante ver o que acontecerá com o ranking para outros termos: a homepage é #2 para [problogging] (a #1 é problogging.com); a homepage está em #700 (100 resultados por página) para a palavra [tecnologia] (91.800.000 páginas), que está no Título da página no cache da Google; para a palavra [promoção], ao redor da posição #163, há outra página do Brpoint com um FAQ, datada de 23/05/2007
  • Excelente: parece que de ontem para hoje o Título da homepage foi alterado de ‘BrPoint | Problogging, Tecnologia e Opinião’ para ‘BrPoint | Problogging, Dicas de Blog, SEO e Opinião’. Vamos ver o que vai acontecer então com os rankings para [tecnologia] (item anterior), [Dicas de Blog] e [SEO]. Hoje, para [dicas de blog], há uma página com dicas para o Adsense na posição #680; para [SEO], há dois links (100 resultados por SERP) do seo.brpoint.net nas posições #45/46 - uma sobre o-fim-do-seo e outra sobre yahoo-permite-nao-indexacao-de-parte-das-paginas (128.000.000 de páginas - estranhamente, há muitas páginas escritas em japonês nas primeiras posições << investigar); ao redor das posições #50/51, há duas páginas do www.brpoint.net - uma página sobre o seo-brasil-transferido e outra sobre seo-nao-confunda-alhos-com-bugalhos.Vamos acompanhar o que acontece nos próximos dias/semanas/meses.
  • Para [opinião], a homepage está em #121 (42.700.000 páginas)
  • No Cade.com.br:

  • o post já é #1 para [ganhe um domínio grátis] (47.200 páginas) e #9 para [domínio grátis] (3.930.000 páginas)
  • a homepage é #86 para [promoção], mas a palavra está na homepage; a página com FAQs da promoção é #146; o post em si não aparece entre os 1000 resultados apresentados (!!)
  • Para [problogging], a homepage é #1; para [tecnologia], a homepage é #249 (tecnologia está na página em cache); para [SEO], #25; para [dicas de blog], 159; para [opinião], #160.
  • No msn.com.br:

  • Para [ganhe um domínio grátis] (10.174 páginas), a primeira página está em #120, e é uma página interna em que se faz referência à promoção (ou seja, essa página tem mais peso do que o post sobre a própria promoção !!); para [domínio grátis], nem o post nem outra página aparecem entre os 1000 primeiros resultados
  • Para [problogging], a primeira página a aparecer é a página sobre wp-plugins, #180
  • Vamos acompanhar esses rankings, para ver o que ocorrerá nos próximos dias/semanas/meses.

    Atualização em 2 de julho: clique aqui.

    Patente da Google: uso de dados históricos

    Friday, May 25th, 2007

    Em dezembro de 2003, a Google registrou no escritório competente dos EUA a patente de um método chamado: Information retrieval based on historical data (Recuperação de informações baseada em dados históricos).

    O link para o texto original da patente está aqui. Um moderador da Webmasterworld iniciou um thread que teve 189 posts, aqui; e alguém fez uma análise dos itens mais relevantes da patente aqui.

    E por que essa patente foi tão discutida e comentada? Porque nela a Google revelou ao mundo que agora ela estava armazenando um histórico da web (incluindo versões passadas de páginas e links), e estava utilizando esse histórico para ordenar as páginas nas SERPs.

    No algoritmo original do Pagerank, a Google via a web como uma entidade estática: ela tirava uma fotografia da web, gerava uma espécie de gráfico (em que as páginas eram vértices, e os links eram arcos), e com base nesse gráfico calculava um atributo numérico (chamado PageRank) para cada página, o qual era utilizado para cômputo do score final da respectiva página para uma dada palavra de busca. A palavra importante nesse longo parágrafo é estática: não importava à Google como a web era há dois meses (antes que a Google tirasse a última fotografia); importava somente como a web era no momento da última ‘fotografia’.

    Com seu exército de Phds, a Google certamente percebeu duas coisas.

    Primeiro, se um link era um voto de confiança, faria sentido se se pudesse dar tanto mais peso a um voto quanto mais duradouro ele fosse; se a USP colocou um link para meu site há três anos e mantém o link até hoje, esse link indica maior confiança do que um link que foi colocado há apenas três meses (pois esse último pode muito bem ser removido antes de que atinja três anos).

    Segundo, e mais importante, essa “falta de memória” em relação aos links dava uma margem muito grande de ação aos manipuladores de links (spammers). Toda os eventos na vida do site ocorridos há mais de dois meses eram irrelevantes; só importava o que havia ocorrido no último mês. Era possível lançar um site hoje, comprar diversos links em páginas de alto PageRank e voilá: no próximo mês, lá estava o site no topo dos rankings. Isso significa que a posição nas SERPs, principalmente em setores de alta competitividade, dependia de dois fatores: conhecimento de SEO e dinheiro para comprar links.

    Isso mudou radicalmente, a partir do final de 2003 e início de 2004 (leia sobre update Florida).

    Desde então, a Google armazena não apenas o conteúdo das páginas e os respectivos links. A Google armazena dados históricos como, entre outras coisas: quando a página foi descoberta; quando um link foi descoberto e qual o respectivo texto-âncora; quando houve uma alteração na página ou nos links; qual a taxa de aumento ou diminuição no número de páginas ou links; etc, etc. De forma enigmática, a Google afirma que todos esses parâmetros podem ser usados no ordenamento, mas não informa como.

    Observem que isso tem um enorme custo computacional para a Google. Para o registro de cada página e link, a Google teve que criar, no mínimo, dois novos campos: data de descoberta e data da última alteração (para páginas com alterações freqüentes, o número de campos aumenta). E ainda pior: no cálculo dos rankings, o algoritmo teria que recuperar esses dados, fazer cálculos intermediários (envolvendo, no mínimo, a data atual e as datas históricas) e incorporar os resultados aos rankings. É um aumento considerável no índice.

    Isso, entretanto, deu à Google um enorme poder para combater os spammers. Como a Google armazena as datas (dos links, das páginas, das alterações, etc) e a Google controla o algoritmo de rankeamento, ela pode introduzir diversos parâmetros relacionados a idade, alterá-los, misturá-los, etc.; a Google pode fazer com que esses parâmetros variem de acordo com o setor, com o número de páginas indexadas para aquele setor, com o dinheiro gasto em Adwords naquele setor (uma das teorias conspiratórias mais comuns), com o número de pesquisas, etc. Isso tudo quer dizer, em suma, o seguinte: não é possível determinar o efeito que determinado link teve nos rankings.

    Antes, a situação era: compre um link daquela página PR7; veja qual foi o incremento de tráfego dentro de um mês; se o incremento de tráfego gerou mais lucro do que o custo do link, mantenha o link - caso contrário, cancele o link.

    Agora, a situação é: se você comprar um link, você não tem a menor idéia de se e quando ele fará efeito; se e quando suas páginas subirem nos rankings, você não saberá qual foi o link que causou a melhoria; mesmo que você identifique um possível candidato, você não sabe se em outras condições (a página sendo mais antiga, por exemplo) o efeito do link não seria diverso.

    Desde então, tornou-se cada vez mais difícil manipular a Google. A mensagem da Google ficou clara: concentre-se em fazer bons sites para os usuários, esqueça os artifícios. Sites antigos, que têm um histórico comprovado de apresentar conteúdo relevante a seus usuários (e, como conseqüência, um perfil de backlinks baseados em mérito) têm ocupado cada vez mais espaço no topo das SERPs.

    O que é TrustRank ?

    Wednesday, May 16th, 2007

    O que fez a Google o que ela é hoje foi o Pagerank.

    O PageRank de uma página era um número calculado pelo algoritmo da Google, proporcional ao PageRank das páginas que continham um link apontando para aquela página. Sim, o processo é recursivo; para saber o PR de uma dada página, eu tenho que saber o PR das outras páginas que linkam para ela; e para saber os PR das páginas que linkam para ela, eu tenho que saber os PRs das outras páginas que linkam para as páginas que linkam para ela, etc., etc..

    Alguns sites (nenhum em Português, que eu saiba), tentaram explicar os fundamentos matemáticos do PageRank. Cada página tinha então um PR, que era usado como fator de pontuação e rankeamento: após calcular o score parcial de uma página em função dos demais critérios de rankeamento (número de vezes que a palavra aparece no texto, uso de palavras similares, palavras em negrito, etc), tal score parcial era “ajustado” pelo PageRank da página.

    Para quem entende de banco de dados: o PR era apenas uma variável extra num banco de dados relacional; a pontuação era calculada como se o PR não existisse (pelos mesmos critérios que se empregavam antigamente: densidade de palavras, palavras no título, palavras em negrito, etc), e daí essa pontuação era multiplicada pelo valor da variável PR.

    Dado isso, era relativamente fácil melhorar o posicionamento de uma página: bastava aumentar o PageRank. E como aumentar o PageRank? Bastava conseguir links em outras páginas com alto PageRank (na verdade, qualquer página, desde que tivesse algum PageRank, servia). Para garantir resultados ainda melhores, devia-se pedir à página com link que adotasse como texto-âncora a palavra desejada. O processo era todo automatizado, dependendo inteiramente de algoritmos, e algoritmos não são capazes de julgar as intenções dos webmasters.

    Desde o update Flórida, no final de 2003, isso mudou. Hoje em dia, o TrustRank é muito mais importante do que o PageRank.

    Trust é a palavra em inglês para ‘confiança’. A Google quer ter confiança num link, antes de lhe conceder o poder de alavancar uma página. Veja o paper original sobre TrustRank. Traduzo um trecho do resumo: “Páginas de spam utilizam várias técnicas para obter rankings melhores do que os merecidos nas Search Engines. Embora humanos possam identificar spam, o processo de avaliação manual de um grande número de páginas fica muito caro. Em vez disso, nós propomos técnicas para, de forma semi-automática, separar as páginas boas e reputáveis daquelas de spam. Uma vez que páginas-semente reputáveis sejam manualmente identificadas, nós utilizamos a estrutura de links da web para identificar outras páginas que provavelmente são também reputáveis. Nesse paper nós discutimos algumas maneiras possíveis para implementar a identificação de páginas-semente e a descoberta de novas páginas confiáveis”.

    Ou seja, o processo deixou de ser automático. Com TrustRank, um ser humano deve identificar quais são as páginas de confiança (que são chamadas de seed pages, ou páginas-semente); a essas páginas é atribuído um valor de TrustRank. A partir daí, TrustRank transmite-se por links, tal qual PageRank; entretanto, enquanto PR era transferido pela simples existência de um link, o TR fala em ‘páginas que provavelmente são reputáveis’, ou seja, pode ser que não haja transferência de TR.

    Quais são as páginas-semente? O paper não os discrimina, mas informa que naquele experimento foram utilizados 7.900 sites (e não páginas). Isso parece (pelo menos para mim) um indicativo de que o TrustRank é atribuído a sites, e não páginas. Isso faz uma enorme diferença: uma vez o site tendo sido identificado como de alto TR, todas as suas páginas assim também o serão; não importa mais o PageRank da página, importa sim o TrustRank do site.

    E quais são esses sites escolhidos como semente, para começar a distribuir TrustRank? Quais sites mereceriam a confiança da Google?

    Aqui começam as hipóteses e discussões. Um site de Trust provavelmente preza pela relevância das informações que apresenta, bem assim como dos links (que devem ser vistos como informações complementares) que contém. Um site do governo americano, por exemplo, é, a princípio, de alta confiança. Em certa medida, também as Universidades americanas, que sabem perfeitamente que sua imagem será avaliada pela qualidade das páginas do seu site. Por isso, formou-se um consenso de que páginas .gov e .edu são de alto TR (e seus links são mais valiosos).

    Quais mais? Em geral, os sites em que é visível a necessidade de publicar conteúdo relevante. Sites de notícias (cnn, bbc), grandes empresas (ford, ibm, apple), grandes instituições (nasa, cruz vermelha, nature), etc. Uma coisa em comum entre sites de alto TR é que é difícil incluir um link nesses sites apenas pela vontade de terceiros; esses sites tomam a iniciativa de encontrar documentos de valor e linkar para eles.

    E quais sites não merecem confiança? Acho que há dois tipos.

    Primeiro, aqueles em que é possível criar um link, qualquer que seja a qualidade da página que recebe o link. Isso inclui, por exemplo, sites que permitem links anônimos, sites que promovem troca indiscriminada de links, sites que listem outros sites em troca de dinheiro.

    Segundo, não merecem confiança os sites que se envolvem com sites do primeiro grupo. Por exemplo, um site que tem cem links, noventa dos quais provenientes de sites de pouco Trust, provavelmente terá também baixo Trust.

    Resumo da questão: procure obter links de sites de alto Trust. É melhor obter UM link de harvard.edu, ainda que o PageRank seja PR1, do que obter dez links de diretórios a US$10 cada, ainda que todos tenham PR4.

    E como obter esses links de alto trust? Produza uma página que contenha tanta informação que seja tão relevante, que o webmaster do site de alto trust queira linkar para você.

    Qual o efeito de rel=nofollow ?

    Friday, May 11th, 2007

    Conformi escrevi nesse artigo, em janeiro de 2005 as três principais Search Engines do mercado, Google, Yahoo e msn se juntaram e criaram o atributo nofollow, que teria o propósito de informar a elas que o link NÃO deveria ser interpretado como um voto, e portanto não deveria trazer nenhum benefício à página para a qual o link apontasse.

    Passados mais de dois anos, será que alguma coisa mudou? Pelo menos no caso da Google, eu acho que sim.

    O nofollow foi criado quando o conceito de TrustRank estava incipiente (leia mais sobre TrustRank). O TrustRank mede a confiança que a Google tem em determinada página; se o TR (que, diferentemente do PageRank, a Google não informa) for alto, a Google tem tanto a página em si como os links nela contidos em alto conceito; se o TR for baixo, a Google não valoriza a página nem confia nos links nela contidos.

    Para mim, isso é quase equivalente a dizer que o nofollow é desnecessário.

    Nesse thread do blog do Matt Cutts, de 23 de janeiro de 2007, o Matt comenta sobre o fato de que a Wikipedia (site de altíssimo TrustRank), uma vez mais, resolveu adicionar nofollow a todos os seus links. Após o blá-blá-blá habitual, Matt escreveu: “I don’t expect this change to affect Google’s rankings very much, but it’s good to see the Wikipedia folks paying close attention to link spam”, ou seja “Eu não espero que essa mudança afete muito os rankings da Google, mas é bom ver que o pessoal da Wikipedia está prestando atenção ao link spam”.

    Isso faz muito sentido. A Google confia na Wiki (aliás, não apenas confia, como idolatra); prova disso é que a Wiki está na primeira página para várias [buscas]; essa confiança provém do excelente conteúdo da Wiki, dos milhões dos links legítimos que endossam a Wiki, e de sua política de auto-vigilância que suprime links de spam. A adição ou não de nofollow pouco deveria afetar a confiança da Google nos links da Wiki.

    Melhor que discutir hipóteses é tentar comprovar a tese.

    Peguemos um tema da Wiki em inglês sobre o qual tenhamos algum domínio, e que seja de média competitividade. Uma sugestão é escrever sobre tópicos referentes ao Brasil; isso faz com que nosso conhecimento sobressaia em relação ao contribuinte médio da Wiki, e por isso nossas contribuições (links externos) sejam mais facilmente aceitáveis.

    Por exemplo, tomemos um tópico como Clarice Lispector (750.000 páginas). Minha sugestão: escrevam uma página em inglês sobre a escritora com conteúdo de alta qualidade, que esteja dentro dos padrões da Wiki para constar como external link; façam com que esse link da Wiki seja o único link apontando para a página (ou seja, as melhorias de posição da página seriam devidas àquele link da Wiki, com nofollow). Observem a posição da página por alguns meses.

    Eu tenho feito algo similar com algumas páginas (NB: sem infringir nenhuma regra da Wiki). Minhas experiências mostram que links da Wiki ainda carregam muito valor.

    Um efeito do nofollow é assegurado: colocar ou removar nofollow manualmente mostra à Google, Y e msn que você sabe o que o nofollow faz; isso mostra que você tem alguma idéia do que seja SEO. Eu acho isso uma péssima idéia.

    Histórico de Busca X Anúncios Adsense

    Thursday, May 3rd, 2007

    Desde já há alguns meses, é possível fazer pesquisas na Google estando logado como usuário Google; nesse caso, o email do usuário é mostrado no canto superior direito da página de respostas. Ao se fazer pesquisas como usuário ativo, está-se informando à Google quais pesquisas foram feitas por aquele usuário.

    Há umas duas semanas, a Google divulgou o primeiro efeito dessa mudança para o usuário: é possível (na versão em inglês) visualizar o histórico de suas pesquisas (quais palavras foram pesquisadas, quais sites foram visitados, quantas vezes, em que horário, etc) e fazer alguns relatórios.

    Eu pessoalmente não me entusiasmei muito com esses ’serviços’, mas desde logo ficou claro para mim que a Google certamente usuaria esses dados para personalizar as SERPs. Por exemplo, se vc. faz muitas pesquisas por [lula] e visita apenas sites sobre o molusco (receitas, criação, etc), seria de se esperar que após algum tempo a Google parasse de exibir sites sobre o Presidente.

    Isso aparentemente ainda não está acontecendo, mas alguns membros do Webmasterworld lançaram a hipótese de que os anúncios do Adsense estariam sendo mostrados de acordo com os hábitos do visitante (ver aqui). Por exemplo, diz um membro, se o usuário é piloto de avião, e faz constates pesquisas por temas relacionados à aviação, o Adsense pode mostrar anúncios sobre aviação, mesmo quando o usuário visita páginas que não estão relacionadas com aviação.

    É outra tentativa da Google de mostrar anúncios que tenham maior chances de serem clicados. A se acreditar na afirmação da Google, de que eles fazem o possível para aumentar o retorno dos publishers, a idéia pode ter um impacto positivo. A verificar.

    Qual a importância atual do PageRank?

    Wednesday, May 2nd, 2007

    Foi graças ao PageRank que a Google assumiu a supremacia dentre as SEs (leia mais sobre a Google e esse breve histórico das máquinas de busca). Entretanto, desde o início, já se sabia que o Pagerank apresentava vulnerabilidades; já em 2004, a Google havia implementado algumas medidas para combater os manipuladores de PageRank. Novas técnicas estavam em discussão à época: o Hilltop combatia os links afiliados, e a interpretação semântica procurava melhor interpretar o sentido das páginas.

    Muita coisa mudou desde então.

    Cito, resumidamente, o que considero as mudanças mais significativas. Futuramente, pretendo fazer comentários mais detalhados.

    • a Google introduziu o TrustRank (essa página da SEW contém links para o paper original, em PDF). Com PageRank, o objetivo era conseguir links; qualquer link servia, desde que não estivesse em um site listado em uma lista negra; com o TrustRank, o jogo se inverte: um link tem valor somente se estiver em uma página listada em uma lista branca. Evidentemente, essa é uma explicação simplificada, mas a idéia é essencialmente essa: o valor de um link é proporcional à confiança (e não ao PageRank) que a Google deposita no documento que contém o link. Leia mais sobre Trustrank.
    • a Google tornou-se capaz de analisar o histórico de páginas, sites e links (veja a análise detalhada feita pela SeoMoz). Isso quer dizer que a Google não apenas conhece o conteúdo de uma página e dos respectivos links, mas conhece também há quanto tempo o conteúdo e os links existem, e com que freqüência foram modificados. Ao incorporar essas informações ao algoritmo, a Google tornou muito mais difícil a avaliação do efeito de um link.
    • A Google certamente aprofundou-se na análise da interação entre os usuários e as páginas. Um documento é relevante para a Google se ele for útil para os usuários da Google. A Google pode medir indiretamente a satisfação do usuário com um documento de diversas formas: se o documento atende às pesquisas; quanto tempo o usuário fica na página; quantas páginas do mesmo site o usuário visita; quantos links da página ele segue; etc. Esse documento com uma recente patente da Google afirma claramente que um novo método, que leva em conta desde a pesquisa (”receiving a search query”) até a identificação de dados geográficos do usuário, estava em vias de ser implementado.

    Isso significa que a antiga prática (que funcionou até o final de 2003, quando veio o famoso Florida update) de obter (ganhando, comprando, subornando, implorando, etc) links em qualquer página de alto PageRank, para que o seu próprio PageRank aumente, e em conseqüência seus rankings melhores, não funciona mais.

    Isso quer dizer, como alguns advogam (por exemplo, Martinibuster), que o PageRank não serve para mais nada?

    Eu acho que TrustRank hoje vale muito mais do que PageRank. O problema é que não existe uma barra de TR. E eu tenho observado que a barra de PR é, sob certas circunstâncias, um bom indicador de TR.

    Por exemplo, sites que, no passado, haviam obtido links ‘questionáveis’ e catapultado seu PR hoje tem PR mais realista (= mais baixo). Por outro lado, os sites inquestionavelmente de alto Trust (.edu, .gov, wiki, yahoo, etc) continuam com o habitual PR8, PR9, PR10.

    O que eu faço, no tocante a análise de PR/TR? Procuro obter links de sites de alto PR (em geral o mais alto PR está na homepage), o que indica que o site tem alto TR; ignoro o PR da página em que o link será colocado. Por exemplo, é melhor obter um link em uma página PR1 da usp.br do que obter um link na homepage PR4 de um blog do seu primo.

    Google atualiza PageRank

    Tuesday, May 1st, 2007

    A Google está atualizando o Pagerank das páginas armazenadas no seu índice.

    Afora um ou outro thread nos forums (como esse, por exemplo), comentando superficialmente o assunto, não se vê muita agitação entre os SEOs. O Pagerank (que alguns estão atualmente chamando de TBPR, ou Tool Bar Page Rank, o Pagerank que se vê na barra de ferramentas da Google, e que não necessariamente seria igual ao real PageRank, efetivamente utilizado para ordenar páginas) foi atualizado pela última vez há uns quatro meses, e provavelmente só será atualizado novamente dentro de uns quatro meses.

    E por que esse desinteresse pelo PageRank?

    Primeiro, porque há muito tempo que já não se observa sincronismo entre alterações no PR e alterações efetivas nos rankings; segundo Matt Cutts, as eventuais mudanças de ranking derivadas do novo PR já foram há tempos incorporadas aos rankings. Nos tempos da Google Dance, as atualizações de PR, que ocorriam aproximadamente uma vez por mês, eram muito aguardadas: quando se atualizava o PR, o ranking era também (muitas vezes, radicalmente) atualizado, e assim permanecia até a atualização seguinte.

    Segundo, e principalmente, porque o Pagerank perdeu o peso que costumava ter no algoritmo. Há alguns anos, um aumento de PR certamente significava uma melhoria nos rankings; hoje em dia, é comum encontrar sites que aumentam o PR mas não melhoram os rankings (ou, pior, perdem algumas posições), bem como é comum encontrar casos em que um PR1 supera um PR5 ou PR6 para uma mesma pesquisa.

    Algumas pessoas afirmam que o Pagerank tornou-se irrelevante (ver Pagerank is dead no Google); não concordo, e tratarei disso em outro post.