Archive for June, 2007

O que são técnicas black hat?

Friday, June 29th, 2007

Alguns blogs discutem se técnicas como otimizar <title>, utilizar headers (h1, h2, etc), utilizar palavras-chave, escrever para ganhar links (!), etc são ou não técnicas black hat.

Minha opinião: um verdadeiro black hat daria risadas dessas comparações.

Tornar o site acessível e compreensível para os bots é o objetivo dos webmasters. Utilizar tags que estruturem a página, utilizar links de navegação que estruturem o site, utilizar headers e palavras que expressem o tópico da página ou site, tudo isso são técnicas não apenas aceitas, mas estimuladas pelas maiores Search Engines.

O que faz, então, um black hat? O black hat explora técnicas e vulnerabilidades que enganam os bots e os algoritmos. Um bom black hat tem profundos conhecimentos de redes, programação, servidores, algoritmos, etc.; ele estuda o conjunto, olha por outros ângulos, faz experimentos e descobre as vulnerabilidades.

Quais seriam exemplos de técnicas black hat?

NOTA: eu não sou um black hat. Black hats sabem que suas técnicas durarão pouco (até que as SEs as descubram, ou até que alguém as denuncie); eu prefiro criar sites duradouros. Mas algumas técnicas black hat tornaram-se públicas, e eu tomei conhecimento. Não estimulo nenhuma técnica black hat; menciono nesse blog alguns exemplos para fins puramente didáticos, eis que as vulnerabilidades mencionadas já foram detectadas e corrigidas pelas SEs.

Primeiro exemplo: Redirecionamento 302. Essa técnica foi muito discutida há uns 3 anos. Um redirecionamento é feito para se informar aos bots que a página que ele busca está em outro local. Se o redirecionamento for permanente (ou seja, a página buscada foi mudada para outro local e não retornará), o servidor informa ao bot o novo local e passa o código 301. Se o redirecionamento for temporário (ou seja, a página buscada está em outro local, mas logo retornará ao local que o bot está buscando), o servidor informa ao bot o novo local e passa o código 302. Leia esses comentários sobre redirecionamento.

Como funcionava a técnica? A técnica funcionava apenas porque o PageRank tinha altíssimo peso no algoritmo (o que não mais ocorre; veja quais fatores de ranking são mais importantes hoje). Suponhamos que eu tenha uma página sobre um tópico qualquer com alto PR (digamos, PR6). Suponhamos que eu veja uma página com bons rankings para uma palavra que eu queira, e que tenha um PR menor (digamos, PR3).

Note que o tópico dessa página-vítima não tem nada a ver com minha PR6; meu único interesse é capturar os rankings daquela página, que eu sei que me geraria dinheiro. Caso prático, para elucidar: eu criava um site sobre ‘futebol’, comprava links, e tinha centenas de páginas PR6; eu via uma página sobre ‘remédios para emagrecer’ com PR3 que aparecia na primeira página da Google; eu sei que visitantes interessados em ‘remédios para emagrecer’ geralmente gastam dinheiro online, e por isso eu vou tentar capturar aquela página.

Como fazer? Quando o bot da Google requisitar minha página sobre ‘futebol’, eu digo ao bot que houve um redirecionamento temporário (cabeçalho 302) e passo ao bot o endereço da página sobre ‘remédios’. O bot pensará: “hmm, esse conteúdo está temporariamente nessa página de PR3, mas retornará brevemente para aquela página de PR6; como a página de PR6 é muito mais relevante do que a página de PR3, então eu vou atribuir esse ranking para a página de PR6″.

E voilá: a cada vez que alguém pesquisasse por ‘remédios para emagrecer’, em vez de mostrar a página PR3, a Google se lembraria do redirecionamento e mostraria a página PR6; o dono da PR6, o black hat, colocaria anúncios sobre ‘remédios para emagrecer’ em sua página sobre ‘futebol’ e, provavelmente, ganharia algum dinheiro às custas do white hat. Veja que esse é um exemplo específico, mas em geral os black hats atuam de forma genérica: criam milhares de páginas, capturam outras milhares (um pouco de script ajuda a selecionar os nichos e páginas mais lucrativas)

Problema: e quando um usuário enviado pela Google requisitasse a página PR6? Ele não deveria ser redirecionado para a PR3? Não. Aqui entra uma técnica chamada cloaking.

O cloaking consiste em servir diferentes páginas a diferentes usuários (o nome técnico de usuários é User Agent). Se o User Agent for um navegador como o Internet Explorer ou Firefox, sirva uma página. Se o User Agent for um bot, sirva o redirecionamento. Praticamente todas as técnicas black hat utilizam cloaking. É por isso que a Google expressamente condena o uso de cloaking.

Como se vê, Black Hat não é coisa para amadores.

SEO.com é vendido por US$ 5 milhões

Wednesday, June 20th, 2007

O domínio SEO.com foi vendido por US$ 5 milhões; ver notícia em inglês aqui.

Para comparar: o domínio poker.com foi vendido recentemente por US$ 1 milhão, e o porn.com foi vendido por US$ 9 milhões (ver aqui); isso significa que o comprador enxerga muito mais valor no mercado de SEO do que no mercado de poker online, e quase tanto quanto no mercado para adultos.

Interessante é que mesmo entre webmasters o valor causou enorme surpresa; nesse thread, que foi iniciado um mês antes da venda (quando já havia rumores de que o domínio seria negociado), as estimativas iniciais variavam de US$ 20 mil a uns US$ 100 mil, com maior concentração na faixa dos US$ 50 mil.

O novo comprador certamente acredita num enorme crescimento do mercado de SEO. E eu concordo com ele.

De certa forma, a internet está ainda nos primórdios (compare-se, por exemplo, os 10 anos de internet comercial com os 70 anos de televisão comercial), as Search Engines são ainda novas, e as técnicas de SEO são praticamente desconhecidas.

Num futuro não distante, os SEOs serão tão conhecidos (e indispensáveis) como os profissionais de marketing de hoje.

New York Times escreve sobre a Google

Monday, June 4th, 2007

Um jornalista do New York Times foi autorizado a participar de uma reunião entre os engenheiros responsáveis pelo Controle de Qualidade dos Resultados na Google. O texto do jornalista está aqui. Matt Cutts, um dos engenheiros da Google responsáveis pela Qualidade dos resultados, comentou a reportagem aqui, e disse “in my opinion it does a good job of describing search quality at Google.”

O post do Matt é permanente, mas o artigo do NYTimes deve tornar-se ‘apenas para assinantes’ em breve. Abaixo, alguns trechos do artigo:

Online stores, he notes, find that a quarter to a half of their visitors, and most of their new customers, come from search engines. And media sites are discovering that many people are ignoring their home pages — where ad rates are typically highest — and using Google to jump to the specific pages they want.

“Google has become the lifeblood of the Internet,” Mr. Battelle says. “You have to be in it.”

….

Some complaints involve simple flaws that need to be fixed right away. Recently, a search for “French Revolution” returned too many sites about the recent French presidential election campaign — in which candidates opined on various policy revolutions — rather than the ouster of King Louis XVI. A search-engine tweak gave more weight to pages with phrases like “French Revolution” rather than pages that simply had both words.

At other times, complaints highlight more complex problems. In 2005, Bill Brougher, a Google product manager, complained that typing the phrase “teak patio Palo Alto” didn’t return a local store called the Teak Patio.

So Mr. Singhal fired up one of Google’s prized and closely guarded internal programs, called Debug, which shows how its computers evaluate each query and each Web page. He discovered that Theteakpatio.com did not show up because Google’s formulas were not giving enough importance to links from other sites about Palo Alto.

It was also a clue to a bigger problem. Finding local businesses is important to users, but Google often has to rely on only a handful of sites for clues about which businesses are best. Within two months of Mr. Brougher’s complaint, Mr. Singhal’s group had written a new mathematical formula to handle queries for hometown shops.

…THE QDF solution revolves around determining whether a topic is “hot.” If news sites or blog posts are actively writing about a topic, the model figures that it is one for which users are more likely to want current information. The model also examines Google’s own stream of billions of search queries, which Mr. Singhal believes is an even better monitor of global enthusiasm about a particular subject.

As Google compiles its index, it calculates a number it calls PageRank for each page it finds. This was the key invention of Google’s founders, Mr. Page and Sergey Brin. PageRank tallies how many times other sites link to a given page. Sites that are more popular, especially with sites that have high PageRanks themselves, are considered likely to be of higher quality.

Mr. Singhal has developed a far more elaborate system for ranking pages, which involves more than 200 types of information, or what Google calls “signals.” PageRank is but one signal. Some signals are on Web pages — like words, links, images and so on. Some are drawn from the history of how pages have changed over time. Some signals are data patterns uncovered in the trillions of searches that Google has handled over the years.

“The data we have is pushing the state of the art,” Mr. Singhal says. “We see all the links going to a page, how the content is changing on the page over time.”

These signals and classifiers calculate several key measures of a page’s relevance, including one it calls “topicality” — a measure of how the topic of a page relates to the broad category of the user’s query. A page about President Bush’s speech about Darfur last week at the White House, for example, would rank high in topicality for “Darfur,” less so for “George Bush” and even less for “White House.” Google combines all these measures into a final relevancy score.

The sites with the 10 highest scores win the coveted spots on the first search page, unless a final check shows that there is not enough “diversity” in the results. “If you have a lot of different perspectives on one page, often that is more helpful than if the page is dominated by one perspective,” Mr. Cutts says. “If someone types a product, for example, maybe you want a blog review of it, a manufacturer’s page, a place to buy it or a comparison shopping site.”

Yahoo is now developing special search formulas for specific areas of knowledge, like health. Microsoft has bet on using a mathematical technique to rank pages known as neural networks that try to mimic the way human brains learn information.

Google’s use of signals and classifiers, by contrast, is more rooted in current academic literature, in part because its leaders come from academia and research labs. Still, Google has been able to refine and advance those ideas by using computer and programming resources that no university can afford.

“People still think that Google is the gold standard of search,” Mr. Battelle says. “Their secret sauce is how these guys are doing it all in aggregate. There are 1,000 little tunings they do.”

Muita informação interessante, confirmada pela própria Google. Para ler e reler algumas vezes.

Encontrando os links ideais

Saturday, June 2nd, 2007

É fato bem sabido que LINKS são elemento essencial no algoritmo de TODAS as Search Engines.

Outro fato, esse não tão sabido, é que os links não são todos iguais, ou melhor, nenhum link, no que se refere a peso nos rankings das SEs, é igual a outro. Vários webmasters ainda dão grande valor a PageRank para avaliar o valor de sites e páginas (e, conseqüentemente, ainda que de forma inconsciente, links); outros, de forma ainda mais simplista, dão valor simplesmente ao número de backlinks.

Desde há muito tempo, há diversos outros fatores que influenciam no valor de um link. O mais incontroverso (pois afirmado pela própria Google - ver item 2.2 da Anatomia da Google), mas ainda assim desconhecido, é o texto-âncora do link. Outros fatores são o conteúdo da página que contém o link, o TrustRank do site que contém o link, o posicionamento do link na página, etc.

Embore seja mencionado aqui por último, um dos fatores mais importantes é a vizinhança do link. Se sua página é sobre [bananas], um bom link é aquele que esteja em um site de uma vizinhança de sites que tratem de [bananas]. E será ainda melhor, se o link estiver numa página que seja uma autoridade (receba um grande número de links) ou um hub (aponte para outros sites relevantes) da vizinhança. E quanto mais desses links a sua página conseguir, mais relevante ela será para [bananas], e mais sua página subirá nos rankings para [bananas].

Esse gráfico simples explica muito bem a situação:

link-ideal.jpg

Cada ponto é uma página, cada traço é um link. Como elas se linkam porque têm um tópico em comum, elas formam uma vizinhança.
Veja que algumas páginas são aglutinadoras de links (são as autoridades da vizinhança); outras páginas são emissoras de links (são os hubs da vizinhança). Isso (a direção dos links) não está representada no esquema, mas a Google enxerga muito bem essas relações.

Atente para a página representada pelo ponto negro no meio do gráfico. Ela não é a que mais recebe links, e possivelmente não tem alto PR. Mas é essa página que recebe links (recebe votos) de diversos pontos distribuídos por toda a vizinhança. Provavelmente, é essa a página que as SEs elegerão como a mais relevante da vizinhança.

O trabalho de um SEO é conseguir que suas páginas estejam justamente naquele ponto negro.