Lembrei-me do caso Buscapé quando vi esse post. Nele, o autor fala das maneiras como os links dos afiliados para o site destino (no caso, o Buscapé; o site original fala em merchants, que é a entidade que vende os produtos; o Buscapé é algo como um intermediário entre os afiliados e os merchants) podem ser configurados.
A maneira mais simples, que é a adotada pelo Buscapé, é colocar um link direto, sem redirecionamento, como:
http://busca.busc*pe.com.br/cprocura?lkout=1&site_origem=123&produto=DVD
Nesse caso, o Buscapé cria uma página para cada afiliado; cada afiliado envia tráfego para sua página alvo, que será diferente das demais apenas no que tange ao parâmetro site_origem. Todas essas páginas terão idêntico conteúdo, apesar de terem URLs ligeiramente diferentes. A Google vai filtrar as páginas repetidas, e exibir a que julgar mais relevante; e qual será essa? será provavelmente aquela que recebeu um link do afiliado mais relevante.
Nesse tipo de página, não ocorre redirecionamento. A página entregue pelo servidor http é exatamente a página requerida pelo navegador. Para indicar essa situação, o servidor http envia junto com a página um header de código 200; essa página tem uma ferramenta que faz um header check.
Outras maneiras de se implementar o link de afiliados fazem uso de redirecionamentos, implementados no servidor http. Por essa técnica, o que acontece é o seguinte: 1) o afiliado envia o visitante para uma URL do merchant, contendo o código do afiliado; 2) o servidor do merchant coloca um cookie na máquina do visitante, e partir daí qualquer transação do visitante é (ou deveria ser) associada ao afiliado; 3) o servidor redireciona o visitante para uma outra página do site, com o conteúdo que o visitante deseja. Nessa situação, os bots também seguem os redirecionamentos, e portanto apenas enxergam a página final (após o redirecionamento); por isso, não há como haver indexação de páginas duplicadas.
Há dois tipos de redirecionamentos: 1) redirecionamento temporário: informa aos user agents (que incluem os navegadores e os bots) que a página destino é temporária, e que o conteúdo da página destino em algum momento retornará para a página sendo redirecionada; o bot provavelmente vai indexar a página sendo redirecionada; o servidor http envia o código 302 para sinalizar essa situação; 2) redirecionamento permanente: informa aos user agents que o redirecionamento é permanente; o conteúdo da página final é o que deve ser levado em conta; os bots, nesse caso, vão indexar a página final.
Abre parênteses. Durante algum tempo, os black hats utilizaram essas propriedades do redirecionamento temporário (header 302) para roubar rankings de outras páginas; escreverei sobre isso em outro post (atualização: leia mais sobre essa técnica black hat). Fecha parênteses.
O autor do post sugere aos merchants que adote o redirecionamento permanente (301). Com isso, não apenas se evitaria a indexação de páginas de conteúdo repetido, como se teria a vantagem de que a única página indexada seria a do merchant (sem códigos de afiliados) e mais, todos os afiliados estariam contribuindo para o ranking daquela página específica. Para o visitante, a única diferença é que ele não veria aquela URL enorme na barra de navegação.
As desvantagens seriam apenas dos afiliados (e o autor do post chama a atenção para esse ponto): além de depender do cookie do merchant (se a máquina do visitante não aceitasse cookies, o afiliado perderia a venda; o redirecionamento ocorre de qualquer maneira, gerando negócios para o merchant), o afiliado estaria sendo usado para alavancar o ranking do merchant.
O Buscapé tomou a pior decisão de todas: não utilizou redirecionamentos (os quais teriam evitado a confusão desde o início), e após ver a indexação de páginas de afiliados, em vez de premiá-los, resolveu puni-los.