Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Análise Semântica

Embora as Search Engines indexem cada uma das palavras presentes em um texto, elas não costumavam fazer análises semânticas, ou seja, não procuravam interpretar o significado do conjunto de palavras.
Por exemplo, uma página que contivesse unicamente o texto e link "Essa página traz informações relevantes sobre a compra e venda de imóveis - Clique Aqui" poderia ter uma pontuação menor do que outra que exibisse o texto "Imóveis apartamentos compra venda barato apartamentos imóveis casas especialista - Clique Aqui", muito embora esta seja claramente uma tentativa de se manipular os rankings por meio de repetição de palavras-chave, enquanto aquela pareça ser uma fonte mais confiável de informações.
Para combater esse tipo de distorções, há sinais de que a Google (assim como outras SEs) esteja implementando técnicas de análise semântica.

Há alguns anos, a Google adquiriu a Applied Semantics, uma empresa focada exatamente na aplicação de estudos semânticos à recuperação de dados na web; não por coincidência, pouco tempo após a aquisição da Applied Semantics a Google lançou o Adsense, que se fulcra exatamente na análise do contexto semântico de uma página para escolher um anúncio que seja relacionado com o tema da página.
Outro indício de que a Google tem incorporado análise semântica ao algo é que Krishna Bharat, hoje pesquisador sênior da Google, principal responsável pela concepção do algoritmo Hilltop, tem também interesse por esse tópico. Bharat foi co-autor de um paper, apresentado na 9a. Conferência WWW em 2000, chamado The Term Vector Database: fast access to indexing terms for Web pages.

O tema é, evidentemente, complicado. Abaixo, segue uma discussão bastante simplificada.