Sites de Busca

Básico

Google
Yahoo!
msn
dmoz

Outras SEs

Mais Info

Aprimorando o índice

Na seção anterior, vimos um modelo básico de índice invertido; nesse modelo básico, para cada palavra do Lexicon, armazenamos tão somente os documentos (docIDs) em que ocorrem e as respectivas posições no texto.
Para aumentar as potencialidades do índice invertido, as Search Engines armazenam muito mais informações. Por exemplo, pode-se criar um campo para indicar que determinada palavra foi escrita em negrito ou itálico e, portanto, teria mais destaque do que o restante do texto (o campo armazenaria o valor "1" para palavras em negrito ou itálico, e "0" para as demais"). No exemplo anterior, a primeira ocorrência da palavra "ferramentas" está em negrito, e as restantes em texto normal; assim, o registro dessa palavra (wordID=#0002) ficaria:
wordID Hits
(...) (...)
#0002 (E29A, 2, 1); (E29A, 12, 0); (E29A, 14, 0); (390A, 310, 0)
(...) (...)

De maneira análoga, as Search Engines adicionam outros campos a seus índices, para agregar informações que considerem relevantes para formação dos rankings; exemplos: ocorrência de palavras em cabeçalhos HTML (h1, h2, etc); tamanho das fontes; ocorrência de palavras em locais estratégicos das páginas, como título (texto entre [title] e [/title]) e nos textos-âncoras dos links.

A Google considera esses dois últimos itens (palavras-chave no título e nos textos-âncora) tão importantes, que criou índices específicos para registrá-los; no paper original da Google, os autores fazem distinção entre "fancy hits" (que ocorrem apenas no título e nos links) e "plain hits" (que ocorrem em todo o restante do texto). Esses índices são os pesquisados quando usuários fazem consultas com os comandos "allinanchor:keyword" e "allintitle:keyword".
Assim, os índices dependem basicamente de dois fatores: das páginas que foram descobertas (trabalho dos bots) e dos elementos que as SEs considerem relevantes para formação dos rankings (ou seja, do algoritmo de ordenamento).

Uma vez indexadas as páginas, o próximo paso é atender as consultas dos usuários.