|
Sites de Busca
Básico Yahoo! msn dmoz Outras SEs Mais Info |
Aprimorando o índiceNa seção anterior, vimos um modelo básico de índice invertido; nesse modelo básico, para cada palavra do Lexicon, armazenamos tão somente os documentos (docIDs) em que ocorrem e as respectivas posições no texto.
De maneira análoga, as Search Engines adicionam outros campos a seus índices, para agregar informações que considerem relevantes para formação dos rankings; exemplos: ocorrência de palavras em cabeçalhos HTML (h1, h2, etc); tamanho das fontes; ocorrência de palavras em locais estratégicos das páginas, como título (texto entre [title] e [/title]) e nos textos-âncoras dos links. A Google considera esses dois últimos itens (palavras-chave no título e nos textos-âncora) tão importantes, que criou índices específicos para registrá-los; no paper original da Google, os autores fazem distinção entre "fancy hits" (que ocorrem apenas no título e nos links) e "plain hits" (que ocorrem em todo o restante do texto). Esses índices são os pesquisados quando usuários fazem consultas com os comandos "allinanchor:keyword" e "allintitle:keyword". Assim, os índices dependem basicamente de dois fatores: das páginas que foram descobertas (trabalho dos bots) e dos elementos que as SEs considerem relevantes para formação dos rankings (ou seja, do algoritmo de ordenamento). Uma vez indexadas as páginas, o próximo paso é atender as consultas dos usuários. |