Sites de Busca
Básico
Google
Yahoo!
msn
dmoz
Outras SEs
Mais Info
|
Para apresentar uma lista de páginas ao usuário final, as Máquinas de Busca executam previamente uma série ordenada de funções:
Descobrir as páginas. Isso pode ser feito de duas formas:
1) por meio de um esquema de submissão de páginas ou sites; por exemplo, páginas podem ser submetidas à Google nessa página: http://www.google.com/addurl.html . A submissão de sites é mais comumente realizada perante diretórios; embora alguns diretórios listem sites espontaneamente (ou seja, editores vasculham a web em busca de sites de destaque, que mereçam figurar nos diretórios), a maioria dos sites listados é decorrente de submissões.
2) por meio de um rastreamento da web, executado por cada uma das SEs; em inglês, o nome desse processo é crawling (crawl significa rastejar). O processo é executado por programas chamados bots, robots, crawler ou spiders; cada bot é na verdade um User Agent, que requisita páginas aos servidores web. Além de baixar, interpretar e armazenar as páginas para uso futuro, os bots conseguem extrair links (URIs) nelas contidos; tais links são armazenados, e futuramente são visitados. Dessa forma, se uma nova página for referenciada por outra que já esteja no banco de dados da SE, ela pode vir a ser descoberta, ainda que nunca tenha sido submetida.
Indexar as páginas.
Os bots têm, por si só, uma capacidade razoável de interpretar as páginas que recuperam; se o bot julgar que determinada página é válida (por critérios determinados pelas SEs), a página será armazenada em algum reservatório.
Entretanto, a simples armazenagem das páginas não é suficiente, para os propósitos das Search Engines; a fim de facilitar o trabalho dos algoritmos de rankeamento, é necessário que o conteúdo das páginas seja armazenado de forma organizada, na forma de índices. Vários índices são criados, cada um com um conjunto diferente de informações sobre as páginas armazenadas.
Para cada página indexada, podem armazenadas informações como: palavras contidas na página; palavras no título, no corpo, nos links, etc; URI do domínio; etc. Como essas informações têm por objetivo final o rankeamento das páginas, é evidente que cada SE definirá um conjunto diferente de dados a serem armazenados; por exemplo, no caso da Google, há índices que armazenam o PageRank da página e informações referentes às âncoras dos textos que apontam para a página (leia mais em
como a Google funciona).
Apresentar resultados aos usuários.
Quando recebe uma rquisição de pesquisa, as SEs devem:
1) interpretar os termos da pesquisa. A pesquisa pode ser um comando (por exemplo, link:http://www.dominio.com.br no caso da Google), pode conter operadores booleanos, pode conter palavras que devem ser tratadas de forma especial
2) identificar, levando em conta as informações contidas nos índices, quais páginas são relevantes para a pesquisa; atribuir, também levando em conta os índices, uma pontuação (ranking) a cada uma das páginas
3) criar uma página HTML listando os sites por ordem de ranking, e enviá-la para o browser do usuário.
Esse último item 2 acima sintetiza grande parte do trabalho dos SEOs: determinar quais fatores influenciam o rankeamento de páginas e, dentro esses, quais são os mais importantes.
|
|