O que é um web crawler? | Como funcionam os spiders da internet

Um web crawler, ou spider, ou rastreador da internet, é um tipo de bot que normalmente é operado por mecanismos de busca, como Google e Bing. Seu objetivo é indexar o conteúdo de sites em toda a internet, para que esses sites possam aparecer nos resultados dos mecanismos de busca.

Share facebook icon linkedin icon twitter icon email icon

Web Crawler

Objetivos de aprendizado

Depois de ler este artigo você será capaz de:

  • Saiba o que é um bot rastreador da internet (ou spider)
  • Entenda como um web crawler escolhe quais páginas rastrear
  • Explique a diferença entre rastreamento da internet e raspagem da internet
  • Investigue se o rastreamento da internet deve ou não ser permitido em qualquer página específica de um site

O que é um bot rastreador da internet?

Um web crawler, spider ou bot de mecanismo de busca, baixa e indexa conteúdo de todas as partes da internet. O objetivo de um bot desse tipo é detectar do que se tratam (quase) todas as páginas da internet para que as informações possam ser recuperadas quando necessário. São chamados de "web crawlers" porque "crawling", em inglês, é o termo técnico para o acesso automático a um site e a obtenção de dados por meio de um software.

Esses bots são quase sempre operados pelos mecanismos de busca. Ao aplicar um algoritmo de busca aos dados coletados pelos web crawlers, os mecanismos de busca podem fornecer links relevantes em resposta às consultas de busca do usuário, gerando a lista de páginas da internet que aparecem depois que um usuário digita um termo de busca no Google ou no Bing (ou outro mecanismo de busca).

Um bot rastreador, ou web crawler, é como uma pessoa que pega todos os livros de uma biblioteca desorganizada e os coloca nos cartões de um catálogo de modo que todos os que visitam a biblioteca possam encontrar rapidamente e com facilidade a informação necessária. Para ajudar a categorizar e classificar os livros da biblioteca por tópico, o organizador lê o título, o resumo e parte do texto de cada livro para descobrir do que se trata.

No entanto, ao contrário de uma biblioteca, a internet não é composta de pilhas físicas de livros, o que torna difícil saber se todas as informações necessárias foram indexadas corretamente ou se grandes parcelas das mesmas estão sendo ignoradas. Para tentar encontrar todas as informações relevantes que a internet oferece, um bot rastreador da internet começará com um determinado conjunto de páginas conhecidas e seguirá os hiperlinks dessas páginas para outras páginas, os hiperlinks dessas outras páginas para mais páginas e assim por diante.

Não se sabe que parcela da internet disponível para o público é realmente rastreada pelos bots de mecanismos de busca. Algumas fontes estimam que apenas 40-70% da internet são indexados para as buscas — e isso representa bilhões de páginas da internet.

O que é indexação de busca?

Indexar uma busca é como criar um catálogo de cartões de uma biblioteca para a internet, para que um mecanismo de busca saiba em que local da internet poderá recuperar informações quando uma pessoa a procura. Também pode ser comparado ao índice remissivo na parte de trás de um livro, que lista todos os lugares do livro em que um determinado tópico ou frase são mencionados.

A indexação se concentra principalmente no texto que aparece na página e nos metadados* relativos à página, que os usuários não veem. Quando a maioria dos mecanismos de busca indexa uma página, todas as palavras da página são adicionadas ao índice — exceto palavras como "a", "um" e "o" no caso do Google. Quando os usuários buscam essas palavras, o mecanismo de busca analisa o índice de todas as páginas em que essas palavras aparecem e seleciona as mais relevantes.

* No contexto da indexação de busca, os metadados são dados que informam aos mecanismos de busca o assunto de uma página da internet. Frequentemente, o título e a meta descrição é que são exibidos nas páginas de resultados dos mecanismos de busca e não o conteúdo da página de internet visível para os usuários.

Como os web crawlers funcionam?

A internet está constantemente mudando e se expandindo. Como não é possível saber o total de páginas de sites que existem na internet, os bots rastreadores começam por uma semente, ou uma lista de URLs conhecidos. Então, rastreiam primeiro as páginas desses URLs e, ao fazê-lo, encontram hiperlinks para outros URLs que são adicionados à lista de páginas que rastrearão a seguir.

Devido ao vasto número de páginas da internet que poderiam ser indexadas para pesquisa, esse processo poderia durar quase indefinidamente. Um web crawler, no entanto, segue determinadas políticas que o tornam mais seletivo quanto a quais páginas rastrear, em que ordem devem ser rastreadas e com que frequência devem ser rastreadas novamente para verificar se há atualizações de conteúdo.

Importância relativa de cada página da web: a maioria dos web crawlers não rastreia toda a internet disponível para o público nem foi criada para fazê-lo; ao contrário, os rastreadores decidem quais páginas devem ser rastreadas primeiro com base no número de outras páginas vinculadas a essa página inicial, no número de visitantes que a página recebe e em outros fatores que indicam a probabilidade de a página conter informações importantes.

A ideia é que uma página de site que é mencionada em muitas outras páginas e recebe um grande número de visitantes provavelmente contém informações fidedignas de alta qualidade, e por isso é especialmente importante que um mecanismo de busca as tenha indexado, assim como uma biblioteca deve se certificar de manter muitas cópias de um livro que é procurado por muitas pessoas.

Por que revisitar as páginas de sites: o conteúdo da internet costuma ser continuamente atualizado, removido ou transferido para novos locais. Os web crawlers precisam revisitar as páginas periodicamente para garantir que a versão mais recente do conteúdo esteja indexada.

Requisitos do arquivo robots.txt: os web crawlers também decidem quais páginas devem ser rastreadas com base no protocolo robots.txt (também conhecido como protocolo de exclusão de robôs). Antes de rastrear uma página da internet, verificam o arquivo robots.txt hospedado pelo servidor web da página. O robots.txt é um arquivo de texto que especifica as regras para qualquer bot que acessa um site ou aplicação hospedados. Essas regras definem quais páginas os bots podem rastrear e quais links podem seguir. Para ver um exemplo, confira o arquivo robots.txt do site Cloudflare.com.

Todos esses fatores são ponderados de maneira diferente pelos algoritmos proprietários que cada mecanismo de busca incorpora aos seus spiders, ou bots rastreadores. Os web crawlers de diferentes mecanismos de busca se comportam de maneira um pouco diferente, embora o objetivo final seja o mesmo: baixar e indexar o conteúdo das páginas de sites.

Por que os rastreadores da internet, ou web crawlers, são chamados de "spiders" (aranhas)?

A internet, ou pelo menos a parte dela que a maioria dos usuários acessa, também é conhecida como World Wide Web (em tradução livre, "Ampla Teia Mundial") — na verdade, é daí que vem o "www" da maioria dos URLs de sites. Então, pode-se dizer que foi uma opção lógica chamar os bots de mecanismo de busca de "spiders", aranhas que rastejam por toda a teia da internet, assim como as aranhas de verdade rastejam nas teias de aranha.

Os bots rastreadores sempre devem ter permissão para acessar as propriedades da internet?

Isso depende da propriedade da internet e de vários outros fatores. Os web crawlers precisam dos recursos do servidor para indexar o conteúdo — fazem solicitações às quais o servidor precisa responder, assim como um usuário que visita um site ou outros bots que acessam um site. Dependendo da quantidade de conteúdo em cada página ou do número de páginas do site, pode ser que não seja interessante para o operador do site permitir a indexação de busca com muita frequência, pois um excesso de indexação pode sobrecarregar o servidor, aumentar os custos de largura de banda ou as duas coisas.

Além disso, os desenvolvedores ou empresas podem não querer que algumas páginas de seu site sejam descobertas, a menos que um usuário já tenha recebido um link para a página (sem colocar a página atrás de um paywall [muro de pagamento] ou de um login). Um exemplo disso são empresas que criam uma página inicial dedicada para uma campanha de marketing, mas não desejam que uma pessoa não visada pela campanha acesse a página. Assim, podem personalizar a mensagem ou medir com precisão o desempenho da página. Nesses casos, a empresa pode adicionar uma tag "não indexar" à página inicial para que ela não seja exibida nos resultados dos mecanismos de busca. Também podem adicionar uma tag "desautorizar" à página ou ao arquivo robots.txt para que os spiders dos mecanismos de busca não a rastreiem.

Os proprietários de sites também podem não querer que os bots rastreadores da internet rastreiem seus sites, no todo ou em parte, por vários outros motivos. Por exemplo, um site que oferece aos usuários a capacidade de fazer buscas dentro do site pode querer bloquear as páginas de resultados da busca, já que não são úteis para a maioria dos usuários. Outras páginas geradas automaticamente que são úteis apenas para um usuário ou para alguns usuários específicos também devem ser bloqueadas.

Qual é a diferença entre rastreamento da internet por crawlers e raspagem da internet?

A raspagem da internet, raspagem de dados ou raspagem de conteúdo ocorrem quando um bot baixa o conteúdo de um site sem permissão, geralmente com a intenção de usá-lo para um objetivo mal-intencionado.

De modo geral, a raspagem da internet é muito mais direcionada que o rastreamento da internet. Os raspadores da internet podem estar procurando apenas páginas ou sites específicos, enquanto os web crawlers (rastreadores da internet) seguem os links e as páginas rastreadas continuamente.

Além disso, os bots de raspagem da internet podem não levar em conta a pressão que exercem sobre os servidores dos sites, enquanto os web crawlers, especialmente os dos principais mecanismos de busca, sempre obedecerão ao arquivo robots.txt e limitarão suas solicitações para não sobrecarregar o servidor web.

Como os web crawlers afetam o SEO?

SEO quer dizer otimização do mecanismo de busca, e trata da disciplina de preparar o conteúdo para a indexação de busca de modo que um site apareça em uma posição superior na lista dos resultados dos mecanismos de busca.

Se os bots de rastreamento, ou spiders, não rastrearem um site, ele não poderá ser indexado e não será exibido nos resultados de busca. Por esse motivo, se o proprietário de um site deseja obter tráfego orgânico a partir dos resultados de busca, é muito importante não bloquear os web crawlers que rastreiam as páginas.

Quais bots de rastreamento, ou web crawlers, estão ativos na internet?

Os principais bots dos mecanismos de busca são chamados:

  • Google: Googlebot (são na verdade, dois crawlers, Googlebot Desktop e Googlebot Mobile, para buscas em computadores e dispositivos móveis, respectivamente)
  • Bing: Bingbot
  • Yandex (mecanismo de busca russo): Yandex Bot
  • Baidu (mecanismo de busca chinês): Baidu Spider

Além desses, existem muitos outros bots rastreadores da internet menos comuns, alguns dos quais não estão associados a nenhum mecanismo de busca.

Por que é importante que o gerenciamento de bots leve em conta o rastreamento da internet?

Bots mal-intencionados podem causar uma série de danos, desde experiências de usuário insatisfatórias e indisponibilidade do servidor ao furto de dados. No entanto, ao se bloquear os bots do mal é importante permitir o acesso às propriedades da internet por bots do bem, como os web crawlers. O Gerenciamento de Bots da Cloudflare permite que os bots do bem continuem acessando os sites e, ao mesmo tempo, segue mitigando o tráfego mal-intencionado de bots. O produto mantém uma lista atualizada automaticamente de bots do bem permitidos como os web crawlers, para garantir que não sejam bloqueados.