What is a web crawler? | How web spiders work

A web crawler, or spider, is a type of bot that is typically operated by search engines like Google and Bing. Their purpose is to index the content of websites all across the Internet so that those websites can appear in search engine results.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Saiba o que é um bot rastreador da internet (ou spider)
  • Entenda como um web crawler escolhe quais páginas rastrear
  • Explique a diferença entre rastreamento da internet e raspagem da internet
  • Investigue se o rastreamento da internet deve ou não ser permitido em qualquer página específica de um site

Copiar o link do artigo

O que é um bot rastreador da internet?

Um web crawler, spider ou bot de mecanismo de busca, baixa e indexa conteúdo de todas as partes da internet. O objetivo de um bot desse tipo é detectar do que se tratam (quase) todas as páginas da internet para que as informações possam ser recuperadas quando necessário. São chamados de "web crawlers" porque "crawling", em inglês, é o termo técnico para o acesso automático a um site e a obtenção de dados por meio de um software.

Esses bots são quase sempre operados pelos mecanismos de busca. Ao aplicar um algoritmo de busca aos dados coletados pelos web crawlers, os mecanismos de busca podem fornecer links relevantes em resposta às consultas de busca do usuário, gerando a lista de páginas da internet que aparecem depois que um usuário digita um termo de busca no Google ou no Bing (ou outro mecanismo de busca).

Um bot rastreador, ou web crawler, é como uma pessoa que pega todos os livros de uma biblioteca desorganizada e os coloca nos cartões de um catálogo de modo que todos os que visitam a biblioteca possam encontrar rapidamente e com facilidade a informação necessária. Para ajudar a categorizar e classificar os livros da biblioteca por tópico, o organizador lê o título, o resumo e parte do texto de cada livro para descobrir do que se trata.

Web crawler bot organizing information

No entanto, ao contrário de uma biblioteca, a internet não é composta de pilhas físicas de livros, o que torna difícil saber se todas as informações necessárias foram indexadas corretamente ou se grandes parcelas das mesmas estão sendo ignoradas. Para tentar encontrar todas as informações relevantes que a internet oferece, um bot rastreador da internet começará com um determinado conjunto de páginas conhecidas e seguirá os hiperlinks dessas páginas para outras páginas, os hiperlinks dessas outras páginas para mais páginas e assim por diante.

Não se sabe que parcela da internet disponível para o público é realmente rastreada pelos bots de mecanismos de busca. Algumas fontes estimam que apenas 40-70% da internet são indexados para as buscas — e isso representa bilhões de páginas da internet.

O que é indexação de busca?

Indexar uma busca é como criar um catálogo de cartões de uma biblioteca para a internet, para que um mecanismo de busca saiba em que local da internet poderá recuperar informações quando uma pessoa a procura. Também pode ser comparado ao índice remissivo na parte de trás de um livro, que lista todos os lugares do livro em que um determinado tópico ou frase são mencionados.

A indexação se concentra principalmente no texto que aparece na página e nos metadados* relativos à página, que os usuários não veem. Quando a maioria dos mecanismos de busca indexa uma página, todas as palavras da página são adicionadas ao índice — exceto palavras como "a", "um" e "o" no caso do Google. Quando os usuários buscam essas palavras, o mecanismo de busca analisa o índice de todas as páginas em que essas palavras aparecem e seleciona as mais relevantes.

* No contexto da indexação de busca, os metadados são dados que informam aos mecanismos de busca o assunto de uma página da internet. Frequentemente, o título e a meta descrição é que são exibidos nas páginas de resultados dos mecanismos de busca e não o conteúdo da página de internet visível para os usuários.

Como os web crawlers funcionam?

A internet está constantemente mudando e se expandindo. Como não é possível saber o total de páginas de sites que existem na internet, os bots rastreadores começam por uma semente, ou uma lista de URLs conhecidos. Então, rastreiam primeiro as páginas desses URLs e, ao fazê-lo, encontram hiperlinks para outros URLs que são adicionados à lista de páginas que rastrearão a seguir.

Devido ao vasto número de páginas da internet que poderiam ser indexadas para pesquisa, esse processo poderia durar quase indefinidamente. Um web crawler, no entanto, segue determinadas políticas que o tornam mais seletivo quanto a quais páginas rastrear, em que ordem devem ser rastreadas e com que frequência devem ser rastreadas novamente para verificar se há atualizações de conteúdo.

Importância relativa de cada página da web: a maioria dos web crawlers não rastreia toda a internet disponível para o público nem foi criada para fazê-lo; ao contrário, os rastreadores decidem quais páginas devem ser rastreadas primeiro com base no número de outras páginas vinculadas a essa página inicial, no número de visitantes que a página recebe e em outros fatores que indicam a probabilidade de a página conter informações importantes.

A ideia é que uma página de site que é mencionada em muitas outras páginas e recebe um grande número de visitantes provavelmente contém informações fidedignas de alta qualidade, e por isso é especialmente importante que um mecanismo de busca as tenha indexado, assim como uma biblioteca deve se certificar de manter muitas cópias de um livro que é procurado por muitas pessoas.

Por que revisitar as páginas de sites: o conteúdo da internet costuma ser continuamente atualizado, removido ou transferido para novos locais. Os web crawlers precisam revisitar as páginas periodicamente para garantir que a versão mais recente do conteúdo esteja indexada.

Robots.txt requirements: Web crawlers also decide which pages to crawl based on the robots.txt protocol (also known as the robots exclusion protocol). Before crawling a webpage, they will check the robots.txt file hosted by that page's web server. A robots.txt file is a text file that specifies the rules for any bots accessing the hosted website or application. These rules define which pages the bots can crawl, and which links they can follow. As an example, check out the Cloudflare.com robots.txt file.

Todos esses fatores são ponderados de maneira diferente pelos algoritmos proprietários que cada mecanismo de busca incorpora aos seus spiders, ou bots rastreadores. Os web crawlers de diferentes mecanismos de busca se comportam de maneira um pouco diferente, embora o objetivo final seja o mesmo: baixar e indexar o conteúdo das páginas de sites.

Por que os rastreadores da internet, ou web crawlers, são chamados de "spiders" (aranhas)?

A internet, ou pelo menos a parte dela que a maioria dos usuários acessa, também é conhecida como World Wide Web (em tradução livre, "Ampla Teia Mundial") — na verdade, é daí que vem o "www" da maioria dos URLs de sites. Então, pode-se dizer que foi uma opção lógica chamar os bots de mecanismo de busca de "spiders", aranhas que rastejam por toda a teia da internet, assim como as aranhas de verdade rastejam nas teias de aranha.

Os bots rastreadores sempre devem ter permissão para acessar as propriedades da internet?

Isso depende da propriedade da internet e de vários outros fatores. Os web crawlers precisam dos recursos do servidor para indexar o conteúdo — fazem solicitações às quais o servidor precisa responder, assim como um usuário que visita um site ou outros bots que acessam um site. Dependendo da quantidade de conteúdo em cada página ou do número de páginas do site, pode ser que não seja interessante para o operador do site permitir a indexação de busca com muita frequência, pois um excesso de indexação pode sobrecarregar o servidor, aumentar os custos de largura de banda ou as duas coisas.

Além disso, os desenvolvedores ou empresas podem não querer que algumas páginas de seu site sejam descobertas, a menos que um usuário já tenha recebido um link para a página (sem colocar a página atrás de um paywall [muro de pagamento] ou de um login). Um exemplo disso são empresas que criam uma página inicial dedicada para uma campanha de marketing, mas não desejam que uma pessoa não visada pela campanha acesse a página. Assim, podem personalizar a mensagem ou medir com precisão o desempenho da página. Nesses casos, a empresa pode adicionar uma tag "não indexar" à página inicial para que ela não seja exibida nos resultados dos mecanismos de busca. Também podem adicionar uma tag "desautorizar" à página ou ao arquivo robots.txt para que os spiders dos mecanismos de busca não a rastreiem.

Os proprietários de sites também podem não querer que os bots rastreadores da internet rastreiem seus sites, no todo ou em parte, por vários outros motivos. Por exemplo, um site que oferece aos usuários a capacidade de fazer buscas dentro do site pode querer bloquear as páginas de resultados da busca, já que não são úteis para a maioria dos usuários. Outras páginas geradas automaticamente que são úteis apenas para um usuário ou para alguns usuários específicos também devem ser bloqueadas.

Qual é a diferença entre rastreamento da internet por crawlers e raspagem da internet?

A raspagem da internet, raspagem de dados ou raspagem de conteúdo ocorrem quando um bot baixa o conteúdo de um site sem permissão, geralmente com a intenção de usá-lo para um objetivo mal-intencionado.

De modo geral, a raspagem da internet é muito mais direcionada que o rastreamento da internet. Os raspadores da internet podem estar procurando apenas páginas ou sites específicos, enquanto os web crawlers (rastreadores da internet) seguem os links e as páginas rastreadas continuamente.

Além disso, os bots de raspagem da internet podem não levar em conta a pressão que exercem sobre os servidores dos sites, enquanto os web crawlers, especialmente os dos principais mecanismos de busca, sempre obedecerão ao arquivo robots.txt e limitarão suas solicitações para não sobrecarregar o servidor web.

Como os web crawlers afetam o SEO?

SEO quer dizer otimização do mecanismo de busca, e trata da disciplina de preparar o conteúdo para a indexação de busca de modo que um site apareça em uma posição superior na lista dos resultados dos mecanismos de busca.

Se os bots de rastreamento, ou spiders, não rastrearem um site, ele não poderá ser indexado e não será exibido nos resultados de busca. Por esse motivo, se o proprietário de um site deseja obter tráfego orgânico a partir dos resultados de busca, é muito importante não bloquear os web crawlers que rastreiam as páginas.

Quais bots de rastreamento, ou web crawlers, estão ativos na internet?

Os principais bots dos mecanismos de busca são chamados:

  • Google: Googlebot (são na verdade, dois crawlers, Googlebot Desktop e Googlebot Mobile, para buscas em computadores e dispositivos móveis, respectivamente)
  • Bing: Bingbot
  • Yandex (mecanismo de busca russo): Yandex Bot
  • Baidu (mecanismo de busca chinês): Baidu Spider

Além desses, existem muitos outros bots rastreadores da internet menos comuns, alguns dos quais não estão associados a nenhum mecanismo de busca.

Por que é importante que o gerenciamento de bots leve em conta o rastreamento da internet?

Bad bots can cause a lot of damage, from poor user experiences to server crashes to data theft. However, in blocking bad bots, it's important to still allow good bots, such as web crawlers, to access web properties. Cloudflare Bot Management allows good bots to keep accessing websites while still mitigating malicious bot traffic. The product maintains an automatically updated allowlist of good bots, like web crawlers, to ensure they aren't blocked. Smaller organizations can gain a similar level of visibility and control over their bot traffic with Super Bot Fight Mode, available on Cloudflare Pro and Business plans.