O que é um web crawler? | Como funcionam os web spiders

Um web crawler, ou spider, ou rastreador da internet, é um tipo de bot que normalmente é operado por mecanismos de pesquisa, como Google e Bing. Seu objetivo é indexar o conteúdo de sites em toda a internet para que esses sites possam aparecer nos resultados dos mecanismos de pesquisa.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Saiba o que é um bot rastreador da internet (ou spider)
  • Entenda como um web crawler escolhe quais páginas rastrear
  • Explique a diferença entre rastreamento da internet e raspagem da internet
  • Investigue se o rastreamento da internet deve ou não ser permitido em qualquer página específica de um site

Conteúdo relacionado


Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Consulte a política de privacidade da Cloudflare para saber como coletamos e processamos seus dados pessoais.

Copiar o link do artigo

Defenda-se contra ataques de bots, como preenchimento de credenciais e raspagem de conteúdo, com a Cloudflare

O que é um bot rastreador da internet?

Um web crawler, spider ou bot de mecanismo de busca, baixa e indexa conteúdo de toda a internet. O objetivo de um bot desse tipo é aprender do que se tratam (quase) todas as páginas web para que as informações possam ser recuperadas quando necessário. Os mecanismos de busca usam esses bots para encontrar páginas relevantes a serem exibidas nos resultados de pesquisa. Os bots são chamados de "web crawlers" porque "crawling", em inglês, é o termo técnico para o acesso automático a um site e a obtenção de dados por meio de um software.

Os web crawlers de IA são um tipo separado, mas relacionado de bot crawler. Eles acessam conteúdo na web para ajudar a treinar grandes modelos de linguagem (LLMs) ou para ajudar os assistentes de IA a fornecer informações aos usuários. Muitos provedores de pesquisa também operam crawlers de IA.

Web crawlers dos mecanismos de busca

Ao aplicar um algoritmo de pesquisa aos dados coletados pelos web crawlers, os mecanismos de busca podem fornecer links relevantes em resposta às consultas de pesquisa do usuário, gerando a lista de páginas web que aparecem depois que um usuário digita uma pesquisa no Google ou Bing (ou outro mecanismo de busca).

Um bot web crawler de mecanismo de busca é como alguém que examina todos os livros de uma biblioteca desorganizada e cria um catálogo de fichas para que qualquer pessoa que visite a biblioteca possa encontrar as informações necessárias de forma rápida e fácil. Para ajudar a categorizar e classificar os livros da biblioteca por tópico, o organizador lê o título, o resumo e parte do texto de cada livro para descobrir do que se trata.

Informações sobre a organização de bots do tipo web crawler (rastreador da internet)

No entanto, ao contrário de uma biblioteca, a internet não é composta de pilhas físicas de livros, o que torna difícil saber se todas as informações necessárias foram indexadas corretamente ou se grandes parcelas das mesmas estão sendo ignoradas. Para tentar encontrar todas as informações relevantes que a internet oferece, um bot rastreador da internet começará com um determinado conjunto de páginas conhecidas e seguirá os hiperlinks dessas páginas para outras páginas, os hiperlinks dessas outras páginas para mais páginas e assim por diante.

Não se sabe que parcela da internet disponível para o público é realmente rastreada pelos bots de mecanismos de busca. Algumas fontes estimam que apenas 40-70% da internet são indexados para as buscas — e isso representa bilhões de páginas da internet.

Web crawlers de IA

Os web crawlers de IA servem a duas finalidades principais:

  1. Dados de treinamento para LLMs: os LLMs precisam de grandes quantidades de conteúdo para refinar melhor seus modelos e fornecer respostas mais úteis e precisas aos usuários. Conteúdos novos os ajudam a continuar melhorando. Os crawlers de IA examinam os sites em busca de conteúdos novos. Eles copiam e salvam qualquer conteúdo que encontram para que possa ser usado em treinamento.
  2. Recuperação em tempo real de informações para os usuários: os assistentes de IA às vezes complementam as respostas que geram com conteúdo de fontes externas. Para isso, eles podem incorporar o conteúdo web que seus bots descobrem em suas respostas.

O que é indexação de busca?

Indexar uma busca é como criar um catálogo de cartões de uma biblioteca para a internet, para que um mecanismo de busca saiba em que local da internet poderá recuperar informações quando uma pessoa a procura. Também pode ser comparado ao índice remissivo na parte de trás de um livro, que lista todos os lugares do livro em que um determinado tópico ou frase são mencionados.

A indexação se concentra principalmente no texto que aparece na página e nos metadados* relativos à página, que os usuários não veem. Quando a maioria dos mecanismos de busca indexa uma página, todas as palavras da página são adicionadas ao índice — exceto palavras como "a", "um" e "o" no caso do Google. Quando os usuários buscam essas palavras, o mecanismo de busca analisa o índice de todas as páginas em que essas palavras aparecem e seleciona as mais relevantes.

*No contexto da indexação de busca, os metadados são dados que informam aos mecanismos de busca o assunto de uma página da internet. Frequentemente, o título e a meta descrição é que são exibidos nas páginas de resultados dos mecanismos de busca e não o conteúdo da página de internet visível para os usuários.

Como os web crawlers funcionam?

A internet está constantemente mudando e se expandindo. Como não é possível saber o total de páginas de sites que existem na internet, os bots rastreadores começam por uma semente, ou uma lista de URLs conhecidos. Então, rastreiam primeiro as páginas desses URLs e, ao fazê-lo, encontram hiperlinks para outros URLs que são adicionados à lista de páginas que rastrearão a seguir.

Devido ao vasto número de páginas da internet que poderiam ser indexadas para pesquisa, esse processo poderia durar quase indefinidamente. Um web crawler, no entanto, segue determinadas políticas que o tornam mais seletivo quanto a quais páginas rastrear, em que ordem devem ser rastreadas e com que frequência devem ser rastreadas novamente para verificar se há atualizações de conteúdo.

Importância relativa de cada página web: a maioria dos web crawlers não rastreia toda a internet disponível para o público nem foi criada para fazê-lo; ao contrário, os rastreadores decidem quais páginas devem ser rastreadas primeiro com base no número de outras páginas vinculadas a essa página inicial, no número de visitantes que a página recebe e em outros fatores que indicam a probabilidade de a página conter informações importantes.

A ideia é que uma página de site que é mencionada em muitas outras páginas e recebe um grande número de visitantes provavelmente contém informações fidedignas de alta qualidade, e por isso é especialmente importante que um mecanismo de busca as tenha indexado, assim como uma biblioteca deve se certificar de manter muitas cópias de um livro que é procurado por muitas pessoas.

Por que revisitar as páginas de sites: o conteúdo da internet costuma ser continuamente atualizado, removido ou transferido para novos locais. Os web crawlers precisam revisitar as páginas periodicamente para garantir que a versão mais recente do conteúdo esteja indexada.

Requisitos do arquivo robots.txt: os web crawlers também decidem quais páginas devem ser rastreadas com base no protocolo robots.txt (também conhecido como protocolo de exclusão de robôs). Antes de rastrear uma página da internet, eles verificam o arquivo robots.txt hospedado pelo servidor web da página. O robots.txt é um arquivo de texto que especifica as regras para qualquer bot que acessar um site ou aplicativo hospedado. Essas regras definem quais páginas os bots podem rastrear e quais links podem seguir. Para ver um exemplo, confira o arquivo robots.txt do site Cloudflare.com.

Todos esses fatores são ponderados de maneira diferente pelos algoritmos proprietários que cada mecanismo de busca incorpora aos seus spiders, ou bots rastreadores. Os web crawlers de diferentes mecanismos de busca se comportam de maneira um pouco diferente, embora o objetivo final seja o mesmo: baixar e indexar o conteúdo das páginas de sites.

Por que os rastreadores da internet, ou web crawlers, são chamados de "spiders" (aranhas)?

A internet, ou pelo menos a parte dela que a maioria dos usuários acessa, também é conhecida como World Wide Web (em tradução livre, "Ampla Teia Mundial") — na verdade, é daí que vem o "www" da maioria dos URLs de sites. Então, pode-se dizer que foi uma opção lógica chamar os bots de mecanismo de busca de "spiders", aranhas que rastejam por toda a teia da internet, assim como as aranhas de verdade rastejam nas teias de aranha.

Os bots rastreadores sempre devem ter permissão para acessar as propriedades da internet?

Isso depende do ativo da web e de vários outros fatores. Os web crawlers precisam dos recursos do servidor para indexar o conteúdo, eles fazem solicitações às quais o servidor precisa responder, assim como um usuário que visita um site ou outros bots que acessam um site. Dependendo da quantidade de conteúdo em cada página ou do número de páginas do site, pode ser do interesse do operador do site não permitir a indexação de pesquisa com muita frequência, uma vez que uma indexação em excesso poderia sobrecarregar o servidor, aumentar os custos de largura de banda ou ambos.

Os desenvolvedores ou empresas podem não querer que algumas páginas web sejam descobertas por meio de pesquisa, a menos que um usuário já tenha recebido um link para a página (sem colocar a página atrás de um paywall ou de um login). Um exemplo disso são empresas que criam uma página inicial dedicada para uma campanha de marketing, mas não desejam que uma pessoa não visada pela campanha acesse a página. Assim, podem personalizar a mensagem ou medir com precisão o desempenho da página. Nesses casos, a empresa pode adicionar uma tag "no index" à página inicial para que ela não seja exibida nos resultados dos mecanismos de busca. Eles também podem adicionar uma tag "disallow" na página ou no arquivo robots.txt e os spiders dos mecanismos de busca não a rastrearão de forma alguma.

Além disso, alguns administradores da web podem não querer que os LLMs sejam treinados com seu conteúdo. O conteúdo do site pode ser proprietário ou estar sob direitos autorais. Em alguns casos, a coleta de conteúdo da web para dados de treinamento pode interromper o modelo de negócios desse site, por exemplo, se o site hospedar conteúdo exclusivo e vender espaço de anúncio para gerar receita. Para esses sites, os administradores gostariam de limitar especificamente a atividade dos bots de crawlers de IA, mas permitir o rastreamento dos bots dos mecanismos de busca.

Os proprietários de sites também podem não querer que os bots rastreadores da internet rastreiem seus sites, no todo ou em parte, por vários outros motivos. Por exemplo, um site que oferece aos usuários a capacidade de fazer buscas dentro do site pode querer bloquear as páginas de resultados da busca, já que não são úteis para a maioria dos usuários. Outras páginas geradas automaticamente que são úteis apenas para um usuário ou para alguns usuários específicos também devem ser bloqueadas.

Qual é a diferença entre rastreamento da internet por crawlers e raspagem da internet?

A raspagem da internet, raspagem de dados ou raspagem de conteúdo ocorrem quando um bot baixa o conteúdo de um site sem permissão, geralmente com a intenção de usá-lo para um objetivo mal-intencionado.

De modo geral, a raspagem da internet é muito mais direcionada que o rastreamento da internet. Os raspadores da internet podem estar procurando apenas páginas ou sites específicos, enquanto os web crawlers (rastreadores da internet) seguem os links e as páginas rastreadas continuamente.

Além disso, os bots de raspagem da internet podem não levar em conta a pressão que exercem sobre os servidores dos sites, enquanto os web crawlers, especialmente os dos principais mecanismos de busca, sempre obedecerão ao arquivo robots.txt e limitarão suas solicitações para não sobrecarregar o servidor web.

Como os web crawlers afetam o SEO?

SEO quer dizer otimização do mecanismo de busca, e trata da disciplina de preparar o conteúdo para a indexação de busca de modo que um site apareça em uma posição superior na lista dos resultados dos mecanismos de busca.

Se os bots de rastreamento, ou spiders, não rastrearem um site, ele não poderá ser indexado e não será exibido nos resultados de busca. Por esse motivo, se o proprietário de um site deseja obter tráfego orgânico a partir dos resultados de busca, é muito importante não bloquear os web crawlers que rastreiam as páginas.

Lista de web crawlers de busca

Os principais bots dos mecanismos de busca são chamados:

  • Google: Googlebot (são na verdade, dois crawlers, Googlebot Desktop e Googlebot Mobile, para buscas em computadores e dispositivos móveis, respectivamente)
  • Bing: Bingbot
  • DuckDuckGo: DuckDuckBot
  • Yahoo! Search: Slurp
  • Yandex: YandexBot
  • Baidu: Baiduspider
  • Exalead: ExaBot

Também existem muitos outros bots web crawlers, alguns dos quais não estão associados a nenhum mecanismo de pesquisa.

Lista de crawlers de IA

Esses são alguns dos bots de crawlers de IA mais comuns que coletam dados para LLMs:

  • OpenAI: GPTBot
  • OpenAI: ChatGPT-User (para recuperação em tempo real)
  • Meta: Meta-ExternalAgent
  • Google: GoogleOther
  • Huawei: PetalBot
  • Amazon: Amazonbot
  • ByteDance: Bytespider
  • Claude: Claudebot

Veja a lista de bots verificados da Cloudflare.

Por que é importante que o gerenciamento de bots leve em conta o rastreamento da internet?

Os bots ruins podem causar uma série de danos, de experiências de usuário insatisfatórias à indisponibilidade do servidor e ao roubo de dados. No entanto, ao se bloquear os bots ruins é importante permitir que os bots bons acessem os ativos da internet, como os web crawlers dos mecanismos de busca. O Cloudflare Bot Management permite que os bots bons continuem acessando sites enquanto mitigam o tráfego de bots maliciosos. O produto mantém uma lista atualizada automaticamente de bots bons permitidos, como os web crawlers, para garantir que não sejam bloqueados. Pequenas organizações podem obter um nível semelhante de visibilidade e controle de seu tráfego de bots com o Super Bot Fight Mode, disponível nos planos Cloudflare Pro e Business. A Cloudflare também permite que as organizações bloqueiem os crawlers de IA enquanto permite o acesso dos crawlers de pesquisa.

O Cloudflare Radar fornece informações em tempo real sobre crawlers de pesquisa e crawlers de IA: veja os dados mais recentes do Radar.