Como gerenciar bots bons | Bots bons x bots maus

Não são apenas os bots "maus" que precisam ser gerenciados. Uma estratégia de gerenciamento de bots precisa evitar o bloqueio dos bots "bons" enquanto mitiga os maus.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Saiba qual é a diferença entre bots do bem e bots do mal?
  • Entenda o que torna um bot "bom" e porque bots bons precisam conseguir acessar as propriedades da web
  • Saiba mais sobre as estratégias eficazes para gerenciar bots bons e maus

Conteúdo relacionado


Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Consulte a política de privacidade da Cloudflare para saber como coletamos e processamos seus dados pessoais.

Copiar o link do artigo

O que são bots bons?

Bots bons: chatbot, bot de monitoramento, bot de mecanismo de pesquisa

Um bot é um programa de computador que automatiza as interações com as propriedades da web por meio da Internet. Um bot "bom" é qualquer bot que execute tarefas úteis e que não sejam prejudiciais à experiência do usuário na internet. Como bots bons podem compartilhar características semelhantes às dos bots maliciosos, o desafio é garantir que os bots bons não sejam bloqueados ao montar uma estratégia de gerenciamento de bots.

Há vários tipos de bots bons, cada um desenvolvido para realizar diferentes tarefas. Aqui estão alguns exemplos:

  • Bots de mecanismos de pesquisa: também conhecidos como web crawlers ou spiders: Esses bots "rastreiam," ou revisam, conteúdo em quase todos os sites da internet, e depois indexam esse conteúdo para que ele possa ser exibido nos resultados dos mecanismos de pesquisa das pesquisas relevantes dos usuários. Eles são operados por mecanismos de pesquisa como Google, Bing, ou Yandex.
  • Bots de direitos autorais: Bots que rastreiam plataformas ou sites que procuram conteúdo que possa violar a lei de direitos autorais. Estes bots podem ser operados por qualquer pessoa ou empresa que possua material protegido por direitos autorais. Os bots de direitos autorais podem procurar textos, músicas, imagens ou até mesmo vídeos copiados.
  • Bots de monitoramento de sites: Esses bots monitoram as métricas do site: por exemplo, monitoramento de backlinks ou interrupções do sistema, e podem alertar os usuários sobre mudanças importantes ou sobre tempo de inatividade. Por exemplo, a Cloudflare opera um bot do tipo crawler chamado Always Online que diz à rede da Cloudflare para enviar uma versão armazenada em cache de uma página web se o servidor de origem estiver inativo.
  • Bots comerciais: Bots operados por empresas comerciais que vasculham a internet para obter informações. Esses bots podem ser operados por empresas de pesquisa de mercado que monitoram relatórios de notícias ou análises de clientes, redes de anúncios que otimizam os locais em que eles exibem anúncios, ou agências de SEO que rastreiam sites de clientes.
  • Bots de feed: Esses bots rastreiam a internet em busca de conteúdo interessante para adicionar ao feed de notícias de uma plataforma. Sites agregadores de conteúdo ou redes de mídia social podem operar estes bots.
  • Chatbots: Chatbots imitam a conversa humana respondendo aos usuários com respostas pré-programadas. Alguns chatbots são complexos o suficiente para manter longas conversas.
  • Bot de assistente pessoal: como Siri ou Alexa: Embora esses programas sejam muito mais avançados do que o bot típico, não deixam de ser bots: programas de computador que navegam pela web em busca de dados.

Bots bons x bots maus

As propriedades da web precisam ter certeza de que não estão bloqueando esses tipos de bots ao tentar filtrar o bot de tráfego malicioso. É especialmente importante que os bots web crawler dos mecanismos de pesquisa não sejam bloqueados, pois sem eles um site não pode ser exibido nos resultados das pesquisas.

Bots maus podem roubar dados, invadir contas de usuários, enviar dados indesejados por meio de formulários on-line e realizar outras atividades maliciosas. Os tipos de bots maus incluem bots de preenchimento de credenciais, bots de raspagem de conteúdo, bots de spam, e bots de fraude de clique.

O que é Robots.txt?

O bom gerenciamento de bots começa com a configuração adequada de regras no arquivo robots.txt de um site. Um arquivo robots.txt é um arquivo de texto que reside em um servidor web e especifica as regras para qualquer bot que acessar o site ou aplicativo hospedado. Essas regras definem quais páginas os bots podem e não podem rastrear, quais links devem e não devem seguir, além de outros requisitos para o comportamento do bot.

Os bots bons seguirão essas regras. Por exemplo, se o proprietário de um site não quiser que uma determinada página do seu site seja exibida nos resultados de pesquisa do Google, ele pode escrever uma regra no arquivo robots.txt e os bots web crawler do Google não indexarão essa página. Embora o arquivo robots.txt não possa realmente aplicar essas regras, os bots bons são programados para procurar o arquivo e seguir as regras antes de fazer qualquer outra coisa.

Os bots maus, no entanto, muitas vezes desconsideram o arquivo robots.txt ou o leem para saber que conteúdo um site está tentando manter fora dos limites dos bots, e depois acessam esse conteúdo. Assim, gerenciar bots requer uma abordagem mais ativa do que simplesmente estabelecer as regras de comportamento para o bot no arquivo robots.txt.

O que é uma lista de permissões?

Pense em uma lista de permissões como sendo a lista de convidados para um evento. Se alguém que não está na lista de convidados tentar entrar no evento, a equipe de segurança irá impedi-lo de entrar. Qualquer pessoa que esteja na lista poderá entrar livremente no evento. Essa abordagem é necessária porque as pessoas não convidadas podem se comportar mal e arruinar a festa para os demais.

No caso do gerenciamento de bots, é basicamente assim que funcionam as listas de permissões. Uma lista de permissões é uma lista de bots que podem acessar uma propriedade da web. Normalmente isso funciona por meio de algo chamado "agente de usuário," o endereço de IP do bot, ou uma combinação dos dois. Um agente de usuário é uma string de texto que identifica o tipo de usuário (ou bot) para um servidor web.

Ao manter uma lista de bots de agentes de usuário bons permitidos, tais como os pertencentes aos mecanismos de pesquisa, e depois bloquear quaisquer bots que não estejam na lista, um servidor web pode garantir o acesso dos bots bons.

Os servidores web também podem ter uma lista de bloqueios dos bots maus conhecidos.

O que é uma lista de bloqueios?

Uma lista de bloqueios, no contexto de rede, é uma lista de endereços de IP, agentes de usuários ou de outros indicadores de identidade on-line que não têm permissão para acessar um servidor, uma rede ou uma propriedade da web. Essa é uma abordagem ligeiramente diferente daquela utilizada com a lista de permissões: uma estratégia de gerenciamento de bots baseada em uma lista de bloqueios bloqueará bots específicos e permitirá a passagem de todos os outros bots, enquanto uma estratégia de lista de permissões só permite a passagem de bots especificados e bloqueia todos os outros.

As listas de permissões são suficientes para deixar os bots bons entrarem e manter os bots maus fora?

É possível que um bot mau falsifique a string do seu agente de usuário para que pareça ser um bot bom, pelo menos inicialmente, assim como um ladrão pode usar um cartão de identificação falso para fingir estar na lista de convidados e se esgueirar para dentro de um evento.

Portanto, para detectar falsificações, as listas de permissões de bots do bem precisam ser combinadas com outras abordagens como, por exemplo, análise comportamental ou aprendizado de máquina. Isso ajuda a identificar proativamente tanto os bots do mal quanto os bots do bem desconhecidos, além de, simplesmente, permitir os bots do bem conhecidos.

O que faz uma solução de gerenciamento de bots?

Um produto de gerenciamento de bots permite que bots bons acessem uma propriedade da web enquanto bloqueiam bots maus. O Cloudflare Bot Management utiliza aprendizado de máquina e análise comportamental do tráfego em toda a rede para detectar bots maus enquanto permite automaticamente e continuamente a listagem de bots bons. Uma funcionalidade similar está disponível para organizações menores com o Super Bot Fight Mode, agora incluído nos planos Pro e Business da Cloudflare.