Não são apenas os bots "maus" que precisam ser gerenciados. Uma estratégia de gerenciamento de bots precisa evitar o bloqueio dos bots "bons" enquanto mitiga os maus.
Após ler este artigo, você será capaz de:
Conteúdo relacionado
O que é um bot?
O que é tráfego de bots?
O que é gerenciamento de bots?
Ataque de força bruta
O que é raspagem de conteúdo?
Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.
Copiar o link do artigo
Um bot é um programa de computador que automatiza as interações com as propriedades da web por meio da Internet. Um bot "bom" é qualquer bot que execute tarefas úteis e que não sejam prejudiciais à experiência do usuário na internet. Como bots bons podem compartilhar características semelhantes às dos bots maliciosos, o desafio é garantir que os bots bons não sejam bloqueados ao montar uma estratégia de gerenciamento de bots.
Há vários tipos de bots bons, cada um desenvolvido para realizar diferentes tarefas. Aqui estão alguns exemplos:
As propriedades da web precisam ter certeza de que não estão bloqueando esses tipos de bots ao tentar filtrar o bot de tráfego malicioso. É especialmente importante que os bots web crawler dos mecanismos de pesquisa não sejam bloqueados, pois sem eles um site não pode ser exibido nos resultados das pesquisas.
Bots maus podem roubar dados, invadir contas de usuários, enviar dados indesejados por meio de formulários on-line e realizar outras atividades maliciosas. Os tipos de bots maus incluem bots de preenchimento de credenciais, bots de raspagem de conteúdo, bots de spam, e bots de fraude de clique.
O bom gerenciamento de bots começa com a configuração adequada de regras no arquivo robots.txt de um site. Um arquivo robots.txt é um arquivo de texto que reside em um servidor web e especifica as regras para qualquer bot que acessar o site ou aplicativo hospedado. Essas regras definem quais páginas os bots podem e não podem rastrear, quais links devem e não devem seguir, além de outros requisitos para o comportamento do bot.
Os bots bons seguirão essas regras. Por exemplo, se o proprietário de um site não quiser que uma determinada página do seu site seja exibida nos resultados de pesquisa do Google, ele pode escrever uma regra no arquivo robots.txt e os bots web crawler do Google não indexarão essa página. Embora o arquivo robots.txt não possa realmente aplicar essas regras, os bots bons são programados para procurar o arquivo e seguir as regras antes de fazer qualquer outra coisa.
Os bots maus, no entanto, muitas vezes desconsideram o arquivo robots.txt ou o leem para saber que conteúdo um site está tentando manter fora dos limites dos bots, e depois acessam esse conteúdo. Assim, gerenciar bots requer uma abordagem mais ativa do que simplesmente estabelecer as regras de comportamento para o bot no arquivo robots.txt.
Pense em uma lista de permissões como sendo a lista de convidados para um evento. Se alguém que não está na lista de convidados tentar entrar no evento, a equipe de segurança irá impedi-lo de entrar. Qualquer pessoa que esteja na lista poderá entrar livremente no evento. Essa abordagem é necessária porque as pessoas não convidadas podem se comportar mal e arruinar a festa para os demais.
No caso do gerenciamento de bots, é basicamente assim que funcionam as listas de permissões. Uma lista de permissões é uma lista de bots que podem acessar uma propriedade da web. Normalmente isso funciona por meio de algo chamado "agente de usuário," o endereço de IP do bot, ou uma combinação dos dois. Um agente de usuário é uma string de texto que identifica o tipo de usuário (ou bot) para um servidor web.
Ao manter uma lista de bots de agentes de usuário bons permitidos, tais como os pertencentes aos mecanismos de pesquisa, e depois bloquear quaisquer bots que não estejam na lista, um servidor web pode garantir o acesso dos bots bons.
Os servidores web também podem ter uma lista de bloqueios dos bots maus conhecidos.
Uma lista de bloqueios, no contexto de rede, é uma lista de endereços de IP, agentes de usuários ou de outros indicadores de identidade on-line que não têm permissão para acessar um servidor, uma rede ou uma propriedade da web. Essa é uma abordagem ligeiramente diferente daquela utilizada com a lista de permissões: uma estratégia de gerenciamento de bots baseada em uma lista de bloqueios bloqueará bots específicos e permitirá a passagem de todos os outros bots, enquanto uma estratégia de lista de permissões só permite a passagem de bots especificados e bloqueia todos os outros.
É possível que um bot mau falsifique a string do seu agente de usuário para que pareça ser um bot bom, pelo menos inicialmente, assim como um ladrão pode usar um cartão de identificação falso para fingir estar na lista de convidados e se esgueirar para dentro de um evento.
Portanto, para detectar falsificações, as listas de permissões de bots do bem precisam ser combinadas com outras abordagens como, por exemplo, análise comportamental ou aprendizado de máquina. Isso ajuda a identificar proativamente tanto os bots do mal quanto os bots do bem desconhecidos, além de, simplesmente, permitir os bots do bem conhecidos.
Um produto de gerenciamento de bots permite que bots bons acessem uma propriedade da web enquanto bloqueiam bots maus. O Cloudflare Bot Management utiliza aprendizado de máquina e análise comportamental do tráfego em toda a rede para detectar bots maus enquanto permite automaticamente e continuamente a listagem de bots bons. Uma funcionalidade similar está disponível para organizações menores com o Super Bot Fight Mode, agora incluído nos planos Pro e Business da Cloudflare.