Os invasores podem usar ferramentas de raspagem da internet para acessar dados muito mais rapidamente do que o pretendido. Isso pode resultar no uso de dados para fins não autorizados.
Após ler este artigo, você será capaz de:
Conteúdo relacionado
O que é raspagem de conteúdo?
O que é um bot?
O que é gerenciamento de bots?
Ataque de força bruta
O que é preenchimento de credenciais?
Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.
Copiar o link do artigo
A raspagem de dados, em sua forma mais geral, é uma técnica na qual um programa de computador extrai dados dos resultados gerados por outro programa. A raspagem de dados geralmente se manifesta na forma de raspagem da internet, que é o processo de usar um aplicativo para extrair informações valiosas de um site.
De modo geral, as empresas não desejam que seu conteúdo exclusivo seja baixado e reutilizado para fins não autorizados. Como resultado, optam por não expor todos os dados por meio de uma API consumível ou outro recurso facilmente acessível. Os bots raspadores, por outro lado, têm interesse em obter dados do site, independentemente de qualquer tentativa de limitar o acesso. O resultado é um jogo de gato e rato entre os bots de raspagem da internet e diferentes estratégias de proteção de conteúdo, com cada um tentando ser mais esperto que o outro.
O processo de raspagem da internet é bastante simples, embora a implementação possa ser complexa. A raspagem da internet ocorre em três etapas:
Os bots raspadores podem ser projetados para diversas finalidades, entre elas:
De modo geral, todo o conteúdo que um visitante do site consegue ver precisa ser transferido para o dispositivo desse visitante, e todas as informações que ele consegue acessar podem ser raspadas por um bot.
É possível tomar providências para limitar a quantidade de raspagem de internet que pode ocorrer. Abaixo mencionamos três métodos para limitar a exposição a tentativas de raspagem de dados:
Outro método menos comum de mitigação requer a incorporação do conteúdo dentro de objetos de mídia, como imagens. Como o conteúdo não existe em uma sequência de caracteres, a cópia do conteúdo se torna muito mais complexa, exigindo um reconhecimento óptico de caracteres (OCR) para extrair os dados de um arquivo de imagem. Mas isso também pode impedir usuários da internet de copiar conteúdo quando for preciso, como no caso de um endereço ou número de telefone de um site, ao invés de memorizá-los ou digitá-los novamente.
*Navegador sem cabeça é um tipo de navegador de internet muito parecido com o Chrome ou Firefox, mas que, por padrão, não tem uma interface de usuário visual, permitindo que se movimente muito mais rápido do que um navegador de internet típico. Ao rodar essencialmente no nível de uma linha de comando, um navegador sem cabeça pode evitar a renderização de aplicações inteiras de internet. Os raspadores de dados escrevem bots que usam navegadores sem cabeça para solicitar dados mais rapidamente, pois não há nenhum humano enxergando cada página que está sendo raspada.
A única maneira de impedir completamente a raspagem de internet é evitar colocar qualquer conteúdo em um site. No entanto, o uso de uma solução avançada de gerenciamento de bots pode ajudar os sites a eliminarem quase completamente o acesso de bots raspadores
Rastreamento se refere ao processo que grandes mecanismos de pesquisa, como o Google, executam quando enviam seus rastreadores robôs, como o Googlebot, para a rede a fim de indexar o conteúdo da internet. A raspagem, por outro lado, geralmente é estruturada especificamente para extrair dados de um determinado site.
Abaixo listamos três práticas que um bot raspador poderá adotar e em que diferem do comportamento de um crawler de internet:
O Gerenciamento de Bots da Cloudflare usa aprendizado de máquina e análise comportamental para identificar bots mal-intencionados como os raspadores, protegendo o conteúdo exclusivo e evitando que os bots abusem dos ativos da internet. Da mesma forma, o Modo Super Bot Fight, disponível agora nos planos Pro e Business da Cloudflare, foi desenvolvido para ajudar organizações de menor porte a se defenderem contra ataques de raspadores e outros bots do mal e, ao mesmo tempo, terem maior visibilidade do seu tráfego de bots.