Raspagem de conteúdo ou raspagem da web é quando os bots baixam ou "raspam" todo o conteúdo de um site, muitas vezes para usar esse conteúdo de forma maliciosa.
Após ler este artigo, você será capaz de:
Conteúdo relacionado
Segurança de aplicativos web
O que é um ataque de engenharia social?
Ataque on-path
Ataque KRACK
Ataque de estouro de buffer
Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.
Copiar o link do artigo
Raspagem de conteúdo, ou raspagem da web, ocorre quando um bot baixa muito conteúdo ou todo o conteúdo de um site, independentemente da vontade do proprietário do site. A raspagem de conteúdo é uma forma de raspagem de dados, que tem como alvo o conteúdo, que inclui qualquer coisa, desde um gráfico original da web até um currículo profissional e uma avaliação de restaurante. Na maioria dos casos, a raspagem é realizada por bots automatizados que podem coletar informações em grande escala e velocidade.
A raspagem de conteúdo pode ser usada para fins legítimos, como agregar dados para otimização de mecanismos de pesquisa. No entanto, os bots de raspagem são frequentemente usados para redirecionar o conteúdo para fins maliciosos, tais como violar direitos autorais, duplicar o conteúdo para otimização de mecanismos de pesquisa em sites pertencentes ao invasor e roubar tráfego orgânico. Esses bots também podem resultar em análises de dados de uso distorcidas e recursos de servidor esgotados.
Um bot raspador de sites geralmente envia uma série de solicitações HTTP GET e, em seguida, copia e salva todas as informações que o servidor web envia em resposta, abrindo caminho pela hierarquia de um site até que todo o seu conteúdo seja copiado.
Bots raspadores mais sofisticados podem usar JavaScript para, por exemplo, preencher todos os formulários em um site para acessar e baixar o conteúdo restrito. Programas de "automação de navegador" e APIs permitem interação automatizada de bots com os sites e as APIs, como se estivessem usando um navegador web tradicional, em uma tentativa de enganar o servidor do site para que este pense que é um usuário humano que está acessando o conteúdo.
É claro que um indivíduo poderia copiar e colar manualmente um site inteiro, mas os bots podem rastrear e baixar todo o conteúdo de um site em questão de segundos, mesmo para grandes sites de comércio eletrônico com centenas ou milhares de páginas de produtos individuais.
Os bots podem raspar qualquer coisa publicada na internet: texto, imagens, código HTML, código CSS e assim por diante. Os invasores podem usar os dados raspados para vários fins. Um exemplo é a reutilização de texto em outro site para roubar a classificação do primeiro site no mecanismo de pesquisa, ou para enganar os usuários. Um invasor também pode usar os códigos HTML e CSS de um site para duplicar a aparência de um site legítimo ou a marca de outra empresa. Os criminosos cibernéticos podem usar conteúdo roubado para criar sites de phishing que enganam os usuários para que digitem suas informações pessoais e que sejam parecidos com a versão real de outro site.
Existem vários danos para as empresas que podem ocorrer como resultado da raspagem da web.
A raspagem de preços ocorre quando todas as informações de preços em um site são baixadas, geralmente por uma empresa concorrente. Isso pode ser prejudicial se o concorrente ajustar seus preços para torná-los mais favoráveis, levando os consumidores a comprar do concorrente em vez do site original (raspado).
A raspagem de contatos ocorre quando um site é escaneado em busca de informações de contato, como números de telefone e endereços de e-mail, e então essas informações são baixadas. Esse tipo de raspagem geralmente acontece com o propósito de encontrar novos alvos para spam.
Veja O que é raspagem de dados? para saber mais.
As soluções de gerenciamento de bots podem identificar padrões de comportamento dos bots e mitigar as atividades de raspagem de bots, muitas vezes com a ajuda do aprendizado de máquina. A limitação de taxa também pode ajudar a evitar a raspagem de conteúdo: um usuário real não consegue solicitar o conteúdo de várias centenas de páginas em poucos segundos ou minutos, e qualquer "usuário" que faça solicitações tão rapidamente provavelmente é um bot. Além disso, a introdução de desafios intersticiais que os bots não devem ser capazes de resolver pode ajudar a distinguir usuários reais de bots.
O Cloudflare Bot Management protege seu site contra o tráfego de bots maliciosos e foi projetado para manter os bots de raspagem de conteúdo afastados. O Cloudflare Bot Management baseado em aprendizado de máquina consegue identificar bots com base em padrões de comportamento, resultando em menos atrito para os usuários e em menos falsos positivos. Para obter uma abordagem de mitigação consistente para a raspagem, a detecção de bots pode funcionar em combinação com a limitação de taxa de solicitações e o gerenciamento de desafios com o Turnstile.
Organizações menores também podem bloquear ataques de raspagem e obter visibilidade do tráfego de bots com o modo Super Bot Fight, disponível nos planos Cloudflare Pro e Business.