O que é raspagem de conteúdo? | Raspagem da web

Raspagem de conteúdo ou raspagem da web é quando os bots baixam ou "raspam" todo o conteúdo de um site, muitas vezes para usar esse conteúdo de forma maliciosa.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Saiba o que é raspagem de conteúdo
  • Entenda como funciona um bot de raspagem da web
  • Explique por que os invasores raspariam o conteúdo
  • Aprenda como parar a raspagem de conteúdo

Conteúdo relacionado


Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Consulte a política de privacidade da Cloudflare para saber como coletamos e processamos seus dados pessoais.

Copiar o link do artigo

O que é raspagem de conteúdo?

Bot de raspagem de conteúdo

Raspagem de conteúdo, ou raspagem da web, ocorre quando um bot baixa muito conteúdo ou todo o conteúdo de um site, independentemente da vontade do proprietário do site. A raspagem de conteúdo é uma forma de raspagem de dados, que tem como alvo o conteúdo, que inclui qualquer coisa, desde um gráfico original da web até um currículo profissional e uma avaliação de restaurante. Na maioria dos casos, a raspagem é realizada por bots automatizados que podem coletar informações em grande escala e velocidade.

A raspagem de conteúdo pode ser usada para fins legítimos, como agregar dados para otimização de mecanismos de pesquisa. No entanto, os bots de raspagem são frequentemente usados para redirecionar o conteúdo para fins maliciosos, tais como violar direitos autorais, duplicar o conteúdo para otimização de mecanismos de pesquisa em sites pertencentes ao invasor e roubar tráfego orgânico. Esses bots também podem resultar em análises de dados de uso distorcidas e recursos de servidor esgotados.

Como os bots raspam o conteúdo?

Um bot raspador de sites geralmente envia uma série de solicitações HTTP GET e, em seguida, copia e salva todas as informações que o servidor web envia em resposta, abrindo caminho pela hierarquia de um site até que todo o seu conteúdo seja copiado.

Bots raspadores mais sofisticados podem usar JavaScript para, por exemplo, preencher todos os formulários em um site para acessar e baixar o conteúdo restrito. Programas de "automação de navegador" e APIs permitem interação automatizada de bots com os sites e as APIs, como se estivessem usando um navegador web tradicional, em uma tentativa de enganar o servidor do site para que este pense que é um usuário humano que está acessando o conteúdo.

É claro que um indivíduo poderia copiar e colar manualmente um site inteiro, mas os bots podem rastrear e baixar todo o conteúdo de um site em questão de segundos, mesmo para grandes sites de comércio eletrônico com centenas ou milhares de páginas de produtos individuais.

Que tipos de conteúdo os bots de raspagem visam?

Os bots podem raspar qualquer coisa publicada na internet: texto, imagens, código HTML, código CSS e assim por diante. Os invasores podem usar os dados raspados para vários fins. Um exemplo é a reutilização de texto em outro site para roubar a classificação do primeiro site no mecanismo de pesquisa, ou para enganar os usuários. Um invasor também pode usar os códigos HTML e CSS de um site para duplicar a aparência de um site legítimo ou a marca de outra empresa. Os criminosos cibernéticos podem usar conteúdo roubado para criar sites de phishing que enganam os usuários para que digitem suas informações pessoais e que sejam parecidos com a versão real de outro site.

Problemas para empresas causados pela raspagem da web

Existem vários danos para as empresas que podem ocorrer como resultado da raspagem da web.

  • Subcotação de preços - os concorrentes roubam meus preços, me subcotam e depois roubam minhas vendas. Isso afeta qualquer cliente que esteja vendendo algo, seja um produto ou serviço.
  • Análises de dados de negócios distorcidas afetam o planejamento - as empresas buscam métricas de uso como um fator nas decisões de negócios, especialmente em relação a marketing, apresentação e onde dedicar recursos adicionais. Os raspadores poluem esses dados de uso.
  • Desempenho do site prejudicado - operações exaustivas executadas por raspadores podem causar lentidão nos sites. Em casos de raspagem flagrante, os servidores dos clientes podem não ser capazes de lidar com o tráfego, tornando o site inacessível para usuários legítimos. Isso é especialmente prejudicial para os varejistas on-line porque impediria as vendas.
  • Custo operacional adicionado - a largura de banda usada pelos raspadores pode aumentar significativamente os custos.
  • Os usuários vão a outro lugar para obter minhas informações - os usuários finais podem encontrar as mesmas informações por meio de um chatbot de IA ou outro site, portanto, a fonte das informações originais perde tráfego. Isso é especialmente prejudicial para empresas cujos modelos de negócios dependem de assinaturas pagas ou receita de anúncios, notavelmente sites de notícias que apenas concedem acesso ilimitado a usuários inscritos ou sites de entretenimento que dependem fortemente de visualizações de anúncios para obter receita.

Que outros tipos de raspagem da web existem?

Extração de preços

A raspagem de preços ocorre quando todas as informações de preços em um site são baixadas, geralmente por uma empresa concorrente. Isso pode ser prejudicial se o concorrente ajustar seus preços para torná-los mais favoráveis, levando os consumidores a comprar do concorrente em vez do site original (raspado).

Raspagem de contatos

A raspagem de contatos ocorre quando um site é escaneado em busca de informações de contato, como números de telefone e endereços de e-mail, e então essas informações são baixadas. Esse tipo de raspagem geralmente acontece com o propósito de encontrar novos alvos para spam.

Veja O que é raspagem de dados? para saber mais.

Como as empresas podem evitar a raspagem da web?

As soluções de gerenciamento de bots podem identificar padrões de comportamento dos bots e mitigar as atividades de raspagem de bots, muitas vezes com a ajuda do aprendizado de máquina. A limitação de taxa também pode ajudar a evitar a raspagem de conteúdo: um usuário real não consegue solicitar o conteúdo de várias centenas de páginas em poucos segundos ou minutos, e qualquer "usuário" que faça solicitações tão rapidamente provavelmente é um bot. Além disso, a introdução de desafios intersticiais que os bots não devem ser capazes de resolver pode ajudar a distinguir usuários reais de bots.

Proteja-se contra raspagem da web com a Cloudflare

O Cloudflare Bot Management protege seu site contra o tráfego de bots maliciosos e foi projetado para manter os bots de raspagem de conteúdo afastados. O Cloudflare Bot Management baseado em aprendizado de máquina consegue identificar bots com base em padrões de comportamento, resultando em menos atrito para os usuários e em menos falsos positivos. Para obter uma abordagem de mitigação consistente para a raspagem, a detecção de bots pode funcionar em combinação com a limitação de taxa de solicitações e o gerenciamento de desafios com o Turnstile.

Organizações menores também podem bloquear ataques de raspagem e obter visibilidade do tráfego de bots com o modo Super Bot Fight, disponível nos planos Cloudflare Pro e Business.