O que é raspagem de conteúdo? | Raspagem da web

Raspagem de conteúdo ou raspagem da web é quando os bots baixam ou "raspam" todo o conteúdo de um site, muitas vezes para usar esse conteúdo de forma maliciosa.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Saiba o que é raspagem de conteúdo
  • Entenda como funciona um bot de raspagem da web
  • Explique por que os invasores raspariam o conteúdo
  • Aprenda como parar a raspagem de conteúdo

Copiar o link do artigo

O que é raspagem de conteúdo?

Raspagem de conteúdo, ou web scraping, refere-se a quando um bot baixa muito conteúdo ou todo o conteúdo de um site, independentemente da vontade do proprietário do site. A raspagem de conteúdo é uma forma de raspagem de dados. Basicamente, a raspagem de conteúdo é sempre realizada por bots automatizados. Os bots raspadores de sites às vezes podem baixar todo o conteúdo de um site em questão de segundos.

Bots de raspagem de conteúdo são usados muitas vezes para redirecionar o conteúdo para fins maliciosos, tais como duplicar o conteúdo para SEO nos sites que o invasor possui, violar direitos autorais e roubar tráfego orgânico. A raspagem de conteúdo pode envolver o preenchimento e o envio de formulários para acessar conteúdo restrito adicional, e como subproduto isso resulta em lixo eletrônico no banco de dados de uma empresa. Além disso, atender às solicitações HTTP dos bots absorve recursos do servidor que poderiam ser dedicados a usuários humanos.

Como os bots raspam o conteúdo?

Um bot raspador de sites geralmente envia uma série de solicitações HTTP GET e depois copia e salva todas as informações que o servidor web envia em resposta, abrindo caminho pela hierarquia de um site até que todo o seu conteúdo seja copiado.

Os bots raspadores mais sofisticados podem usar JavaScript para, por exemplo, preencher todos os formulários de um site e baixar qualquer conteúdo restrito. Programas de "automatização do navegador" e APIs permitem a interação automatizada do bot com os sites e as APIs, como se estivessem usando um navegador web tradicional, em uma tentativa de enganar o servidor do site para que este pense que é um usuário humano que está acessando o conteúdo.

É claro que um indivíduo poderia copiar e colar manualmente um site inteiro, mas frequentemente, os bots podem rastrear e baixar todo o conteúdo de um site em questão de segundos, mesmo no caso de grandes sites como sites de comércio eletrônico com centenas ou milhares de páginas de produtos individuais.

Quais os tipos de conteúdo que os bots de raspagem de conteúdo visam?

Os bots podem raspar qualquer coisa publicada na internet: texto, imagens, código HTML, código CSS e assim por diante. Os invasores podem usar os dados raspados para vários propósitos. O texto pode ser reutilizado em outro site para roubar a classificação do primeiro site no mecanismo de pesquisa, ou para enganar os usuários. Um invasor pode usar o código HTML e CSS de um site para duplicar a aparência de um site legítimo ou a marca de outra empresa. Os criminosos cibernéticos podem usar conteúdo roubado para criar sites de phishing que enganam os usuários para que digitem suas informações pessoais e que sejam parecidos com a versão real de outro site.

Que outros tipos de raspagem da web existem?

Raspagem de contatos

Refere-se à busca de informações de contato nos sites, tais como números de telefone e endereços de e-mail e, em seguida, à realização de download dessas informações. Os bots de coleta de e-mail são um tipo de bot raspador que visa especificamente endereços de e-mail, geralmente com o propósito de encontrar novos alvos para spam.

Raspagem de preços

Refere-se a quando uma empresa baixa todas as informações de preços do site de uma empresa concorrente para que possam ajustar seus próprios preços de acordo.

Veja O que é raspagem de dados? para saber mais.

Como as empresas podem evitar a raspagem da web?

As soluções de gerenciamento de bots podem identificar padrões de comportamento dos bots e mitigar as atividades de raspagem de bots, muitas vezes com a ajuda do aprendizado de máquina. A Rate Limiting também pode ajudar a evitar a raspagem de conteúdo: um usuário real não consegue solicitar o conteúdo de várias centenas de páginas em poucos segundos ou minutos, e qualquer "usuário" que faça solicitações assim tão rapidamente provavelmente é um bot. Os desafios do tipo CAPTCHA também podem ajudar a separar os usuários reais dos bots.

O Gerenciamento de Bots da Cloudflare foi desenvolvido para bloquear ataques de raspagem de conteúdo, juntamente com a mitigação de bots para outros tipos de tráfego malicioso. Ao contrário das soluções de rate limiting ou CAPTCHA, o Gerenciamento de Bots da Cloudflare baseado em aprendizagem de máquina pode identificar bots com base em padrões comportamentais, acarretando menos atrito para os usuários e menos falsos positivos (usuários acidentalmente identificados como bots). Organizações menores também podem bloquear ataques de raspagem de conteúdo e obter visibilidade para seu tráfego de bot com o Super Bot Fight Mode, agora disponível nos planos Cloudflare Pro e Business.