Raspagem de conteúdo ou raspagem da web é quando os bots baixam ou "raspam" todo o conteúdo de um site, muitas vezes para usar esse conteúdo de forma maliciosa.
Após ler este artigo, você será capaz de:
Copiar o link do artigo
Raspagem de conteúdo, ou web scraping, refere-se a quando um bot baixa muito conteúdo ou todo o conteúdo de um site, independentemente da vontade do proprietário do site. A raspagem de conteúdo é uma forma de raspagem de dados. Basicamente, a raspagem de conteúdo é sempre realizada por bots automatizados. Os bots raspadores de sites às vezes podem baixar todo o conteúdo de um site em questão de segundos.
Bots de raspagem de conteúdo são usados muitas vezes para redirecionar o conteúdo para fins maliciosos, tais como duplicar o conteúdo para SEO nos sites que o invasor possui, violar direitos autorais e roubar tráfego orgânico. A raspagem de conteúdo pode envolver o preenchimento e o envio de formulários para acessar conteúdo restrito adicional, e como subproduto isso resulta em lixo eletrônico no banco de dados de uma empresa. Além disso, atender às solicitações HTTP dos bots absorve recursos do servidor que poderiam ser dedicados a usuários humanos.
Um bot raspador de sites geralmente envia uma série de solicitações HTTP GET e depois copia e salva todas as informações que o servidor web envia em resposta, abrindo caminho pela hierarquia de um site até que todo o seu conteúdo seja copiado.
Os bots raspadores mais sofisticados podem usar JavaScript para, por exemplo, preencher todos os formulários de um site e baixar qualquer conteúdo restrito. Programas de "automatização do navegador" e APIs permitem a interação automatizada do bot com os sites e as APIs, como se estivessem usando um navegador web tradicional, em uma tentativa de enganar o servidor do site para que este pense que é um usuário humano que está acessando o conteúdo.
É claro que um indivíduo poderia copiar e colar manualmente um site inteiro, mas frequentemente, os bots podem rastrear e baixar todo o conteúdo de um site em questão de segundos, mesmo no caso de grandes sites como [sites de comércio eletrônico](https://www.cloudflare.com/ecommerce/) com centenas ou milhares de páginas de produtos individuais.
Os bots podem raspar qualquer coisa publicada na internet: texto, imagens, código HTML, código CSS e assim por diante. Os invasores podem usar os dados raspados para vários propósitos. O texto pode ser reutilizado em outro site para roubar a classificação do primeiro site no mecanismo de pesquisa, ou para enganar os usuários. Um invasor pode usar o código HTML e CSS de um site para duplicar a aparência de um site legítimo ou a marca de outra empresa. Os criminosos cibernéticos podem usar conteúdo roubado para criar sites de phishing que enganam os usuários para que digitem suas informações pessoais e que sejam parecidos com a versão real de outro site.
Refere-se à busca de informações de contato nos sites, tais como números de telefone e endereços de e-mail e, em seguida, à realização de download dessas informações. Os bots de coleta de e-mail são um tipo de bot raspador que visa especificamente endereços de e-mail, geralmente com o propósito de encontrar novos alvos para spam.
Refere-se a quando uma empresa baixa todas as informações de preços do site de uma empresa concorrente para que possam ajustar seus próprios preços de acordo.
Veja O que é raspagem de dados? para saber mais.
As soluções de gerenciamento de bots podem identificar padrões de comportamento dos bots e mitigar as atividades de raspagem de bots, muitas vezes com a ajuda do aprendizado de máquina. A Rate Limiting também pode ajudar a evitar a raspagem de conteúdo: um usuário real não consegue solicitar o conteúdo de várias centenas de páginas em poucos segundos ou minutos, e qualquer "usuário" que faça solicitações assim tão rapidamente provavelmente é um bot. Os desafios do tipo CAPTCHA também podem ajudar a separar os usuários reais dos bots.
O Cloudflare Bot Management foi desenvolvido para bloquear ataques de raspagem de conteúdo, juntamente com a mitigação de bots para outros tipos de tráfego malicioso. Ao contrário das soluções de rate limiting ou CAPTCHA, o Cloudflare Bot Management baseado em aprendizagem de máquina pode identificar bots com base em padrões comportamentais, acarretando menos atrito para os usuários e menos falsos positivos (usuários acidentalmente identificados como bots). Organizações menores também podem bloquear ataques de raspagem de conteúdo e obter visibilidade para seu tráfego de bot com o Super Bot Fight Mode, agora disponível nos planos Cloudflare Pro e Business.
Vendas
Sobre bots
Ataques de bots
Gerenciamento de Bots
Glossário
Navegação no Centro de Aprendizado