O que é raspagem de dados?

Os invasores podem usar ferramentas de raspagem da internet para acessar dados muito mais rapidamente do que o pretendido. Isso pode resultar no uso de dados para fins não autorizados.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Defina raspagem de dados
  • Explique os objetivos por trás da raspagem de dados
  • Entenda os métodos de mitigação de raspagem de dados
  • Diferencie a raspagem de dados do rastreamento por crawlers

Conteúdo relacionado


Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Consulte a política de privacidade da Cloudflare para saber como coletamos e processamos seus dados pessoais.

Copiar o link do artigo

Defenda-se contra ataques de bots, como preenchimento de credenciais e raspagem de conteúdo, com a Cloudflare

O que é raspagem de dados?

A raspagem de dados, em sua forma mais geral, refere-se a uma técnica na qual um programa de computador extrai dados a partir de saída gerada por outro programa. A raspagem de dados geralmente se manifesta na forma de raspagem da web, que é o processo de usar um aplicativo para extrair informações valiosas de um site.

Raspagem de dados

Quais são os diferentes tipos de raspagem da web? Por que raspar dados de um site?

Os bots raspadores podem ser projetados para diversas finalidades, entre elas:

  1. Raspagem de conteúdo - o conteúdo de um site é extraído para replicar a vantagem exclusiva de um produto ou serviço específico que depende de conteúdo. Pegue um site de avaliação de restaurantes, por exemplo; um concorrente pode extrair todas as avaliações e, em seguida, reproduzir o conteúdo em seu próprio site, fingindo que o conteúdo é original (e colhendo os benefícios).
  2. Extração de preços - ao raspar dados de preços, um site pode agregar informações sobre seus concorrentes. Isso pode permitir que ele formule uma vantagem única, principalmente ao superar seus concorrentes e, assim, conquistar seus negócios.
  3. Raspagem de contatos - muitos sites contêm endereços de e-mail e números de telefone em texto sem formatação. Ao raspar páginas como diretórios de funcionários on-line, um raspador pode agregar detalhes de contato para serem usados em listas de e-mails em massa, ligações de robôs ou tentativas maliciosas de engenharia social. Esse é um dos principais métodos usados por spammers e golpistas para localizar novos alvos.

Qual é a diferença entre a raspagem de dados e o rastreamento de dados por crawlers?

Rastreamento se refere ao processo que grandes mecanismos de pesquisa, como o Google, executam quando enviam seus rastreadores robôs, como o Googlebot, para a rede a fim de indexar o conteúdo da internet. A raspagem, por outro lado, geralmente é estruturada especificamente para extrair dados de um determinado site.

Aqui estão três diferenças nas práticas comportamentais entre bots raspadores e bots web crawler:

  Honestidade/transparência Manobras avançadas Respeitar o robots.txt
Bot raspador Finge ser navegadores da web para superar qualquer tentativa de bloquear raspadores. Pode realizar ações avançadas, como preencher formulários para acessar informações confidenciais. Normalmente não leva em conta o robots.txt, ou seja, pode extrair conteúdo explicitamente contra a vontade do proprietário do site.
Bot crawler Indica seu objetivo e não tenta induzir um site a pensar que o crawler é algo que ele não é. Não tenta acessar partes bloqueadas de um site. Respeita o robots.txt, o que significa que obedece à vontade do proprietário do site sobre quais dados analisar e quais áreas do site evitar.

Como os sites são raspados?

O processo de raspagem da web é bastante simples, embora a implementação possa ser complexa. Podemos resumir o processo em três etapas:

  1. Primeiro, o trecho de código usado para extrair as informações (o bot raspador) envia uma solicitação HTTP GET para um site específico.
  2. Quando o site responde, o raspador analisa o documento HTML em busca de um padrão específico de dados.
  3. Após terem sido extraídos, os dados são convertidos para seja qual for o formato específico que o autor do bot raspador tenha projetado.

Normalmente, as empresas não querem que seu conteúdo exclusivo seja baixado e reutilizado para fins não autorizados, portanto, podem tentar não expor todos os dados por meio de uma API consumível ou outro recurso de fácil acesso. Os bots raspadores, por outro lado, têm interesse em obter dados do site, independentemente de qualquer tentativa de limitar o acesso. O resultado é um jogo de gato e rato entre bots de raspagem da web e diferentes estratégias de proteção de conteúdo, com cada um tentando ser mais esperto que o outro.

Como é possível mitigar a raspagem da internet?

Estratégias de raspagem inteligentes exigem estratégias de mitigação inteligentes. Os métodos para limitar a exposição a tentativas de raspagem de dados incluem:

  1. Solicitações de limite de taxa - a velocidade com que um visitante humano consegue clicar em uma série de páginas ao interagir com um site é bastante previsível. Você nunca verá um humano navegando em cem páginas web por segundo, por exemplo. Os computadores, por outro lado, podem fazer solicitações em grande volume mais rapidamente do que um humano, e os raspadores de dados sem muita prática podem usar técnicas de raspagem sem controle para tentar raspar um site inteiro com grande rapidez. Ao limitar a taxa máxima de solicitações que um determinado endereço de IP pode fazer em um determinado período de tempo, os sites conseguem se proteger de solicitações exploratórias e limitar a quantidade de raspagem de dados que pode ocorrer nesse período.
  2. Modificar a marcação HTML a intervalos regulares - os bots de raspagem de dados dependem de uma formatação consistente para que possam percorrer eficazmente o conteúdo do site e analisar os dados. Um método para interromper esse fluxo de trabalho é alterar regularmente os elementos da marcação HTML. Ao aninhar os elementos de HTML ou alterar outros aspectos da marcação, tentativas simples de raspagem de dados serão dificultadas ou frustradas. Por exemplo, alguns sites randomizam alguma forma de modificação da proteção de conteúdo toda vez que uma página web é renderizada; outros podem atualizar seu front-end a cada poucas semanas para evitar tentativas de raspagem de dados no longo prazo.
  3. Usar desafios para agentes que enviam um alto volume de solicitações - outra medida útil para desacelerar os raspadores de conteúdo é exigir que os visitantes do site respondam a um desafio difícil de ser superado por um computador. Embora um ser humano possa responder ao desafio de forma razoável, um navegador sem interface gráfica* provavelmente não consegue, certamente não em muitas instâncias do desafio.
  4. Outro método de mitigação menos comum exige a incorporação de conteúdo dentro de objetos de mídia, como imagens. Como o conteúdo não existe em uma sequência de caracteres, a cópia do conteúdo se torna muito mais complexa, exigindo um reconhecimento óptico de caracteres (OCR) para extrair os dados de um arquivo de imagem.

*Navegador sem interface gráfica é um tipo de navegador web muito parecido com o Chrome ou o Firefox, mas que, por padrão, não tem uma interface de usuário visual, permitindo que se movimente muito mais rápido do que um navegador web típico. Ao rodar essencialmente no nível de uma linha de comando, um navegador sem interface gráfica pode evitar a renderização de aplicativos web inteiros. Os raspadores de dados escrevem bots que usam navegadores sem interface gráfica para solicitar dados mais rapidamente, pois não há nenhum humano enxergando cada página que está sendo raspada

Como a raspagem da internet pode ser completamente impedida?

A única maneira de garantir um ponto final na raspagem da web é parar completamente de colocar conteúdo em um site. Entretanto, o uso de uma solução avançada de gerenciamento de bots pode ajudar os sites a eliminarem o acesso de bots raspadores.

Proteja-se contra ataques de raspagem com a Cloudflare

O Cloudflare Bot Management usa aprendizado de máquina e análise comportamental para identificar atividades de raspagem maliciosas, protegendo o conteúdo exclusivo e evitando que os bots abusem de um ativo da web. Da mesma forma, o modo Super Bot Fight foi desenvolvido para ajudar organizações menores a se defenderem contra raspadores e outras atividades maliciosas de bots, ao mesmo tempo em que lhes dá mais visibilidade sobre seu tráfego de bots.