What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

O que é raspagem de dados?

Os invasores podem usar ferramentas de raspagem da internet para acessar dados muito mais rapidamente do que o pretendido. Isso pode resultar no uso de dados para fins não autorizados.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

Defina raspagem de dados
Explique os objetivos por trás da raspagem de dados
Entenda os métodos de mitigação de raspagem de dados
Diferencie a raspagem de dados do rastreamento por crawlers

Conteúdo relacionado

O que é raspagem de conteúdo?

O que é um bot?

O que é gerenciamento de bots?

Ataque de força bruta

O que é preenchimento de credenciais?

Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Copiar o link do artigo

Defenda-se contra ataques de bots, como preenchimento de credenciais e raspagem de conteúdo, com a Cloudflare

Comece a bloquear os bots ruins

O que é raspagem de dados?

A raspagem de dados, em sua forma mais geral, refere-se a uma técnica na qual um programa de computador extrai dados a partir de saída gerada por outro programa. A raspagem de dados geralmente se manifesta na forma de raspagem da web, que é o processo de usar um aplicativo para extrair informações valiosas de um site.

Quais são os diferentes tipos de raspagem da web? Por que raspar dados de um site?

Os bots raspadores podem ser projetados para diversas finalidades, entre elas:

Raspagem de conteúdo - o conteúdo de um site é extraído para replicar a vantagem exclusiva de um produto ou serviço específico que depende de conteúdo. Pegue um site de avaliação de restaurantes, por exemplo; um concorrente pode extrair todas as avaliações e, em seguida, reproduzir o conteúdo em seu próprio site, fingindo que o conteúdo é original (e colhendo os benefícios).
Extração de preços - ao raspar dados de preços, um site pode agregar informações sobre seus concorrentes. Isso pode permitir que ele formule uma vantagem única, principalmente ao superar seus concorrentes e, assim, conquistar seus negócios.
Raspagem de contatos - muitos sites contêm endereços de e-mail e números de telefone em texto sem formatação. Ao raspar páginas como diretórios de funcionários on-line, um raspador pode agregar detalhes de contato para serem usados em listas de e-mails em massa, ligações de robôs ou tentativas maliciosas de engenharia social. Esse é um dos principais métodos usados por spammers e golpistas para localizar novos alvos.

Qual é a diferença entre a raspagem de dados e o rastreamento de dados por crawlers?

Rastreamento se refere ao processo que grandes mecanismos de pesquisa, como o Google, executam quando enviam seus rastreadores robôs, como o Googlebot, para a rede a fim de indexar o conteúdo da internet. A raspagem, por outro lado, geralmente é estruturada especificamente para extrair dados de um determinado site.

Aqui estão três diferenças nas práticas comportamentais entre bots raspadores e bots web crawler:

	Honestidade/transparência	Manobras avançadas	Respeitar o robots.txt
Bot raspador	Finge ser navegadores da web para superar qualquer tentativa de bloquear raspadores.	Pode realizar ações avançadas, como preencher formulários para acessar informações confidenciais.	Normalmente não leva em conta o robots.txt, ou seja, pode extrair conteúdo explicitamente contra a vontade do proprietário do site.
Bot crawler	Indica seu objetivo e não tenta induzir um site a pensar que o crawler é algo que ele não é.	Não tenta acessar partes bloqueadas de um site.	Respeita o robots.txt, o que significa que obedece à vontade do proprietário do site sobre quais dados analisar e quais áreas do site evitar.

Como os sites são raspados?

O processo de raspagem da web é bastante simples, embora a implementação possa ser complexa. Podemos resumir o processo em três etapas:

Primeiro, o trecho de código usado para extrair as informações (o bot raspador) envia uma solicitação HTTP GET para um site específico.
Quando o site responde, o raspador analisa o documento HTML em busca de um padrão específico de dados.
Após terem sido extraídos, os dados são convertidos para seja qual for o formato específico que o autor do bot raspador tenha projetado.

Normalmente, as empresas não querem que seu conteúdo exclusivo seja baixado e reutilizado para fins não autorizados, portanto, podem tentar não expor todos os dados por meio de uma API consumível ou outro recurso de fácil acesso. Os bots raspadores, por outro lado, têm interesse em obter dados do site, independentemente de qualquer tentativa de limitar o acesso. O resultado é um jogo de gato e rato entre bots de raspagem da web e diferentes estratégias de proteção de conteúdo, com cada um tentando ser mais esperto que o outro.

Como é possível mitigar a raspagem da internet?

Estratégias de raspagem inteligentes exigem estratégias de mitigação inteligentes. Os métodos para limitar a exposição a tentativas de raspagem de dados incluem o seguinte:

Solicitações de limite de taxa - a velocidade com que um visitante humano consegue clicar em uma série de páginas ao interagir com um site é bastante previsível. Você nunca verá um humano navegando em cem páginas web por segundo, por exemplo. Os computadores, por outro lado, podem fazer solicitações em grande volume mais rapidamente do que um humano, e os raspadores de dados sem muita prática podem usar técnicas de raspagem sem controle para tentar raspar um site inteiro com grande rapidez. Ao limitar a taxa máxima de solicitações que um determinado endereço de IP pode fazer em um determinado período de tempo, os sites conseguem se proteger de solicitações exploratórias e limitar a quantidade de raspagem de dados que pode ocorrer nesse período.
Modificar a marcação HTML a intervalos regulares - os bots de raspagem de dados dependem de uma formatação consistente para que possam percorrer eficazmente o conteúdo do site e analisar os dados. Um método para interromper esse fluxo de trabalho é alterar regularmente os elementos da marcação HTML. Ao aninhar os elementos de HTML ou alterar outros aspectos da marcação, tentativas simples de raspagem de dados serão dificultadas ou frustradas. Por exemplo, alguns sites randomizam alguma forma de modificação da proteção de conteúdo toda vez que uma página web é renderizada; outros podem atualizar seu front-end a cada poucas semanas para evitar tentativas de raspagem de dados no longo prazo.
Usar desafios para agentes que enviam um alto volume de solicitações - outra medida útil para desacelerar os raspadores de conteúdo é exigir que os visitantes do site respondam a um desafio difícil de ser superado por um computador. Embora um ser humano possa responder ao desafio de forma razoável, um navegador sem interface gráfica* provavelmente não consegue, certamente não em muitas instâncias do desafio.
Outro método de mitigação menos comum exige a incorporação de conteúdo dentro de objetos de mídia, como imagens. Como o conteúdo não existe em uma sequência de caracteres, a cópia do conteúdo se torna muito mais complexa, exigindo um reconhecimento óptico de caracteres (OCR) para extrair os dados de um arquivo de imagem.

*Navegador sem interface gráfica é um tipo de navegador web muito parecido com o Chrome ou o Firefox, mas que, por padrão, não tem uma interface de usuário visual, permitindo que se movimente muito mais rápido do que um navegador web típico. Ao rodar essencialmente no nível de uma linha de comando, um navegador sem interface gráfica pode evitar a renderização de aplicativos web inteiros. Os raspadores de dados escrevem bots que usam navegadores sem interface gráfica para solicitar dados mais rapidamente, pois não há nenhum humano enxergando cada página que está sendo raspada

Como a raspagem da internet pode ser completamente impedida?

A única maneira de garantir um ponto final na raspagem da web é parar completamente de colocar conteúdo em um site. Entretanto, o uso de uma solução avançada de gerenciamento de bots pode ajudar os sites a eliminarem o acesso de bots raspadores.

Proteja-se contra ataques de raspagem com a Cloudflare

O Cloudflare Bot Management usa aprendizado de máquina e análise comportamental para identificar atividades de raspagem maliciosas, protegendo o conteúdo exclusivo e evitando que os bots abusem de um ativo da web. Da mesma forma, o modo Super Bot Fight foi desenvolvido para ajudar organizações menores a se defenderem contra raspadores e outras atividades maliciosas de bots, ao mesmo tempo em que lhes dá mais visibilidade sobre seu tráfego de bots.

Perguntas frequentes

O que é raspagem de dados?

A raspagem de dados é uma técnica em que um programa de computador extrai dados da saída de outro programa. Uma forma comum disso é a raspagem de dados da web

Quais são os diferentes tipos de raspagem da web?

A extração de dados da web pode ser usada para diversas finalidades, incluindo: Raspagem de conteúdo onde um invasor copia o conteúdo de um site para replicá-lo em seu próprio site. Raspagem de preços: um concorrente raspa dados de preços para obter uma vantagem, praticando preços mais baixos. Raspagem de contatos: um bot coleta detalhes de contato, como endereços de e-mail e números de telefone de sites, para serem usados em spam, ligações automáticas ou engenharia social maliciosa.

Qual é a diferença entre a raspagem de dados e o rastreamento da web?

O rastreamento web é o processo usado por grandes mecanismos de pesquisa para indexar o conteúdo da internet, e os bots de rastreamento geralmente são transparentes sobre seu propósito. A raspagem de dados, por outro lado, geralmente é projetada para extrair dados específicos de um site específico.

Como os sites são raspados?

O processo normalmente envolve três etapas. Primeiro, um bot raspador envia uma solicitação HTTP GET para um site. Segundo, quando o site responde, o raspador analisa o documento HTML em busca de um padrão específico de dados. Finalmente, os dados extraídos são convertidos em um formato específico projetado pelo autor do bot.

Como é possível mitigar a raspagem de dados?

Diversas estratégias podem limitar a exposição à extração de dados. Elas incluem: solicitações de limitação de taxa para bloquear tráfego anormalmente rápido de um único endereço de IP, modificar regularmente a marcação HTML de um site para impedir raspadores simples e usar desafios como CAPTCHAs para solicitantes de alto volume.

A raspagem da internet pode ser completamente impedida?

Utilizar uma solução avançada de gerenciamento de bots pode ajudar sites a eliminar o acesso de bots raspadores. O Cloudflare Bot Management, por exemplo, usa aprendizado de máquina e análise comportamental para identificar e interromper atividades de raspagem maliciosas.

COMECE A USAR

Sobre bots

Ataques de bots

Gerenciamento de Bots

Glossário

Navegação no Centro de Aprendizado