What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

¿Qué es la apropiación de datos?

Los atacantes pueden usar herramientas de apropiación web para acceder a los datos mucho más rápido de lo previsto. Esto puede dar lugar a que los datos se utilicen para fines no autorizados.

Metas de aprendizaje

Después de leer este artículo podrás:

Definir la apropiación de datos
Explicar los propósitos detrás de la apropiación web
Comprender los métodos para mitigar la apropiación de datos
Diferenciar entre la apropiación de datos y la araña web de datos

Contenido relacionado

¿Qué es la apropiación de contenidos?

¿Qué es un bot?

¿Qué es la gestión de bots?

Ataque por fuerza bruta

¿Qué es el relleno de credenciales?

¿Quieres saber más?

Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.

Copiar el enlace del artículo

Defiéndete contra los ataques de bots como el relleno de credenciales y la apropiación de contenidos con Cloudflare

Empieza a detener el bot malicioso

¿Qué es la apropiación de datos?

La apropiación de datos, en su forma más general, se refiere a una técnica en la cual un programa de computadora extrae datos de la salida generada por otro programa. La apropiación de datos se manifiesta comúnmente en la apropiación de datos de sitios web, el proceso de utilizar una aplicación para extraer información valiosa de un sitio web.

¿Cuáles son los diferentes tipos de apropiación de datos de sitios web (web scraping)? ¿Por qué se extraen datos de los sitios web?

Los bots de apropiación pueden diseñarse para muchos propósitos, tales como:

Apropiación de contenido: el contenido de un sitio web se extrae para replicar la ventaja única de un producto o servicio en particular que se basa en el contenido. Toma un sitio de reseñas de restaurantes, por ejemplo. Un competidor podría extraer todas las reseñas y luego reproducir el contenido en su propio sitio web, simulando que el contenido es original (y aprovecharse de los beneficios).
Apropiación de precios: al apropiarse de los datos de precios, los competidores pueden agregar información sobre la competencia.Esto puede permitirles formular una ventaja única, y de esta manera ofrecer precios más bajos que sus competidores y arrebatarles su negocio.
Apropiación de contactos: muchos sitios web tienen direcciones de correo electrónico y números de teléfono en texto sin formato. Al extraer páginas como los directorios de empleados en línea, un "scraper" puede agregar detalles de contacto para usarlos en listas de correo masivas, llamadas automatizadas o intentos maliciosos de ingeniería social.Este es uno de los principales métodos que utilizan tanto los spammers como los estafadores para encontrar nuevos objetivos.

¿Cuál es la diferencia entre la apropiación de datos y el rastreo de datos?

El rastreo hace referencia al proceso que realizan los grandes motores de búsqueda como Google cuando envían sus rastreadores robot, como Googlebot, a la red para indexar el contenido de Internet. Por otro lado, Scraping suele estar estructurado específicamente para extraer datos de un sitio web específico.

Aquí hay 3 diferencias en la práctica de comportamiento entre los bots de apropiación y los bots de araña web (crawler):

	Honestidad/transparencia	Maniobras avanzadas	Respetar robots.txt
Bot rastreador	Simularán ser navegadores web para eludir cualquier intento de bloqueo a los rastreadores.	Puede realizar acciones avanzadas, como rellenar formularios para acceder a información privada.	Por lo general, no tiene en cuenta los robots.txt, lo que significa que pueden extraer contenido explícitamente en contra de la voluntad del propietario del sitio web.
Bot rastreador	Indicará su propósito, no intentará engañar a un sitio web para que piense que el rastreador es algo que no es.	No intentará acceder a las partes restringidas de un sitio web.	Respeta los robots.txt, lo que significa que cumplen con la voluntad del propietario del sitio web en cuanto a qué datos analizar frente a qué áreas del sitio web evitar.

¿Cómo se rastrean los sitios web?

El proceso de rastreo web es bastante simple, aunque la implementación puede ser compleja. Podemos resumir el proceso en 3 pasos:

Primero, el fragmento de código utilizado para extraer la información (el bot de rastreo) envía una solicitud HTTP GET a un sitio web específico.
Cuando el sitio web responde, el scraper analiza el documento HTML en busca de un patrón de datos específico.
Una vez que se extraen los datos, se convierten a cualquier formato específico diseñado por el autor del bot de apropiación.

Por lo general, las empresas no desean que su contenido exclusivo se descargue y reutilice para fines no autorizados, por lo tanto, podrían tratar de no exponer todos los datos a través de una API consumible u otro recurso de fácil acceso. A los bots de apropiación, por otro lado, les interesa obtener datos del sitio web independientemente de cualquier intento por limitar el acceso. Como resultado, se genera el juego del gato y el ratón entre los bots de apropiación web y varias estrategias de protección de contenido, y cada uno intenta superar tácticamente al otro.

¿Cómo se mitiga la apropiación web?

Las estrategias de rastreo inteligente requieren estrategias de mitigación inteligentes. Los siguiente son los métodos para limitar la exposición a la apropiación de datos:

Solicitudes de limitación de velocidad: para un visitante humano que hace clic en una serie de páginas web en un sitio web, la velocidad de interacción con el sitio web es bastante predecible; por ejemplo, un humano nunca podría navegar 100 páginas web por segundo. Las computadoras, por otro lado, pueden hacer solicitudes que son órdenes de magnitud más rápidas que un humano, y los rastreadores de datos novatos pueden usar técnicas de rastreo sin aceleración para intentar rastrear un sitio web completo muy rápidamente. Al limitar la velocidad del número máximo de solicitudes que una dirección IP es capaz de hacer durante un período de tiempo determinado, los sitios web pueden protegerse de las solicitudes de explotación y limitar la cantidad de extracción de datos que puede ocurrir en ese período.
Modificar el marcado HTML a intervalos regulares: los bots de apropiación de datos dependen de un formato coherente para recorrer, de manera efectiva, el contenido del sitio web y analizar los datos. Un método para interrumpir este flujo de trabajo es cambiar regularmente el marcado HTML. Al anidar elementos HTML o al cambiar otros aspectos del marcado, los intentos simples de apropiación de datos se verán obstaculizados o frustrados. Por ejemplo, algunos sitios web aleatorizarán alguna forma de modificación para proteger el contenido cada vez que se represente una página web; otros pueden actualizar su front-end cada pocas semanas para evitar la apropiación de datos a largo plazo.
Usar desafíos para solicitantes de grandes volúmenes: otro paso útil para desacelerar a los rastreadores de contenido es exigir a los visitantes del sitio web que respondan a un desafío que es difícil de superar para una computadora. Si bien un ser humano puede responder razonablemente el desafío, es muy probable que un navegador sin interfaz gráfica* no pueda hacerlo en muchas instancias del desafío.
Otro método de mitigación menos común consiste en integrar contenido dentro de objetos multimedia, como imágenes. Como el contenido no existe en una cadena de caracteres, copiar el contenido es mucho más complejo y se requiere un reconocimiento óptico de caracteres (OCR) para extraer los datos de un archivo de imagen.

*Un navegador sin interfaz gráfica es un tipo de navegador web, muy parecido a Chrome o Firefox, pero no tiene una interfaz de usuario visual predeterminada, lo que le permite moverse mucho más rápido que un navegador web típico. Al ejecutarse esencialmente al nivel de una línea de comando, un navegador sin interfaz gráfica es capaz de evitar la representación de aplicaciones web completas. Los rastreadores de datos escriben bots que utilizan navegadores sin interfaz gráfica para solicitar datos más rápido, ya que no hay humanos viendo cada página de la que se están extrayendo datos

¿Cómo se detiene la apropiación web por completo?

La única forma de detener totalmente la apropiación web es dejar de poner todo el contenido en un sitio web. Sin embargo, el uso de una solución avanzada de gestión de bots puede ayudar a los sitios web a eliminar el acceso de los bots de rastreo.

Protección contra los ataques de rastreo con Cloudflare

Gestión de bots de Cloudflare utiliza el aprendizaje automático y el análisis de comportamiento para identificar la actividad de rastreo maliciosa, protegiendo el contenido único y evitando que los bots abusen de una propiedad web. De forma similar, el Modo Super Bot Fight está diseñado para ayudar a las organizaciones más pequeñas a defenderse de los rastreadores y de otras actividades maliciosas de bots, al tiempo que brinda más visibilidad de su tráfico de bots.

Preguntas frecuentes

¿Qué es la apropiación de datos?

La apropiación de datos es una técnica en la que un programa informático extrae datos de la salida de otro programa. Una forma común de esto es la apropiación web.

¿Cuáles son los diferentes tipos de apropiación web?

La apropiación web se puede utilizar para muchos fines, entre ellos, los siguientes: La apropiación de contenidos: un atacante extrae el contenido de un sitio web para replicarlo en su propio sitio. Extracción de precios: un competidor extrae datos de precios para obtener una ventaja al ofrecer precios más bajos. Extracción de contactos: un bot recopila información de contacto, como direcciones de correo electrónico y números de teléfono, de sitios web para usarlos en spam, llamadas automáticas o ingeniería social maliciosa.

¿Cuál es la diferencia entre la apropiación de datos y el rastreo web?

El rastreo web es el proceso que utilizan los grandes motores de búsqueda para indexar contenido de Internet, y los bots de rastreo generalmente son transparentes con respecto a su propósito. La apropiación de datos, por otro lado, está diseñada, por lo general, para extraer datos específicos de un sitio web en particular.

¿Cómo se rastrean los sitios web?

El proceso suele implicar tres pasos. Primero, un bot de rastreo envía una solicitud HTTP GET a un sitio web. Segundo, cuando el sitio web responde, el rastreador analiza el documento HTML en busca de un patrón de datos específico. Finalmente, los datos extraídos se convierten a un formato específico diseñado por el autor del bot.

¿Cómo se puede mitigar la apropiación de datos?

Existen varias estrategias para limitar la exposición a la apropiación de datos. Esto incluye rate limiting de las solicitudes para bloquear el tráfico anormalmente rápido desde una sola dirección IP, modificar con regularidad el código HTML de un sitio web para interrumpir los apropiadores simples y utilizar desafíos, como CAPTCHA para solicitantes de gran volumen.

¿Se puede detener la apropiación web por completo?

Con una solución avanzada de gestión de bots se puede ayudar a los sitios web a eliminar el acceso de los bots de rastreo. Bot Management de Cloudflare, por ejemplo, utiliza el aprendizaje automático y el análisis de comportamiento para identificar y detener la actividad de apropiación maliciosa.

PRIMEROS PASOS

Acerca de bots

Ataques de bots

Gestión de bots

Glosario

Navegación del centro de aprendizaje