La apropiación de contenido o apropiación web es cuando los bots descargan o "se apropian" de todo el contenido de un sitio web, a menudo para usarlo con fines maliciosos.
Después de leer este artículo podrás:
Contenido relacionado
Seguridad de aplicaciones web
¿Qué es un ataque de ingeniería social?
Ataques en ruta
Ataque de KRACK
Ataque de desbordamiento de búfer
Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.
Copiar el enlace del artículo
La apropiación de contenidos, o apropiación web, hace referencia a cuando un bot descarga gran parte o todo el contenido de un sitio web, independientemente de la voluntad del propietario del sitio web. La apropiación de contenidos es una forma de apropiación de datos. que se dirige al contenido, que incluye cualquier cosa, desde un gráfico web original hasta un currículum profesional o una reseña de un restaurante. En la mayoría de los casos, la apropiación la llevan a cabo bots automatizados que pueden recopilar información a gran escala y velocidad.
La apropiación de contenidos se puede utilizar para fines legítimos, como la agregación de datos para optimizar los motores de búsqueda. Sin embargo, los bots de apropiación a menudo se utilizan para reutilizar el contenido con fines maliciosos, como violar los derechos de autor, duplicar el contenido para optimizar el motor de búsqueda en sitios web de propiedad del atacante y robar tráfico orgánico. Estos bots también pueden generar análisis de uso sesgados y agotar los recursos del servidor.
Un bot de apropiación de sitios web generalmente envía una serie de solicitudes HTTP GET, luego copia y guarda toda la información que el servidor web envíe como respuesta, abriéndose camino a través de la jerarquía de un sitio web hasta que haya copiado todo el contenido.
Los bots de apropiación más sofisticados pueden usar JavaScript para, por ejemplo, completar cada formulario en un sitio web para acceder y luego descargar contenido privado. Los programas de "automatización del navegador" y las API permiten la interacción automatizada de los bots con los sitios web y las API como si estuvieran utilizando un navegador web tradicional, con el fin de engañar al servidor del sitio web para que piense que un usuario humano está accediendo al contenido.
Evidentemente, una persona podría copiar y pegar manualmente todo un sitio web, pero los bots pueden rastrear y descargar todo el contenido de un sitio web en cuestión de segundos, incluso en el caso de sitios grandes de comercio electrónico con cientos o miles de páginas de productos individuales.
Los bots pueden apropiarse de cualquier cosa que se publica en Internet: texto, imágenes, código HTML, código CSS, etc. Los atacantes pueden utilizar los datos extraídos para una variedad de propósitos. Por ejemplo, la reutilización de texto en otro sitio web para robar la clasificación del motor de búsqueda del primer sitio web, o para engañar a los usuarios. Un atacante también podría utilizar el código HTML y CSS de un sitio web para duplicar el aspecto de un sitio web legítimo o la marca de otra empresa. Los ciberdelincuentes pueden utilizar el contenido robado para crear sitios web de phishing que engañan a los usuarios para que introduzcan información personal aparentando ser la versión real de otro sitio web.
Se producen varios daños comerciales potenciales como resultado de la apropiación web.
La apropiación de precios hace referencia a la descarga de toda la información de precios de un sitio web, a menudo por parte de una empresa de la competencia. Esto puede ser perjudicial si el competidor ajusta sus precios para hacerlos más favorables, e incita a los consumidores a comprar al competidor en lugar de hacerlo en el sitio web original (cuyo contenido ha sido extraído).
La "apropiación de contactos" hace referencia a cuando se escanea un sitio web en busca de información de contacto, como números de teléfono y direcciones de correo electrónico, y luego se descarga esa información. Este tipo de "apropiación" suele ocurrir con el fin de buscar nuevos objetivos para el spam.
Ver ¿Qué es la apropiación de datos? para más información.
Las soluciones de gestión de bots pueden identificar los patrones de comportamiento de los bots y mitigar las actividades de apropiación de bots, a menudo con la ayuda del aprendizaje automático. Rate limiting también puede ayudar a evitar la apropiación de contenidos: no es probable que un usuario real solicite el contenido de varios cientos de páginas en unos segundos o minutos, y cualquier "usuario" que haga solicitudes tan rápido probablemente sea un bot. Además, la introducción de desafíos intersticiales que los bots supuestamente no pueden resolver, ayuda a distinguir a los usuarios reales de los bots.
La gestión de bots de Cloudflare protege tu sitio web del tráfico de bots maliciosos, y está diseñada para mantener bajo control los bots que hacen apropiación de contenidos. La gestión de bots de Cloudflare basada en el aprendizaje automático puede identificar bots en función de patrones de comportamiento, lo que se traduce en menos fricción para los usuarios y menos falsos positivos. Para lograr un enfoque de mitigación sólido contra la apropiación de datos, la detección de bots puede funcionar de manera conjunta con las solicitudes de rate limiting y la gestión de desafíos con Turnstile.
Las organizaciones más pequeñas también pueden bloquear los ataques de scraping y obtener visibilidad de su tráfico de bots con el Super Bot Fight Mode, disponible en los planes Pro y Business de Cloudflare.
Primeros pasos
Acerca de bots
Ataques de bots
Gestión de bots
Glosario
Navegación del centro de aprendizaje