La apropiación de contenido o apropiación web es cuando los bots descargan o "se apropian" de todo el contenido de un sitio web, a menudo para usarlo con fines maliciosos.
Después de leer este artículo podrás:
Contenido relacionado
¿Seguridad de aplicaciones web?
¿Qué es un ataque de ingeniería social?
Ataques en ruta
Ataque de KRACK
Ataque de desbordamiento de búfer
Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.
Copiar el enlace del artículo
La apropiación de contenido, o apropiación web, hace referencia a cuando un bot descarga gran parte o todo el contenido de un sitio web, sin tener en cuenta los deseos del propietario del mismo. La apropiación de contenido es una forma de apropiación de datos. Básicamente, siempre la llevan a cabo bots automatizados. En ocasiones, los bots de apropiación de sitios web pueden descargar todo el contenido de un sitio web en cuestión de segundos.
Los bots de apropiación de contenido se suelen usar para reutilizar el contenido con fines maliciosos, como duplicar el contenido para SEO en los sitios web que posee el atacante, infringiendo los derechos de autor y robando el tráfico orgánico. La apropiación de contenido puede implicar el rellenado y envío de formularios para acceder a contenidos adicionales, y como subproducto, esto da lugar a datos basura en la base de datos de una empresa. Además, atender las solicitudes de HTTP de los bots ocupa recursos del servidor que podrían dedicarse a los usuarios humanos.
Un bot de apropiación de sitios web suele enviar una serie de solicitudes HTTP GET, y luego copia y guarda toda la información que el servidor web envía como respuesta, abriéndose camino a través de la jerarquía de un sitio web hasta que haya copiado todo el contenido.
Los bots de apropiación más sofisticados pueden utilizar JavaScript para, por ejemplo, rellenar todos los formularios de un sitio web y descargar cualquier contenido cerrado. Los programas de "Automatización del navegador" y las API permiten la interacción automatizada de los bots con los sitios web, y las API como si estuvieran utilizando un navegador web tradicional, en un intento de engañar al servidor del sitio web para que piense que un usuario humano está accediendo al contenido.
Evidentemente, una persona podría copiar y pegar manualmente todo un sitio web en su lugar, pero los bots son capaces de rastrear y descargar todos los contenidos de un sitio web en cuestión de segundos, incluso en el caso de sitios grandes como los de comercio electrónico con cientos o miles de páginas de productos individuales.
Los bots pueden apropiarse de cualquier cosa publicada en Internet: texto, imágenes, código HTML, código CSS, etc. Los atacantes pueden utilizar los datos apropiados para una variedad de propósitos. El texto se puede reutilizar en otro sitio web para robar el ranking del motor de búsqueda del primer sitio web, o para engañar a los usuarios. Un atacante podría utilizar el código HTML y CSS de un sitio web para duplicar el aspecto de un sitio web legítimo, o la marca de otra empresa. Los ciberdelincuentes pueden utilizar el contenido robado para crear sitios web de phishing que engañan a los usuarios para que introduzcan información personal al parecerse a la versión real de otro sitio web.
Esto hace referencia al escaneado de sitios web en busca de datos de contacto, como números de teléfono y direcciones de correo electrónico, y a la descarga posterior de esa información. Los bots de recopilación de correo electrónico son un tipo de bot de apropiación que se dirige específicamente a las direcciones de correo electrónico, normalmente para encontrar nuevos objetivos para spam.
Es cuando una empresa se descarga toda la información de precios del sitio web de una empresa de la competencia para poder ajustar así sus propios precios.
Ver ¿Qué es la apropiación de datos? para más información.
Las soluciones de gestión de bots pueden identificar los patrones de comportamiento de los bots y mitigar las actividades de apropiación de los mismos, a menudo con la ayuda del aprendizaje automático. La limitación de velocidad también puede ayudar a prevenir la apropiación de contenido: es poco probable que un usuario real solicite el contenido de varios cientos de páginas en unos pocos segundos o minutos, y es probable que cualquier usuario que haga solicitudes tan rápido sea un bot. Los desafíos CAPTCHA también pueden ayudar a diferenciar a los usuarios reales de los bots.
Cloudflare Bot Management está diseñado para bloquear los ataques de apropiación de contenidos, además de servir también para otros tipos de tráfico malicioso. A diferencia de las soluciones de limitación de velocidad o CAPTCHA, Cloudflare Bot Management, basada en el aprendizaje automático, puede identificar a los bots en función de patrones de comportamiento, lo cual implica menos fricción para los usuarios y menos falsos positivos (usuarios que se han identificado accidentalmente como bots). Las organizaciones más pequeñas también pueden bloquear la apropiación de contenidos y obtener visibilidad de su tráfico de bots con el modo Super Bot Fight Mode, ahora disponible en los planes Pro y Business de Cloudflare.