Los atacantes pueden usar herramientas de apropiación web para acceder a los datos mucho más rápido de lo previsto. Esto puede dar lugar a que los datos se utilicen para fines no autorizados.
Después de leer este artículo podrás:
Contenido relacionado
¿Qué es la apropiación de contenidos?
¿Qué es un bot?
¿Qué es la gestión de bots?
Ataque por fuerza bruta
¿Qué es el relleno de credenciales?
Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.
Copiar el enlace del artículo
La apropiación de datos, en su forma más general, se refiere a una técnica en la cual un programa de computadora extrae datos de la salida generada por otro programa. La apropiación de datos se manifiesta comúnmente en la apropiación web, el proceso de usar una aplicación para extraer información valiosa de un sitio web.
Por lo general, las empresas no desean que su contenido exclusivo se descargue y reutilice para fines no autorizados. Como resultado, no exponen todos los datos a través de una API consumible u otro recurso de fácil acceso. A los bots de apropiación, por otro lado, les interesa obtener datos del sitio web independientemente de cualquier intento por limitar el acceso. Como resultado, existe un juego del gato y el ratón entre los bots de apropiación web y varias estrategias de protección de contenido, y cada uno intenta superar tácticamente al otro.
El proceso de apropiación web es bastante simple, aunque la implementación puede ser compleja. La apropiación web se produce en 3 pasos:
Los bots de apropiación pueden diseñarse para muchos propósitos, tales como:
Por lo general, todo el contenido que un visitante del sitio web puede ver debe transferirse a la máquina del visitante y cualquier información a la que el visitante pueda acceder puede ser objeto de apropiación por un bot.
Se pueden realizar esfuerzos para limitar la cantidad de apropiación web. A continuación presentamos 3 métodos para limitar la exposición a los esfuerzos de apropiación de datos:
Otro método menos común de mitigación requiere incrustar contenido dentro de objetos de medios, como las imágenes. Debido a que el contenido no existe en una cadena de caracteres, copiar el contenido es mucho más complejo y requiere reconocimiento óptico de caracteres (OCR) para extraer los datos de un archivo de imagen. Sin embargo, esto también puede ser un obstáculo para los usuarios web que necesitan copiar contenido, como una dirección o número de teléfono de un sitio web en lugar de memorizarlo o volver a escribirlo.
*Un navegador sin cabeza es un tipo de navegador web, muy parecido a Chrome o Firefox, pero no tiene una interfaz de usuario visual de forma predeterminada, lo que le permite moverse mucho más rápido que un navegador web típico. Al ejecutarse esencialmente en el nivel de una línea de comando, un navegador sin cabeza puede evitar mostrar aplicaciones web completas. Los scrapers de datos escriben bots que usan navegadores sin cabeza para solicitar datos con mayor rapidez, ya que ningún ser humano está viendo la página de la que se está haciendo la apropiación.
La única forma de detener totalmente la apropiación web es evitar poner todo el contenido en un sitio web. Sin embargo, el uso de una solución avanzada de gestión de bots puede ayudar a los sitios web a eliminar el acceso a los scraper bots casi por completo.
El rastreo hace referencia al proceso que realizan los grandes motores de búsqueda como Google cuando envían sus rastreadores robot, como Googlebot, a la red para indexar el contenido de Internet. Por otro lado, Scraping suele estar estructurado específicamente para extraer datos de un sitio web específico.
Estas son 3 de las prácticas en las que se involucrará un scraper bot que difieren del comportamiento de un bot rastreador web:
Cloudflare Bot Management usa el aprendizaje automático y el análisis de comportamiento para identificar bots maliciosos, como los scrapers, protegiendo el contenido exclusivo y evitando que los bots abusen de una propiedad web. De forma similar, Super Bot Fight, ahora disponible en los planes Pro y Business de Cloudflare, está diseñado para ayudar a las organizaciones más pequeñas a defenderse de scrapers y otros bots perjudiciales, al tiempo que les brinda más visibilidad de su tráfico de bots.