¿Qué es la apropiación de datos?

Los atacantes pueden usar herramientas de apropiación web para acceder a los datos mucho más rápido de lo previsto. Esto puede dar lugar a que los datos se utilicen para fines no autorizados.

Metas de aprendizaje

Después de leer este artículo podrás:

  • Definir la apropiación de datos
  • Explicar los propósitos detrás de la apropiación web
  • Comprender los métodos para mitigar la apropiación de datos
  • Diferenciar entre la apropiación de datos y la araña web de datos

Contenido relacionado


¿Quieres saber más?

Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.

Revisa la política de privacidad de Cloudflare para saber más sobre cómo Cloudflare gestiona tus datos personales.

Copiar el enlace del artículo

Defiéndete contra los ataques de bots como el relleno de credenciales y la apropiación de contenidos con Cloudflare

¿Qué es la apropiación de datos?

La apropiación de datos, en su forma más general, se refiere a una técnica en la cual un programa de computadora extrae datos de la salida generada por otro programa. La apropiación de datos se manifiesta comúnmente en la apropiación web, el proceso de usar una aplicación para extraer información valiosa de un sitio web.

Apropiación de datos

¿Por qué apropiarse de los datos del sitio web?

Por lo general, las empresas no desean que su contenido exclusivo se descargue y reutilice para fines no autorizados. Como resultado, no exponen todos los datos a través de una API consumible u otro recurso de fácil acceso. A los bots de apropiación, por otro lado, les interesa obtener datos del sitio web independientemente de cualquier intento por limitar el acceso. Como resultado, existe un juego del gato y el ratón entre los bots de apropiación web y varias estrategias de protección de contenido, y cada uno intenta superar tácticamente al otro.

El proceso de apropiación web es bastante simple, aunque la implementación puede ser compleja. La apropiación web se produce en 3 pasos:

  1. Primero, la parte del código utilizado para extraer la información, que llamamos bot de apropiación, envía una solicitud HTTP GET a un sitio web específico.
  2. Cuando el sitio web responde, el scraper analiza el documento HTML en busca de un patrón de datos específico.
  3. Una vez que se extraen los datos, se convierten a cualquier formato específico diseñado por el autor del bot de apropiación.

Los bots de apropiación pueden diseñarse para muchos propósitos, tales como:

  1. Apropiación de contenido: el contenido se puede extraer del sitio web para replicar la ventaja única de un producto o servicio en particular que se basa en el contenido. Por ejemplo, un producto como Yelp se basa en las reseñas; un competidor podría apropiarse de todo el contenido de las reseñas de Yelp y reproducir el contenido en su propio sitio, y simular que el contenido es original.
  2. Apropiación de precios: al apropiarse de los datos de precios, los competidores pueden agregar información sobre la competencia. Esto puede permitirles formular una ventaja única.
  3. Apropiación de contactos: muchos sitios web contienen direcciones de correo electrónico y números de teléfono en texto sin formato. Al apropiarse de las ubicaciones, como un directorio de empleados en línea, un scraper puede agregar detalles de contacto para listas de correo masivas, robollamadas o intentos maliciosos de ingeniería social. Este es uno de los métodos principales que utilizan tanto los spammers como los estafadores para encontrar nuevos objetivos.

¿Cómo se mitiga la apropiación web?

Por lo general, todo el contenido que un visitante del sitio web puede ver debe transferirse a la máquina del visitante y cualquier información a la que el visitante pueda acceder puede ser objeto de apropiación por un bot.

Se pueden realizar esfuerzos para limitar la cantidad de apropiación web. A continuación presentamos 3 métodos para limitar la exposición a los esfuerzos de apropiación de datos:

  1. Solicitudes de limitación de velocidad: para un visitante humano que hace clic en una serie de páginas web en un sitio web, la velocidad de interacción con el sitio web es bastante predecible; por ejemplo, un humano nunca podría navegar 100 páginas web por segundo. Las computadoras, por otro lado, pueden hacer solicitudes de una gran magnitud más rápido que un ser humano y los scrapers de datos novatos pueden usar técnicas de apropiación sin estrangulamiento para intentar apropiarse rápidamente de un sitio web completo. Al imponer una limitación de velocidad al número máximo de solicitudes que una determinada dirección IP es capaz de hacer durante un período de tiempo determinado, los sitios web pueden protegerse de las solicitudes de explotación y limitar la cantidad de apropiación de datos que puede producirse en un cierto período.
  2. Modificar el marcado HTML a intervalos regulares: los bots de apropiación de datos dependen de un formato coherente para recorrer, de manera efectiva, el contenido del sitio web y analizar, y guardar los datos útiles. Un método para interrumpir este flujo de trabajo es cambiar regularmente los elementos del marcado HTML para que la apropiación sistemática se vuelva más complicada. Al anidar elementos HTML o al cambiar otros aspectos del marcado, los intentos simples de apropiación de datos se verán obstaculizados o frustrados. Para algunos sitios web, cada vez que se muestra una página web, se aleatoriza e implementa alguna forma de modificación para proteger el contenido. Otros sitios web cambiarán, de forma ocasional, su código de marcado para evitar intentos de apropiación de datos en plazos más largos.
  3. Usar CAPTCHA para solicitantes de grandes volúmenes: además de usar una solución de limitación de velocidad, otro paso útil para desacelerar a los scrapers de contenido es el requisito de que un visitante del sitio web responda a un desafío que es difícil de superar para una computadora. Si bien un ser humano puede responder razonablemente al desafío, un navegador sin cabeza* que participa en la apropiación de datos, es probable que no pueda hacerlo y sin duda no lo hará de manera constante en muchas instancias del desafío. Sin embargo, los desafíos constantes del CAPTCHA pueden afectar la experiencia del usuario de manera negativa.

Otro método menos común de mitigación requiere incrustar contenido dentro de objetos de medios, como las imágenes. Debido a que el contenido no existe en una cadena de caracteres, copiar el contenido es mucho más complejo y requiere reconocimiento óptico de caracteres (OCR) para extraer los datos de un archivo de imagen. Sin embargo, esto también puede ser un obstáculo para los usuarios web que necesitan copiar contenido, como una dirección o número de teléfono de un sitio web en lugar de memorizarlo o volver a escribirlo.

*Un navegador sin cabeza es un tipo de navegador web, muy parecido a Chrome o Firefox, pero no tiene una interfaz de usuario visual de forma predeterminada, lo que le permite moverse mucho más rápido que un navegador web típico. Al ejecutarse esencialmente en el nivel de una línea de comando, un navegador sin cabeza puede evitar mostrar aplicaciones web completas. Los scrapers de datos escriben bots que usan navegadores sin cabeza para solicitar datos con mayor rapidez, ya que ningún ser humano está viendo la página de la que se está haciendo la apropiación.

¿Cómo se detiene la apropiación web por completo?

La única forma de detener totalmente la apropiación web es evitar poner todo el contenido en un sitio web. Sin embargo, el uso de una solución avanzada de gestión de bots puede ayudar a los sitios web a eliminar el acceso a los scraper bots casi por completo.

¿Cuál es la diferencia entre la apropiación de datos y el rastreo de datos?

El rastreo hace referencia al proceso que realizan los grandes motores de búsqueda como Google cuando envían sus rastreadores robot, como Googlebot, a la red para indexar el contenido de Internet. Por otro lado, Scraping suele estar estructurado específicamente para extraer datos de un sitio web específico.

Estas son 3 de las prácticas en las que se involucrará un scraper bot que difieren del comportamiento de un bot rastreador web:

  1. Los scraper bots simularán ser navegadores web, mientras que un bot rastreador web indicará su propósito y no intentará engañar a un sitio web para que crea que es algo que no es.
  2. A veces, los scrapers tomarán medidas avanzadas, como completar formularios o se comportan de otra manera para llegar a cierta parte del sitio web. Los rastreadores web no lo harán.
  3. Los scrapers normalmente no tienen ningún respeto por el archivo robots.txt, que es un archivo de texto que contiene información especialmente diseñada para indicar a los rastreadores web qué datos analizar y qué áreas del sitio evitar. Puesto que un scraper está diseñado para obtener determinados contenidos, puede diseñarse para que obtenga contenidos explícitamente marcados como que deben ignorarse.

Cloudflare Bot Management usa el aprendizaje automático y el análisis de comportamiento para identificar bots maliciosos, como los scrapers, protegiendo el contenido exclusivo y evitando que los bots abusen de una propiedad web. De forma similar, Super Bot Fight, ahora disponible en los planes Pro y Business de Cloudflare, está diseñado para ayudar a las organizaciones más pequeñas a defenderse de scrapers y otros bots perjudiciales, al tiempo que les brinda más visibilidad de su tráfico de bots.