¿Cuáles son los bots beneficiosos?

Un bot es un programa informático que automatiza las interacciones con las propiedades web en Internet. Un bot "beneficioso" es cualquier bot que realice tareas útiles o valiosas, y que no sean perjudiciales para la experiencia del usuario en Internet. Debido a que los bots beneficiosos pueden compartir características similares con los bots maliciosos, el reto consiste en garantizar que los bots beneficiosos no sean bloqueados al elaborar una estrategia de gestión de bots.

Hay muchos tipos de bots beneficiosos, cada uno diseñado para tareas diferentes. Aquí tienes algunos ejemplos:

Bots de motores de búsqueda: también conocidos como rastreadores web o arañas: estos bots "rastrean," o revisan, el contenido de casi todos los sitios web de Internet, y luego indexan ese contenido para que pueda aparecer en los resultados de los motores de búsqueda para las búsquedas relevantes de los usuarios. Son operados por motores de búsqueda como Google, Bing o Yandex.

también conocidos como rastreadores web o arañas: estos bots "rastrean," o revisan, el contenido de casi todos los sitios web de Internet, y luego indexan ese contenido para que pueda aparecer en los resultados de los motores de búsqueda para las búsquedas relevantes de los usuarios. Son operados por motores de búsqueda como Google, Bing o Yandex. Bots de copyright: bots que rastrean plataformas o sitios web en busca de contenido que pueda violar la ley de derechos de autor. Estos bots pueden ser utilizados por cualquier persona o empresa que posea material con derechos de autor. Los bots de copyright pueden buscar texto, música, imágenes o incluso vídeos duplicados.

bots que rastrean plataformas o sitios web en busca de contenido que pueda violar la ley de derechos de autor. Estos bots pueden ser utilizados por cualquier persona o empresa que posea material con derechos de autor. Los bots de copyright pueden buscar texto, música, imágenes o incluso vídeos duplicados. Bots de monitorización de sitios: estos bots monitorizan las métricas del sitio web (por ejemplo, la monitorización de retroenlances o de las interrupciones del sistema), y pueden alertar a los usuarios de cambios importantes o del tiempo de inactividad. Por ejemplo, Cloudflare maneja un bot rastreador llamado Always Online, que indica a la red de Cloudflare que debe servir una versión en caché de una página web si el servidor de origen ha dejado de funcionar.

estos bots monitorizan las métricas del sitio web (por ejemplo, la monitorización de retroenlances o de las interrupciones del sistema), y pueden alertar a los usuarios de cambios importantes o del tiempo de inactividad. Por ejemplo, Cloudflare maneja un bot rastreador llamado Always Online, que indica a la red de Cloudflare que debe servir una versión en caché de una página web si el servidor de origen ha dejado de funcionar. Bots comerciales: bots manejados por empresas comerciales que rastrean Internet en busca de información. Estos bots los pueden manejar empresas de investigación de mercado que supervisan los informes de noticias o las reseñas de los clientes, redes de publicidad que optimizan los lugares donde exhiben anuncios o agencias de SEO que rastrean los sitios web de los clientes.

bots manejados por empresas comerciales que rastrean Internet en busca de información. Estos bots los pueden manejar empresas de investigación de mercado que supervisan los informes de noticias o las reseñas de los clientes, redes de publicidad que optimizan los lugares donde exhiben anuncios o agencias de SEO que rastrean los sitios web de los clientes. Bots de información: estos bots rastrean Internet en busca de contenido de interés periodístico para añadirlo a la transmisión de noticias de una plataforma. Los sitios de agregación de contenido o las redes sociales pueden manejar estos bots.

estos bots rastrean Internet en busca de contenido de interés periodístico para añadirlo a la transmisión de noticias de una plataforma. Los sitios de agregación de contenido o las redes sociales pueden manejar estos bots. Bots conversacionales: los bots conversacionales imitan la conversación humana al responder a los usuarios con respuestas preprogramadas. Algunos bots conversacionales son lo suficientemente complejos como para mantener largas conversaciones.

los bots conversacionales imitan la conversación humana al responder a los usuarios con respuestas preprogramadas. Algunos bots conversacionales son lo suficientemente complejos como para mantener largas conversaciones. Bots asistentes personales: como Siri o Alexa, aunque estos programas son mucho más avanzados que el típico bot, siguen siendo bots, es decir, programas informáticos que buscan datos en la web.

Bots beneficiosos vs. bots perjudiciales

Las propiedades web tienen que asegurarse de que no están bloqueando este tipo de bots cuando intentan filtrar el tráfico de bots maliciosos. Es especialmente importante que no se bloqueen los bots rastreadores de los motores de búsqueda, porque sin ellos un sitio web no puede aparecer en los resultados de las búsquedas.

Los bots perjudiciales pueden robar datos, entrar en las cuentas de los usuarios, enviar datos basura mediante formularios en línea y realizar otras actividades maliciosas. Entre los bots perjudiciales se incluyen bots de relleno de credenciales, bots de apropiación de contenido, bots de spam, y bots de fraude de clics.

¿Qué es Robots.txt?

Una buena gestión de los bots empieza con la configuración correcta de las reglas en el archivo robots.txt de un sitio web. Un archivo robots.txt es un archivo de texto que reside en un servidor web y especifica las reglas para los bots que acceden al sitio web o la aplicación. Estas reglas definen qué páginas pueden y no pueden rastrear los bots, qué enlaces deben y no deben seguir, y otros requisitos para el comportamiento de los bots.

Los bots beneficiosos seguirán estas reglas. Por ejemplo, si el propietario de un sitio web no quiere que una determinada página de su sitio aparezca en los resultados de búsqueda de Google, puede escribir una regla en el archivo robots.txt, y los robots rastreadores de Google no indexarán esa página. Aunque el archivo robots.txt no puede aplicar realmente estas reglas, los bots beneficiosos están programados para buscar el archivo y seguir las reglas antes de hacer cualquier otra cosa.

Sin embargo, los bots perjudiciales suelen ignorar el archivo robots.txt, o lo leen para saber qué contenido intenta mantener un sitio web fuera del alcance de los bots, para luego acceder a dicho contenido. Por tanto, la gestión de bots requiere de un enfoque más activo que el simple establecimiento de normas de comportamiento para los bots en el archivo robots.txt.

¿Qué es una lista de permitidos?

Pensemos que una lista de permitidos es como la lista de invitados a un evento. Si alguien que no está en la lista de invitados intenta entrar en el evento, el personal de seguridad se lo impedirá. Cualquiera que esté en la lista puede entrar al evento sin problemas. Este enfoque es necesario, ya que los invitados que no están en la lista pueden comportarse mal y arruinar la fiesta para el resto.

En esencia, así es como funcionan las listas de permitidos para la gestión de bots. Una lista de permitidos es una lista de bots a los que se les permite acceder a una propiedad web. Normalmente esto funciona mediante lo que se conoce como "agente de usuario", la dirección IP del bot, o una combinación de ambos. Un agente de usuario es una cadena de texto que identifica el tipo de usuario (o bot) a un servidor web.

Al mantener una lista de agentes de usuario de bots beneficiosos permitidos, como los que pertenecen a los motores de búsqueda, y bloquear a continuación los bots que no están en la lista, un servidor web puede garantizar el acceso de los bots beneficiosos.

Los servidores web también pueden tener una lista de bloqueos de bots perjudiciales conocidos.

¿Qué es una lista de bloqueos?

En el contexto de redes, una lista de bloqueos es una lista de direcciones IP, agentes de usuario u otros indicadores de identidad en línea a los que no se permite acceder a un servidor, red o propiedad web. Se trata de un enfoque ligeramente diferente al uso de una lista de permitidos: una estrategia de gestión de bots basada en una lista de bloqueo bloqueará esos bots específicos y permitirá el paso de todos los demás, mientras que una estrategia de lista de permitidos solo permite el paso de bots específicos y bloquea todos los demás.

¿Son suficientes las listas de permitidos para dejar entrar a los bots beneficiosos y mantener fuera a los perjudiciales?

Es posible que un bot perjudicial falsifique su cadena de agente de usuario para que parezca un bot beneficioso, al menos al principio; al igual que un ladrón podría utilizar un carné de identidad falso para pretender que está estar en la lista de invitados y colarse en el evento.

Por lo tanto, las listas de permitidos de bots beneficiosos tienen que combinarse con otros enfoques para detectar la suplantación, como el análisis de comportamiento o el aprendizaje automático. Esto ayuda a identificar de forma proactiva tanto los bots perjudiciales como los beneficiosos que no sean conocidos, además de permitir la entrada de los bots beneficiosos conocidos.

¿Qué hace una solución de gestión de bots?

Un producto de gestión de bots permite que los bots beneficiosos puedan acceder a una propiedad web mientras bloquea a los bots perjudiciales. Cloudflare Bot Management usa el aprendizaje automático y el análisis de comportamiento del tráfico en toda su red para detectar los bots perjudiciales, a la vez que permite de forma automática y continua a los bots beneficiosos. Hay una funcionalidad similar disponible para organizaciones más pequeñas: Super Bot Fight Mode, que ahora está incluida en los planes Pro y Business de Cloudflare.