¿Qué es una araña web (crawler)? | Cómo funcionan las arañas web

Una araña web (crawler), o araña, es un tipo de bot que generalmente es operado por motores de búsqueda como Google y Bing. Su propósito es indexar el contenido de los sitios web en todo el Internet para que esos sitios web puedan aparecer en los resultados de los motores de búsqueda.

Share facebook icon linkedin icon twitter icon email icon

Araña web (crawler)

Metas de aprendizaje

Después de leer este artículo usted podrá:

  • Conoce qué es un bot de araña web (crawler) o araña
  • Comprende cómo una araña web (crawler) elige qué páginas rastrear
  • Explica la diferencia entre la araña web (crawler) y la apropiación web
  • Explora si se deben permitir o no las arañas web (crawler) en cualquier página web

¿Qué es un bot de araña web (crawler)?

Una araña web (crawler), araña o bot de motor de búsqueda descarga e indexa contenido de todo el Internet. El objetivo de dicho bot es aprender cómo es (casi) cada página web en la web, para que se pueda recuperar la información cuando sea necesario. Se llaman "arañas web (crawler)" porque rastrear es el término técnico para acceder automáticamente a un sitio web y obtener datos a través de un programa de software.

Estos bots casi siempre son operados por motores de búsqueda. Al aplicar un algoritmo de búsqueda a los datos recopilados por las arañas web (crawlers), los motores de búsqueda pueden proporcionar enlaces relevantes en respuesta a las consultas de búsqueda de los usuarios, generando la lista de páginas web que aparecen después de que un usuario escribe una búsqueda en Google o Bing (u otro motor de búsqueda).

Un bot de araña web (crawler) es como alguien que revisa todos los libros en una biblioteca desorganizada y crea un catálogo de tarjetas para que cualquiera que visite la biblioteca pueda encontrar rápida y fácilmente la información que necesita. Para ayudar a ordenar y clasificar los libros de la biblioteca por tema, el organizador leerá el título, el resumen y parte del texto interno de cada libro para averiguar de qué se trata.

Sin embargo, a diferencia de una biblioteca, el Internet no está compuesta de montones de libros físicos y eso hace que sea difícil saber si toda la información necesaria se ha indexado correctamente o si se han pasado por alto una gran cantidad. Para tratar de encontrar toda la información relevante que Internet tiene para ofrecer, un bot de araña web (crawler) comenzará con un cierto conjunto de páginas web conocidas y luego seguirá los hipervínculos de esas páginas a otras páginas, seguirá los hipervínculos de esas otras páginas a páginas adicionales, y así sucesivamente.

Se desconoce la cantidad de Internet disponible públicamente que los bots de los motores de búsqueda rastrean. Algunas fuentes estiman que solo entre el 40 a 70 % de Internet está indexado para búsqueda – y eso es miles de millones de páginas web.

¿Qué es la indexación de búsqueda?

La indexación de búsqueda es como crear un catálogo de tarjetas de biblioteca para Internet para que un motor de búsqueda sepa dónde puede recuperar la información en Internet cuando una persona la busca. También se puede comparar con el índice en la parte posterior de un libro, que enumera todos los lugares del libro donde se menciona un determinado tema o frase.

La indexación se enfoca principalmente en el texto que aparece en la página y en los metadatos* sobre la página que los usuarios no ven. Cuando la mayoría de los motores de búsqueda indexan una página, agregan todas las palabras de la página al índice – excepto palabras como "un", "una" y "el" en el caso de Google. Cuando los usuarios buscan esas palabras, el motor de búsqueda revisa su índice de todas las páginas donde aparecen esas palabras y selecciona las más relevantes.

*En el contexto de la indexación de búsqueda, los metadatos son datos que le dicen a los motores de búsqueda de qué trata una página web. A menudo, el título del meta y la descripción del meta son lo que aparecerá en las páginas de resultados del motor de búsqueda, a diferencia del contenido de la página web que es visible para los usuarios.

¿Cómo funcionan las arañas web (crawler)?

El Internet cambia y se amplía constantemente. Debido a que no es posible saber cuántas páginas web totales hay en Internet, los bots de araña web (crawler) comienzan desde una semilla o una lista de URL conocidas. Primero rastrean las páginas web en esas URL. A medida que rastrean esas páginas web, encontrarán hipervínculos a otras URL y las agregarán a la lista de páginas para rastrear después.

Dada la gran cantidad de páginas web en Internet que podrían indexarse para la búsqueda, este proceso podría continuar casi indefinidamente. Sin embargo, una araña web (crawler) seguirá ciertas políticas que lo hacen más selectivo acerca de qué páginas rastrear, en qué orden hacerlo y con qué frecuencia deben rastrearlas nuevamente para buscar actualizaciones de contenido.

La importancia relativa de cada página web: la mayoría de las arañas web (crawlers) no rastrean toda el Internet disponible públicamente y no están diseñadas para hacerlo; en cambio, deciden qué páginas rastrear primero con base en el número de páginas adicionales que enlazan con esa página, la cantidad de visitantes que recibe esa página y otros factores que significan la probabilidad de que la página contenga información importante.

La idea es que una página web que es citada por muchas otras páginas web y recibe muchos visitantes es probable que contenga información autorizada de alta calidad, por lo que es especialmente importante que un motor de búsqueda la tenga indexada – tal como una biblioteca se aseguraría de guardar muchas copias de un libro que solicita mucha gente.

Volver a visitar páginas web: el contenido en la Web se actualiza, elimina o mueve continuamente a nuevas ubicaciones. Las arañas web (crawler) periódicamente deberán volver a visitar las páginas para asegurarse de que la última versión del contenido esté indexada.

Los requisitos de Robots.txt: las arañas web (crawler) también deciden qué páginas rastrear según el protocolo robots.txt (también conocido como protocolo de exclusión de robots). Antes de rastrear una página web, verificarán el archivo robots.txt alojado por el servidor web de esa página. Un archivo robots.txt es un archivo de texto que especifica las reglas para cualquier bot que acceda al sitio web o aplicación alojada. Estas reglas definen qué páginas pueden rastrear los bots y qué enlaces pueden seguir. Como ejemplo, revisa el archivo robots.txt de Cloudflare.com.

Todos estos factores se ponderan de manera diferente dentro de los algoritmos patentados que cada motor de búsqueda incorpora en sus bots de araña. Las arañas web (crawler) de diferentes motores de búsqueda se comportarán de manera ligeramente diferente, aunque el objetivo final es el mismo: descargar e indexar contenido de páginas web.

¿Por qué las arañas web (crawler) se llaman "arañas"?

El Internet, o al menos la parte a la que accede la mayoría de los usuarios, también se conoce como World Wide Web; de hecho, de ahí proviene la parte "www" de la mayoría de las URL de sitios web. Era natural llamar a los bots de los motores de búsqueda "arañas" porque recorren toda la Web, al igual que las arañas reales recorren las telarañas.

¿Deben los bots de araña web (crawler) tener siempre acceso a las propiedades web?

Eso depende de la propiedad web y depende de varios factores. Las arañas web (crawler) requieren recursos del servidor para indexar el contenido: realizan solicitudes a las que el servidor debe responder, al igual que un usuario que visita un sitio web u otros bots que acceden a un sitio web. Dependiendo de la cantidad de contenido en cada página o el número de páginas en el sitio, podría ser conveniente para el operador del sitio web no permitir la indexación de búsqueda con demasiada frecuencia, ya que demasiada indexación podría sobrecargar al servidor, aumentar los costos de ancho de banda o ambos.

Además, es probable que los desarrolladores o las empresas no quieran que algunas páginas web sean reconocibles a menos que un usuario ya haya recibido un enlace a la página (sin ubicar la página detrás de un muro de pago o un inicio de sesión). Un ejemplo de tal caso para las empresas es cuando crean una página de destino dedicada para una campaña de marketing, pero no quieren que nadie fuera del objetivo de la campaña acceda a la página. De esta manera, pueden personalizar los mensajes o medir con precisión el rendimiento de la página. En tales casos, la empresa puede agregar una etiqueta "sin índice" a la página de destino y no aparecerá en los resultados del motor de búsqueda. También pueden agregar una etiqueta de "no permitir" en la página o en el archivo robots.txt y las arañas de los motores de búsqueda no lo rastrearán en lo absoluto.

Los propietarios de sitios web pueden no querer que los bots de araña web (crawler) rastreen parte o la totalidad de sus sitios por una variedad de razones diferentes. Por ejemplo, un sitio web que ofrece a los usuarios la posibilidad de buscar dentro del sitio puede querer bloquear las páginas de resultados de búsqueda, ya que no son útiles para la mayoría de los usuarios. También se deben bloquear otras páginas generadas automáticamente que solo son útiles para un usuario o para algunos usuarios específicos.

¿Cuál es la diferencia entre la araña web y la apropiación web?

La apropiación web, apropiación de datos o apropiación de contenido es cuando un bot descarga el contenido en un sitio web sin permiso, a menudo con la intención de usar ese contenido con un propósito malicioso.

La apropiación web suele ser mucho más específica que la araña web (crawler). Las apropiaciones web podrían estar tras páginas específicas o sitios web específicos, mientras que las arañas web (crawler) seguirán en busca de los enlaces y rastreando las páginas continuamente.

Además, los bots de araña web (crawler) pueden ignorar la presión que ejercen sobre los servidores web, mientras que las arañas web (crawler), especialmente de los principales motores de búsqueda, obedecerán al archivo robots.txt y limitarán sus solicitudes para no sobrecargar el servidor web.

¿Cómo afectan las arañas web (crawler) la optimización de motores de búsqueda (SEO)?

SEO significa optimización de motores de búsqueda y es la disciplina de preparar el contenido para la indexación de búsqueda para que un sitio web aparezca más arriba en los resultados del motor de búsqueda.

Si los bots araña no rastrean un sitio web, entonces no se puede indexar y no aparecerá en los resultados de búsqueda. Por esta razón, si el propietario de un sitio web desea obtener tráfico orgánico de los resultados de búsqueda, es muy importante que no bloqueen los bots de araña web (crawler).

¿Qué bots de araña web (crawler) están activos en Internet?

Los bots de los principales motores de búsqueda se llaman:

  • Google: Googlebot (en realidad, dos rastreadores, Googlebot Desktop y Googlebot Mobile, para búsquedas de escritorio y móviles)
  • Bing: Bingbot
  • Yandex (motor de búsqueda ruso): Yandex Bot
  • Baidu (motor de búsqueda chino): Baidu Spider

También hay muchos bots de araña web (crawler) menos comunes, algunos de los cuales no están asociados con ningún motor de búsqueda.

¿Por qué es importante que la administración de bots tome en cuenta las arañas web (crawler)?

Los bots maliciosos pueden causar mucho daño, desde malas experiencias del usuario hasta fallas en el servidor y robo de datos. Sin embargo, al bloquear los bots maliciosos es importante permitir que los bots buenos, como las arañas web, accedan a las propiedades web. La gestión de bots de Cloudflare permite que los bots buenos sigan accediendo a sitios web mientras mitigan el tráfico de bots maliciosos. El producto mantiene una lista blanca actualizada de bots buenos automáticamente, como arañas web (crawler), para asegurar que no se bloqueen.