What is a web crawler? | How web spiders work

A web crawler, or spider, is a type of bot that is typically operated by search engines like Google and Bing. Their purpose is to index the content of websites all across the Internet so that those websites can appear in search engine results.

Metas de aprendizaje

Después de leer este artículo podrás:

  • Conoce qué es un bot de araña web (crawler) o araña
  • Comprende cómo una araña web (crawler) elige qué páginas rastrear
  • Explica la diferencia entre la araña web (crawler) y la apropiación web
  • Explora si se deben permitir o no las arañas web (crawler) en cualquier página web

Copiar el enlace del artículo

¿Qué es un bot rastreador web (crawler)?

Un rastreador web, araña o bot de motor de búsqueda descarga e indexa contenido de todo Internet. El objetivo de un bot de este tipo es aprender de qué tratan (casi) todas las páginas web, para que la información pueda ser recuperada cuando se necesite. Se llaman "arañas web (crawlers)" porque rastrear es el término técnico para acceder automáticamente a un sitio web y obtener datos a través de un programa de software.

Estos bots casi siempre son operados por motores de búsqueda. Al aplicar un algoritmo de búsqueda a los datos recopilados por los rastreadores web, los motores de búsqueda pueden proporcionar enlaces relevantes en respuesta a las consultas de búsqueda de los usuarios, y generar la lista de páginas web que aparecen después de que un usuario escribe una búsqueda en Google o Bing (u otro motor de búsqueda).

Un bot rastreador web es como alguien que revisa todos los libros en una biblioteca desorganizada y crea un catálogo de tarjetas para que cualquiera que visite la biblioteca pueda encontrar rápida, y fácilmente la información que necesita. Para ayudar a ordenar y clasificar los libros de la biblioteca por tema, el organizador leerá el título, el resumen y parte del texto interno de cada libro para averiguar de qué se trata.

Web crawler bot organizing information

Sin embargo, a diferencia de una biblioteca, Internet no está compuesta de montones de libros físicos y eso hace que sea difícil saber si toda la información necesaria se ha indexado correctamente, o si se ha pasado por alto una gran cantidad. Para tratar de encontrar toda la información relevante que Internet tiene para ofrecer, un bot rastreador web comenzará con un cierto conjunto de páginas web conocidas y luego seguirá los hipervínculos de esas páginas a otras páginas, seguirá los hipervínculos de esas otras páginas a páginas adicionales, y así sucesivamente.

Se desconoce la cantidad de Internet disponible públicamente que los bots de los motores de búsqueda rastrean. Algunas fuentes estiman que solo entre el 40 y el 70 % de Internet está indexado para búsqueda, y eso son miles de millones de páginas web.

¿Qué es la indexación de búsqueda?

La indexación de búsqueda es como crear un catálogo de tarjetas de biblioteca para Internet para que un motor de búsqueda sepa dónde puede recuperar la información en Internet cuando una persona la busca. También se puede comparar con el índice en la parte posterior de un libro, que enumera todos los lugares del libro en los que se menciona un determinado tema o frase.

La indexación se enfoca principalmente en el texto que aparece en la página y en los metadatos* sobre la página que los usuarios no ven. Cuando la mayoría de los motores de búsqueda indexan una página, agregan todas las palabras de la página al índice, excepto palabras, como "un", "una" y "el" en el caso de Google. Cuando los usuarios buscan esas palabras, el motor de búsqueda revisa su índice de todas las páginas en las que aparecen esas palabras y selecciona las más relevantes.

*En el contexto de la indexación de búsqueda, los metadatos son datos que le dicen a los motores de búsqueda de qué trata una página web. A menudo, el título del meta y la descripción del meta son lo que aparecerá en las páginas de resultados del motor de búsqueda, a diferencia del contenido de la página web que es visible para los usuarios.

¿Cómo funcionan los rastreadores web?

Internet cambia y se amplía constantemente. Debido a que no es posible saber cuántas páginas web en total hay en Internet, los bots rastreadores web comienzan desde una semilla o una lista de URL conocidas. Primero rastrean las páginas web en esas URL. A medida que rastrean esas páginas web, encontrarán hipervínculos a otras URL y las agregarán a la lista de páginas para rastrear después.

Dada la gran cantidad de páginas web en Internet que podrían indexarse para la búsqueda, este proceso podría continuar casi indefinidamente. Sin embargo, un rastreador web seguirá ciertas políticas que lo hacen más selectivo acerca de qué páginas rastrear, en qué orden hacerlo y con qué frecuencia debe rastrearlas nuevamente para buscar actualizaciones de contenido.

La importancia relativa de cada página web: la mayoría de los rastreadores web no rastrean todo la Internet disponible públicamente y no están diseñados para hacerlo, sino que deciden qué páginas rastrear primero en función de la cantidad de páginas que enlazan con esa página, la cantidad de visitantes que recibe esa página y otros factores que significan la probabilidad de que la página contenga información importante.

La idea es que una página web que es citada por muchas otras páginas web y recibe muchos visitantes es probable que contenga información autorizada de gran calidad, por lo que es especialmente importante que un motor de búsqueda la tenga indexada, tal como una biblioteca se aseguraría de guardar muchas copias de un libro que solicita mucha gente.

Volver a visitar páginas web: el contenido en la web se actualiza, elimina o mueve continuamente a nuevas ubicaciones. Los rastreadores web deberán volver a visitar las páginas, de forma periódica, para verificar que la última versión del contenido esté indexada.

Robots.txt requirements: Web crawlers also decide which pages to crawl based on the robots.txt protocol (also known as the robots exclusion protocol). Before crawling a webpage, they will check the robots.txt file hosted by that page's web server. A robots.txt file is a text file that specifies the rules for any bots accessing the hosted website or application. These rules define which pages the bots can crawl, and which links they can follow. As an example, check out the Cloudflare.com robots.txt file.

Todos estos factores se ponderan, de manera diferente, dentro de los algoritmos patentados que cada motor de búsqueda incorpora en sus bots araña. Los rastreadores web de diferentes motores de búsqueda se comportarán de manera ligeramente diferente, aunque el objetivo final es el mismo: descargar e indexar contenido de páginas web.

¿Por qué los rastreadores web se llaman "arañas"?

Internet, o al menos la parte a la que accede la mayoría de los usuarios, también se conoce como World Wide Web; de hecho, de ahí proviene la parte "www" de la mayoría de las URL de los sitios web. Era natural llamar a los bots de los motores de búsqueda "arañas" porque recorren toda la Web (red), al igual que las arañas reales recorren las telarañas.

¿Los bots rastreadores web deben tener siempre acceso a las propiedades web?

Eso depende de la propiedad web y de varios factores. Los rastreadores web requieren recursos del servidor para indexar el contenido: realizan solicitudes a las que el servidor debe responder, al igual que un usuario que visita un sitio web u otros bots que acceden a un sitio web. Según la cantidad de contenido en cada página o el número de páginas en el sitio, podría ser conveniente para el operador del sitio web no permitir la indexación de búsqueda con demasiada frecuencia, ya que demasiada indexación podría sobrecargar al servidor, aumentar los costos de ancho de banda o ambos.

Además, es probable que los desarrolladores o las empresas no quieran que algunas páginas web sean reconocibles a menos que un usuario haya recibido un enlace a la página (sin ubicar la página detrás de un muro de pago o una contraseña). Un ejemplo de tal caso para las empresas es cuando crean una página de destino específica para una campaña de marketing, pero no quieren que nadie fuera del público objetivo de la campaña acceda a la página. De esta manera, pueden personalizar los mensajes o medir con precisión el rendimiento de la página. En tales casos, la empresa puede agregar una etiqueta "no indexar" a la página de destino y no aparecerá en los resultados del motor de búsqueda. También pueden agregar una etiqueta de "no permitir" en la página o en el archivo robots.txt y las arañas de los motores de búsqueda no lo rastrearán en lo absoluto.

Además, los propietarios de sitios web pueden no querer que los bots rastreadores web rastreen parte o la totalidad de sus sitios por una variedad de razones diferentes. Por ejemplo, un sitio web que ofrece a los usuarios la posibilidad de buscar dentro del sitio puede querer bloquear las páginas de resultados de búsqueda, ya que no son útiles para la mayoría de los usuarios. También se deben bloquear otras páginas generadas automáticamente que solo son útiles para un usuario o para algunos usuarios específicos.

¿Cuál es la diferencia entre el rastreo de la web y la apropiación web (web scraping)?

La apropiación web, la apropiación de datos o la apropiación de contenido se refiere a cuando un bot descarga el contenido en un sitio web sin permiso, a menudo con la intención de usar ese contenido con un propósito malicioso.

La apropiación web suele ser mucho más específica que el rastreo web. Los scrapers (apropiadores) de la web podrían estar solo tras páginas específicas o sitios web específicos, mientras que los rastreadores web continuarán siguiendo los enlaces y rastreando las páginas continuamente.

Además, los scraper bots de la web pueden ignorar la presión que ejercen sobre los servidores web, mientras que los rastreadores web, en especial, los de los principales motores de búsqueda, obedecerán al archivo robots.txt y limitarán sus solicitudes para no sobrecargar el servidor web.

¿Cómo afectan los rastreadores web la SEO?

SEO significa optimización de motores de búsqueda y es la disciplina de preparar el contenido para la indexación de búsqueda para que un sitio web aparezca más arriba en los resultados del motor de búsqueda.

Si los bots araña no rastrean un sitio web, entonces no se puede indexar y no aparecerá en los resultados de búsqueda. Por esta razón, si el propietario de un sitio web desea obtener tráfico orgánico de los resultados de búsqueda, es muy importante que no bloquee los bots rastreadores web.

¿Qué bots rastreadores web están activos en Internet?

Los bots de los principales motores de búsqueda tienen los siguientes nombres:

  • Google: Googlebot (en realidad, dos rastreadores, Googlebot Desktop y Googlebot Mobile, para búsquedas de escritorio y móviles)
  • Bing: Bingbot
  • Yandex (motor de búsqueda ruso): Yandex Bot
  • Baidu (motor de búsqueda chino): Baidu Spider

También hay muchos bots rastreadores web menos comunes, algunos de los cuales no están asociados con ningún motor de búsqueda.

¿Por qué es importante que la administración de bots tome en cuenta el rastreo de la web?

Bad bots can cause a lot of damage, from poor user experiences to server crashes to data theft. However, in blocking bad bots, it's important to still allow good bots, such as web crawlers, to access web properties. Cloudflare Bot Management allows good bots to keep accessing websites while still mitigating malicious bot traffic. The product maintains an automatically updated allowlist of good bots, like web crawlers, to ensure they aren't blocked. Smaller organizations can gain a similar level of visibility and control over their bot traffic with Super Bot Fight Mode, available on Cloudflare Pro and Business plans.