¿Qué es un rastreador web? | Cómo funcionan las arañas web

Un rastreador web, o araña, es un tipo de bot operado habitualmente por motores de búsqueda como Google y Bing. Su finalidad es indexar el contenido de los sitios web en todo Internet, para que esos sitios web puedan aparecer en los resultados de los motores de búsqueda.

Share facebook icon linkedin icon twitter icon email icon

Rastreador web

Objetivos de aprendizaje

Después de leer este artículo podrá:

  • Más información acerca de qué es un bot rastreador (o araña)
  • Entender cómo elige un rastreador web las páginas que va a rastrear
  • Explicar la diferencia entre rastreo web y scraping web
  • Explorar si se debería permitirse el rastreo web en cualquier página

¿Qué es un bot de rastreador web?

Los rastreadores web, arañas o bots de motor de búsqueda descargan e indexan contenido de todo Internet. El objetivo de estos bots es descubrir de qué tratan (casi) todas las páginas web, para que se pueda recuperar la información cuando sea necesario. Se conocen como "rastreadores web" porque rastrear es el término técnico para acceder automáticamente a un sitio web y obtener datos mediante un programa de software.

Estos bots los operan casi siempre motores de búsqueda. Mediante la aplicación de un algoritmo de búsqueda a los datos recopilados por los rastreadores web, los motores de búsqueda pueden proporcionar enlaces relevantes en respuesta a las consultas de búsqueda de los usuarios, lo cual genera la lista de páginas web que aparece después de que un usuario realice una búsqueda en Google o Bing (o cualquier otro motor de búsqueda).

Un bot de rastreador web es como alguien que repasa todos los libros de una biblioteca desorganizada, y crea un catálogo de fichas para que cualquiera que visite la biblioteca pueda encontrar de forma rápida y fácil la información que necesita. Para poder catalogar y clasificar los libros de la biblioteca por tema, el organizador tendrá que leer el título, el resumen y parte del texto de cada libro para descubrir de qué trata.

Sin embargo, a diferencia de una biblioteca, Internet no está formado por pilas de libros, y eso dificulta saber si toda la información necesaria se ha indexado correctamente o si se ha pasado por una gran cantidad de información. Para tratar de encontrar toda la información relevante que ofrece Internet, un bot de rastreador web empezará con un determinado conjunto de páginas web conocidas y seguirá los hipervínculos de esas páginas a otras páginas, seguirá los hipervínculos de esas otras páginas a páginas adicionales, y así sucesivamente.

No se conoce cuánto del Internet disponible públicamente llegan a rastrear los bots de motores de búsqueda. Algunas fuentes estiman que solo el 40-70 % de Internet está indexado para su búsqueda: eso supone miles de millones de páginas web.

¿Qué es la indexación de búsqueda?

La indexación de búsqueda es como crear un catálogo de fichas de biblioteca para Internet para que un motor de búsqueda sepa dónde recuperar información en Internet cuando una persona hace una búsqueda. También se puede comparar con el índice en el final de un libro, que enumera todos los lugares del libro en lo que se menciona un determinado tema o frase.

La indexación enfoca sobre todo el texto que aparece en la página y en los metadatos* sobre la página que los usuarios no ven. Cuando la mayoría de los motores de búsqueda indexan una página, añaden todas las palabras de la página al índice – excepto palabras como "un" "una" y "el/la" en el caso de Google. Cuando los usuarios buscan esas palabras, el motor de búsqueda revisa su índice de todas las páginas en las que aparecen esas palabras y selecciona las más relevantes.

*En el contexto de indexación de búsqueda, los metadatos son datos que dan información a los motores de búsqueda acerca de qué va una página web. Con frecuencia, el meta título y la meta descripción es lo que aparecerá en las páginas de resultados del motor de búsqueda, a diferencia del contenido de la página web que es visible a los usuarios.

¿Cómo funcionan los rastreadores web?

Internet está siempre cambiando y expandiéndose. Ya que no es posible saber el número total de páginas web que hay en Internet, los bots rastreadores web comienzan desde una seed o una lista de URL conocidas. En primer lugar, rastrean las páginas web en esos URL. Según vayan rastreando esas páginas web, encontrarán hipervínculos a otros URL y los añadirán a la lista de páginas que rastrearán después.

Debido a la enorme cantidad de páginas web en Internet que podrían indexarse para su búsqueda, este proceso podría estar ejecutándose de forma casi indefinida. Sin embargo, un rastreador web seguirá ciertas políticas que lo hagan más selectivo acerca de qué páginas rastrear, en qué orden hacerlo y con qué frecuencia se tienen que volver a rastrear para buscar actualizaciones de contenido.

La importancia relativa de cada página web: la mayoría de rastreadores web no rastrean todo el Internet disponible públicamente y no es esa su finalidad; en su lugar, deciden qué páginas rastrear primero dependiendo del número de otras páginas que enlacen con esa página, la cantidad de visitantes que reciban y otros factores que indican las probabilidades de que la página contenga información importante.

La idea es que una página web que sea citada por muchas otras páginas web y reciba muchos visitantes es probable que contenga información autoritativa de buena calidad, así que es especialmente importante que un motor de búsqueda la tenga indexada, igual que una biblioteca se aseguraría de tener muchas copias de un libro muy solicitado por la gente.

Revisitar páginas web: el contenido de la web se actualiza, elimina o se muda a nuevas ubicaciones constantemente. Los rastreadores web deberán volver a visitar las páginas periódicamente para asegurarse de que la última versión del contenido sea la indexada.

Requisitos de Robots.txt: los rastreadores web también deciden qué páginas rastrear basándose en el protocolo robots.txt (también conocido como protocolo de exclusión de robots). Antes de rastrear una página web, comprobarán el archivo robots.txt alojado por el servidor web de esa página. Un archivo robots.txt es un archivo de texto que especifica las reglas para los bots que acceden al sitio web o a la aplicación alojada. Estas reglas definen qué páginas pueden rastrear los bots y qué enlaces pueden seguir. Como ejemplo, puedes revisar el archivo robots.txt de Cloudflare.com.

Todos estos factores se ponderan de forma diferente en los algoritmos propietarios que cada motor de búsqueda incorpora en sus bots araña. Los rastreadores web de diferentes motores de búsqueda se comportan de forma ligeramente diferente, aunque el objetivo final es el mismo: descargar e indexar contenido de páginas web.

¿Por qué los rastreadores web se conocen como "arañas"?

Internet, o al menos la parte a la que acceden casi todos los usuarios, se conoce también como World Wide Web; de hecho, de ahí viene el "www" de la mayoría de URL de sitios web. Tenía todo el sentido del mundo bautizar a los bots de motores de búsqueda como "arañas", porque se mueven por la web de la misma manera que una araña por su telaraña.

¿Deben tener siempre acceso los bots de rastreadores web a las propiedades web?

Eso depende de la propiedad web y un número de factores. Los rastreadores web necesitan recursos del servidor para indexar el contenido: realizan solicitudes a las que debe responder el servidor, de la misma manera que un usuario que visita un sitio web u otros bots que acceden a un sitio web. En función de la cantidad de contenido de cada página o del número de páginas en el sitio, al operador del sitio web podría no interesarle que se permitiera la indexación de búsqueda con demasiada frecuencia, ya que un exceso de indexación podría causar la sobrecarga del servidor, aumentar los costes de ancho de banda o ambos.

Además, los desarrolladores o las empresas puede que no quieran que algunas páginas web sean reconocibles a no ser que un usuario ya haya recibido un enlace a la página (sin poner la página tras un muro de pago o un inicio de sesión). Un ejemplo de este caso para las empresas es cuando crean una página de aterrizaje destinada a una campaña de marketing, pero no quieren que nadie que no sea el objetivo de la campaña pueda acceder a la página. De este modo, pueden personalizar los mensajes o medir con precisión el funcionamiento de la página. En estos casos, la empresa puede añadir una etiqueta "no indexar" a la página de aterrizaje, y no aparecerá en los resultados del motor de búsqueda. También pueden añadir una etiqueta "no permitir" en la página o en el archivo robots.txt, y las arañas de los motores de búsqueda no la.

Además, los propietarios de sitios web puede que no quieran que los bots rastreadores web rastreen parte o la totalidad de sus sitios por multitud de razones. Por ejemplo, un sitio web que ofrezca a los usuarios la posibilidad de buscar dentro del sitio quizá quiera bloquear las páginas de resultados de búsqueda, ya que estas no son útiles para la mayoría de los usuarios. También deberían bloquearse otras páginas generadas automáticamente que solo sean útiles para un usuario o grupo de usuarios específicos.

¿Cuál es la diferencia entre el rastreo web y el scraping web?

La extracción web, la extracción de datos o la extracción de contenido consiste en que un bot descarga el contenido en un sitio web sin permiso, a menudo con la intención de utilizarlo para un objetivo malicioso.

El scraping web suele ser mucho más específico que el rastreo web. Los rastreadores web solo pueden tener como objetivo sitios web o páginas específicas, mientras que los rastreadores web seguirán los enlaces y rastrearán páginas de forma continua.

Además, los bots de scraping web pueden ignorar la presión que ejercen sobre los servidores web, mientras que los rastreadores web, especialmente los de los principales motores de búsqueda, obedecerán al archivo robots.txt y limitarán sus solicitudes para no causar una sobrecarga en el servidor web.

¿Cómo afectan los rastreadores web a la SEO?

SEO significa optimización del motor de búsqueda, y es la modalidad encargada de preparar el contenido para la indexación de búsqueda para que un sitio web aparezca más arriba en los resultados de los motores de búsqueda.

Si los bots araña no rastrean un sitio web, entonces no se puede indexar y no aparecerá en los resultados de búsqueda. Por esta razón, si el propietario de un sitio web quiere obtener tráfico orgánico de los resultados de búsqueda, es muy importante que no bloqueen los bots rastreadores web.

¿Qué bots de rastreador web están activos en Internet?

Los bots de los principales motores de búsqueda se conocen como:

  • Google: Googlebot (en realidad dos rastreadores, Googlebot Desktop y Googlebot Mobile, para búsquedas en ordenador y móvil)
  • Bing: Bingbot
  • Yandex (motor de búsqueda ruso): Yandex Bot
  • Baidu (motor de búsqueda chino): Baidu Spider

También hay muchos bots de rastreador web menos comunes, algunos que incluso no están asociados con un motor de búsqueda.

¿Por qué es importante que la gestión de bots tenga en cuenta el rastreo web?

Los bots maliciosos pueden causar mucho daño, desde experiencias del usuario deficientes hasta fallos en el servidor y robos de datos. Sin embargo, al bloquear los bots maliciosos, es importante que se permita que los bots beneficiosos, como los rastreadores web, accedan a las propiedades web. Cloudflare Bot Management permite que los bots beneficiosos sigan accediendo a sitios web a la vez que mitiga el tráfico de bots maliciosos. El producto mantiene una lista blanca de bots buenos,como los rastreadores web, actualizada automáticamente para garantizar que no sean bloqueados.