Google destina un tiempo determinado a rastreatn cada sitio web, es lo que se conoce como crawl budget. Un sitio web debe optimizarse para aprovechar ese tiempo que pasan los crawlers visitando sus URLs, para conseguir que se posicionen los contenidos que realmente son interesantes, obviando todo aquel contenido sin valor e irrelevante.
Tabla de contenidos
¿Qué es el Crawl Budget?
El crawl budget o presupuesto de rastreo es el tiempo que los crawlers de Google u otro buscador dedican a rastrear las páginas de un sitio web. Es tiempo tiene una incidencia directa en el posicionamiento y en la indexación de una web, por lo que es importante optimizar el sitio para facilitar que Google pueda rastrear de forma correcta todo su contenido en el tiempo que dedica a ello.
El tiempo de rastreo óptimo de una web se puede mejorar teniendo en cuenta cuatro factores, la accesibilidad del sitio, su velocidad de carga, la calidad de su contenido, y la autoridad o prestigio de la web.
Los crawlers de Google son los bots que se encargan de rastrear las URLs de una web de forma automatizada para luego analizar esa información y clasificarlas en su ranking, de forma que los usuarios puedan acceder a ellas en las páginas de resultados.
¿Cómo saber cuál es el crawl budget?
Google Search Console es la herramienta ideal para conocer el presupuesto de rastreo de un sitio web. Cuenta con un informe llamado Crawl Stars en el menú lateral desde el cual se accede a un informe con diferente información estadística de la web.
El parámetro que hay que analizar para conocer el crawl budget es el pages crawled per day. Comparando este dato con el número de páginas del sitio se podrá disponer de información sobre el tiempo de rastreo, y comprobar si es suficiente para rastrear todo el contenido importante de la web.
¿Por qué es importante para el SEO?
El tiempo o presupuesto de rastreo es un elemento esencial para el SEO pues, disponer de un crawl budget optimizado, conseguirá potenciar el posicionamiento de una página web, blog o tienda online. Se trata de un factor que nunca debe faltar dentro de una buena estrategia de posicionamiento web.
Es importante tener en cuenta que, aunque Google es un auténtico gigante de internet, no dispone de recursos ilimitados, y son millones los sitios web que debe rastrear con miles de URLs cada uno. Por este motivo, Google optimiza el tiempo que dedica a cada sitio para rastrearlo.
Para páginas pequeñas que dispongan de menos de 100 URLs, optimizar el crawl budget no debe ser una prioridad puesto que Google podrá rastrearlas sin problemas. Para sitios web con muchas URLs, sobre todo aquellas que tengan más de 5.000, es muy importante optimizar el crawl budget y el sitio web, para conseguir que los crawlers examinen todo el contenido que se quiere posicionar.
Pasos para optimizar el crawl budget de una web
Optimar el crawl budget debe ser una tarea prioritaria para los desarrolladores web y expertos SEO. Conseguir que los crawlers visiten todas las páginas que se quieren posicionar es clave para evitar que se quede contenido sin posicionar.
Algunas medidas que pueden tomarse para optimizar el crawl budget de una web son:
1. Eliminar las páginas duplicadas
Las páginas duplicadas que puede contener una web hacen perder tiempo del crawl budget que podría utilizarse para rastrear otra URL diferente. Eliminar las páginas duplicadas es una medida que debe realizarse para no malgastar el presupuesto de rastreo, aunque también es necesario hacerlo para que Google no penalice el posicionamiento del sitio por duplicidad de contenido.
2. Arreglar los errores 404 de tus enlaces
Los errores 404 o de enlaces rotos consumen mucho tiempo de rastreo sin que este tenga consecuencias positivas en el posicionamiento web. Los crawlers perderán tiempo visitando páginas que presentan errores y que no son útiles para la web ni para los usuarios.
Arreglando los errores 404 de enlaces se optimiza el crawl budget, permitiendo que los rastreadores accedan a enlaces correctos que analizar y posicionar.
Para arreglar los errores 404 se debe verificar que la URL del enlace en el HTML de la página sea el correcto, o eliminar el enlace si apunta a una página que no existe.
3. Arreglar errores 500 de tus enlaces
Los enlaces HTTP error 500 de los enlaces de una web se producen cuando no hay permisos adecuados de acceso a los archivos, mostrando un mensaje de error en lugar del contenido de dicho archivo.
Para evitar que se pierda tiempo de rastreo en este tipo de errores, es necesario aplicar las medidas oportunas para solventarlos, como acceder a las carpetas y archivos a través de FTP o mediante el panel de administración del hosting, y asignar los permisos correctos de acceso a ambos.
4. Eliminar redirecciones internas poniendo la URL correcta
Las redirecciones internas se utilizan para evitar mensajes de error redirigiendo a otras URLs del sitio. Sin embargo, este método hace perder un tiempo precioso a los crawlers, que visitan la web con la redirección primero y luego van a la que realmente enlazan.
Eliminar estas redirecciones internas y añadir contenido a esas URLs es la mejor forma de optimizar el crawl budget y evitar que los Googlebots pierdan tiempo en visitar URLs que no tienen contenido de valor, sino una mera redirección hacia otra página.
5. No utilices páginas con thin content
El thin content o páginas con baja calidad de contenido utilizan tiempo de rastreo y no proporcionan beneficios en el posicionamiento web. Para optimizar el crawl budget en relación al thin content se pueden realizar acciones como:
- Eliminar las páginas con baja calidad en el contenido.
- Bloquear el acceso a los crawlers a las páginas de thin content desde el archivo robots.txt.
- Actualizar el contenido de baja calidad, para ampliarlo y mejorarlo, haciéndolo útil para el posicionamiento.
6. Mejorar la velocidad de carga
Si la velocidad web es rápida, los crawler necesitarán menos tiempo para poder rastrear las páginas de un sitio. Optimizar una página web para que cargue en menos tiempo permitirá que los Googlebots examinen mayor número de URLs con el presupuesto de rastreo que disponen.
Se pueden aplicar muchas técnicas de SEO on page para acelerar la carga de una web y facilitar el rastreo de los crawlers, como optimizar las imágenes, seleccionar un hosting con un servicio rápido, optimizar el código HTML, CSS, PHP y JavaScript y utilizar la caché, entre otras medidas.
7. Optimizar el archivo robots.txt
El archivo robots.txt es una gran herramienta para optimizar el tiempo de rastreo, pues permite bloquear URLs para que los crawlers no accedan a ellas. Planificando de forma correcta, qué páginas quieren indexarse y cuáles no, se podrá crear un archivo robots.txt personalizado que sirva para que los bots solo visiten las URLs más interesantes para optimizar.
8. Utilizar el atributo nofollow
En los enlaces HTML de la web, incluir el atributo nofollow (rel = ”nofollow”) para aquellas páginas que no se quieran indexar, hará que los bots de Google las ignoren y dediquen ese tiempo a otras URLs más importantes.
Herramientas para detectar errores en el crawl budget
Con herramientas SEO es más sencillo detectar aquellos errores en el crawl budget de una web, y aplicar las medidas necesarias para solucionarlos.
Veamos algunas herramientas muy útiles para optimizar el presupuesto de rastreo.
Google Search Console
Desde Search Console se pueden detectar las páginas que están presentando errores 404 y 500. De esta manera se puede ir a cada una de estas URL para aplicar las medidas necesarias para solucionar el error.
Una vez subsanado el error, se puede marcar que Search Console que ya ha sido solventado.
Plataformas para medir la velocidad web
En la red existen muchos portales online desde los que es posible medir el tiempo de carga de un sitio web, como es el caso de GTmetrix o de Page Speed Insight de Google. Estas páginas, además de medir la velocidad web, también aportan mucha información sobre los distintos aspectos que están ralentizando la web, lo que permite tomar las medidas necesarias para poder acelerar la velocidad de carga.
El presupuesto de rastreo o crawl budget es muy importante para el posicionamiento web. El SEO debe centrarse en optimizarlo para conseguir que los bots de Google accedan en ese tiempo a todas las URLs con contenido importante que se quiera posicionar.