Archivo robots.txt: Qué es y cómo configurarlo

Robots.txt | DICCIONARIO SEO

Toda página web puede utilizar el archivo robots.txt para ofrecer algunas indicaciones a los bots de Google sobre cómo debe rastrear el sitio. Configurar de forma óptima el robots.txt es una prioridad para poder controlar el presupuesto de rastreo, evitar que se indexen alguna URLs del sitio u ofrecer un sitemaps con un listado de la URLs que se quieren indexar y posicionar de forma prioritaria.

Veamos qué es el archivo robots.txt, cómo se crea y qué elementos lo forman.

¿Qué es el archivo robots.txt?

El archivo robots se puede editar y configurar con un simple editor de texto como el bloc de notas de Windows, ya que se trata de un archivo de texto. Según la propia definición de Google, el robots.txt es un archivo situado en el directorio raíz de una web que comunica las partes del sitio que no se quieren indexar, es decir, indica a que partes de la web no deben acceden los rastreadores.

El robots.txt utiliza el estándar de exclusión de robots, un protocolo que utiliza una serie de parámetros o comandos para indicar los accesos a la web por secciones y por tipos de rastreadores (de móviles o de ordenadores, por ejemplo).

Cada sitio web cuenta con un archivo robots.txt en la raíz de su directorio, siendo el primer lugar al que acuden los rastreadores de Google y otros buscadores a consultar sus indicaciones antes de examinar el sitio.

¿Cómo funciona el archivo robots.txt?

Lo primero que hay que entender del funcionamiento del archivo robots.txt es que se trata de meras indicaciones, por lo que los motores de búsqueda pueden ignorar sus indicaciones, aunque lo normal es que las sigan para optimizar su tiempo de rastreo.

De todas formas, los Googlebots sí hacen caso al archivo robots.txt por lo que su optimización es fundamental para el SEO (otros buscadores como ASK, Yandex o Alltheweb no siguen sus indicaciones de rastreo siempre).

Cuando se incluyen una serie de comandos para indicar que una parte de la web no sea rastreada, los bots de Google al ir a rastrear el sitio, consultarán primero las indicaciones del archivo robots.txt y procederán a ignorar u no indexar todas las URLs bloqueadas.

Tipos de robots

Es importante conocer para poder configurar de forma apropiada el robots.txt, que Google diferencia entre dos tipos diferente de robot. Los user-agents que sirven para buscar y dar instrucciones, y el resto de robots, como por ejemplo el Googlebot-image para fotografías e imágenes, y el Google-Mobile específico para dispositivos móviles.

¿Cómo creamos el archivo robots.txt?

El archivo robots.txt es un archivo en formato texto que se puede editar con un simple editor de texto (Notepad o bloc de notas para Windows, gedit para Linux o TextEdit para Mac).

El archivo está formado por una serie de comandos y reglas para ir ofreciendo información sobre el sitio a los motores de búsqueda. Algunas reglas básicas que deben conocerse antes de crear este archivo son:

Solo puede existir un archivo robots.txt por cada sitio web.
El nombre del archivo debe ser exactamente “robots.txt” para que pueda ser identificado y leído por los motores de búsqueda.
El archivo debe estar situado en la raíz o directorio principal del hosting donde se encuentre alojada la página web.
Si se cuenta con subdominios activos, también se puede utilizar un robots.txt en cada uno de ellos.
El formato texto del archivo debe ser con codificación UTF-8. Si no se utiliza este formato, Google puede ignorar algunos caracteres y las reglas incluidas en el archivo dejarían de tener efecto.
Las reglas que se incluyen en el archivo hacen distinción entre mayúsculas y minúsculas, por lo que no es lo mismo poner disallow: /file.asp que disallow; FILE.asp.
Se pueden incluir comentarios en el archivo haciendo uso del carácter “#”.

Al crear el archivo robots.txt se dividirá en diferentes grupos. Cada uno de estos grupos incluye una serie de reglas o directivas codificadas por líneas. En cada grupo se indica a qué tipo de robot está destinado con el comando User-agent.

En esos grupos se definirá a quién se aplican las directrices, que carpetas o archivos se puede acceder y a que carpetas o archivos no se puede acceder.

Cuando los rastreadores lean este archivo lo harán de forma secuencial, comenzando por la parte superior.

Elementos del archivo Robots.txt

Podemos incluir diferentes elementos dentro del archivo robots.txt para configurarlo de forma que cumpla las necesidades SEO para el sitio web. Los principales elementos de un robots.txt son:

Comandos

Los diferentes comandos o directivas que se pueden incluir en robots.txt son:

user-agent. Este comando debe incluirse al menos una vez en cada grupo del archivo y debe incluir el nombre del rastreador al que se aplican las reglas. Se incluye al principio del resto de comandos. Para consultar la lista de usuarios-agentes de Google se puede consultar este enlace.
disallow. Indica una página o directorio que no se debe rastrear ni indexar por parte del motor de búsqueda indicado en el user-agent. Si se hace referencia a una página a la que no se puede acceder con disallow, habrá que incluir su URL completa.
allow. Realiza la función contraria de disallow, indicando al user-agente que es directorio o URL sí se puede rastrear.
Sitemap. Se indica la URL donde se encuentra el mapa del sitio (indicar la URL completa y precisa de dónde se encuentra). El sitemap contiene una lista de URLs a indexar por lo que incluyéndolo en el robots.txt se facilita la labor de los rastreadores.

Reglas específicas

Existen algunas reglas específicas que se pueden implementar en el archivo robots.txt y que son muy útiles de conocer, como:

1. Inhabilitar el rastreo de toda la web

Para evitar que se indexe toda la web (Google puede optar por ignorar esta indicación en algunos casos):

 				 					User-agent: * Disallow: /

2. Permitir el acceso a un solo motor de búsqueda

Es útil cuando se quieren dar indicaciones a un único motor de búsqueda, como por ejemplo a Googlebot-news:

 				 					User-agent: Googlebot-news Allow: / User-agent: * Disallow: /

Podemos apreciar que el primer grupo indica que se permite indexar el contenido de la web en Google-news específicamente, y en el segundo grupo como se bloquea el rastreo para el resto de bots.

3. Permitir el acceso a todos los motores excepto a uno

Cuando se quiera evitar que un bot concreto rastree la web, como por ejemplo Google-image.

 				 					User-agent: Google-image Disallow: / User-agent: * Allow: /

4. Impedir el rastreo de un directorio

Para evitar que los bots rastreen todo un directorio y las URLs que contiene.

 				 					User-agent: * Disallow: /calendar/ Disallow: /junk/

5. Impedir el rastreo de una sola URL

Para indicar que los bots no rastreen una determinada página.

 				 					User-agent: * Disallow: /webanorastrear.html

6. Bloquear el uso de una imagen

Para evitar que Google-image haga uso de una determinada imagen en sus páginas de resultados:

 				 					User-agent: Googlebot-Image Disallow: /images/cat.jpg

7. Evitar el rastreo de tipos de archivo

Para bloquear el acceso e indexado por tipo de archivo, como por ejemplo las imágenes JPG.

 				 					User-agent: Googlebot Disallow: /*.jpg$

Probando el archivo robots.txt en Google

Google facilita una herramienta gratuita y específica para poder testear los archivos robots.txt y confirmar que se encuentran bien configurados. Esta herramienta conocida como el Probador de robots.txt tiene un funcionamiento muy sencillo que podemos ver con los siguientes pasos:

Acceder a la página oficial del probador de robots.txt de Google.
En la opción selecciona una propiedad, elegir la URL del sitio web que se quiere probar. Si no se tiene vinculada la cuenta de la web a Google Search Console o Google Analytics será necesario realizarlo.
Tras seleccionar la URL a analizar se mostrará su contenido en un editor de texto, mostrando diferente información al respecto.
En la parte inferior habrá dos íconos mostrando los errores encontrados (en color rojo) y las advertencias de posibles problemas o conflictos (color naranja).
Es posible editar aquí mismo el robot.txt y enviarlo para modificarlo directamente (descargándolo y subiéndolo al directorio raíz para sustituir el antiguo).
Otra función destacable de esta plataforma de comprobación del robots.txt es la posibilidad de comprobar los permisos de la distintas URLs de la página para cada uno de los bots de Google (Googlebot, Google-image, Google-news, Google-video, Google-Mobile, Mediapartners-Google y Adsbot-Google).

Este probador tiene algunas limitaciones, como la imposibilidad de realizar comprobaciones de acceso o bloqueo para dominios. Además, es exclusivo al comportamiento de los bots de Google por lo que no sirve para comprobar el comportamiento de otros bots ante la configuración del archivo.

Saber configurar el archivo robots.txt es una prioridad para cualquier experto SEO pues permite indicarle a los distintos bots de Google cuál debe ser su comportamiento a la hora de rastrear, posicionar e indexar las URLs de un sitio web.

En este archivo se pueden aplicar una serie de reglas para evitar que una URL o dominio sea indexada, o para indicar que sí debe ser indexada. A pesar de que los diferentes Googlebot siguen las indicaciones de este archivo en la mayoría de casos, otros motores de búsqueda solo las utilizan como referencia y suelen hacer caso omiso en mayoría de los casos, siguiendo sus propios criterios de rastreo.