Robots.txt

Un archivo robots.txt es un tipo de archivo especial que nos podemos encontrar en las páginas web, el objetivo de estos archivos es indicar a los rastreadores de los buscadores a qué URLs pueden acceder de una página concreta, pero no sirve para bloquear el acceso a estas rutas, son solo indicaciones o instrucciones que deben seguir.

Por lo general estos archivos son muy fáciles de crear con un editor de texto por el tipo de archivo, y tampoco tienen una sintaxis muy compleja para dar las reglas de búsqueda. Pero siempre hay que seguir tres normas antes de adentrarnos en esto.

Al crear el robots.txt siempre debe estar en codificación UTF-8.

Además, debemos tenerlo creado en el directorio raíz, esto quiere decir que si tenemos por ejemplo una página web www.misitio.com siempre el robots.txt debe de ubicarse dentro de la ruta raíz del sitio www.misitio.com/robots.txt

Por último, solo puede haber un robots.txt por página web.

Si seguimos estas normas no deberíamos tener problemas luego con nuestro archivo txt.

Este archivo suele tener un formato de User-agent y Disallow, tal que así:

User-agent: Applebot

Disallow: /ajax/

Disallow: /album.php

Disallow: /checkpoint/

Disallow: /contact_importer/

El User-Agent indica al tipo de bot o agente al que va dirigido las indicaciones. Es decir, donde podrá o no acceder. Esto lo indica mediante el Disallow, actúa como una lista negra, es decir que todo lo que no se especifica de URL puede acceder libremente. Aunque un detalle son las rutas que tienen un * significa que todo lo que esté en esa ruta no se puede acceder por el User-Agent específico.

Otro parámetro que se utiliza es el crawl delay, se utiliza para indicar a los rastreadores cuanto tiempo deben esperar entre rastreo y rastreo, esto se debe a que algunas páginas pueden colapsar si reciben demasiadas peticiones seguidas, y por eso indicaciones como crawl delay se vuelven esenciales, su sintáxis es de esta manera:

User-agent: *

Crawl delay: 10

Siempre trabajamos dentro del User-agent para dar indicaciones, cuando queremos seleccionar todos los agentes usamos *

Para el trabajo del SEO y del Community Manager es esencial el uso de robots.txt para controlar que partes de los sitios web pueden ser rastreadas por los motores de búsqueda. Por lo que si hay contenido que no deseas que aparezca en los resultados de búsqueda, puedes utilizar el robots.txt para bloquear a esos archivos o directorios.

En estos casos también se utiliza para preservar el presupuesto de rastreo. Los motores de búsqueda asignan un presupuesto de rastreo a cada sitio web, lo que determina con qué frecuencia y en qué medida se rastrea el sitio. Al utilizar el archivo robots.txt para bloquear el acceso a ciertas secciones menos importantes o de menor valor, para redireccionarlo a las páginas más interesantes y de mayor valor.

También se puede utilizar para evitar indexar páginas que no queremos que muestren los motores de búsqueda.

Por lo que el Robots.txt es esencial para el uso de SEO y de qué queremos que se rastree o no de nuestras páginas web, pero no implica que se bloquee el acceso a estas.

Volver al glosario

Robots.txt

¿Te planteas estudiar? Te informamos