Programación y ejemplos de PHP, jQuery, HTML5, WordPress, MySQL, AMP y htaccess


Qué es el fichero robots.txt, dónde se ubica y cuáles son sus comandos

En esta nueva entrada vamos a ver qué es el fichero robots.txt, dónde se ubica y cuáles son los comandos de este imprescindible archivo que en toda web debe existir.

Veamos una imagen de ejemplo:

Fichero robots.txt

Otros post interesantes:

¿Qué es el fichero robots.txt?

Es un archivo de texto plano, sin formato que podemos editar con cualquier editor de texto plano (Word y similares NO). Documentación oficial.

Su finalidad es la de establecer a los rastreadores (bots/buscadores) que URLs de una página web deben rastrear o no.

Es muy útil para la optimización SEO y aunque las páginas que impidamos rastrear no saldrán en los resultados de búsqueda (por ejemplo en Google) cabe aclarar estos puntos:

  • Debemos usar esta funcionalidad para evitar que Google rastree urls innecesarias con contenido irrelevante o contenido duplicado que podemos tener en varias urls (listados…).
  • Cuando nos referimos a URL no solo lo hacemos en cuando a direcciones web, si no que también los ficheros de una web como pueden ser, imágenes (jpg, gif, png, webp…), CSS, JS y similares.
  • No debemos poner urls privadas como pueden ser el gestor de una web, ya que la lectura del robots.txt es pública y podría dar pistas a hackers y similares.
  • Si queremos no indexar gran número de contenido debemos usar la meta etiqueta noindex:

¿Dónde se ubica?

El robots.txt lo tenemos que ubicar siempre en la raíz de la web, y se debe de llamar igual,  por ejemplo –> www.anerbarrena.com/robots.txt

Si tu web tiene subdominios debes poner un robots.txt en cada subdominio.

Comandos y directrices del robots.txt

Veamos los diferentes comandos que tenemos en la sintaxis:

  • Los comentarios se realizan con el caracter ‘#’:
  • Definir reglas según el user agent, dependiendo el robot que rastree nuestra web podemos definir unas reglas específicas para cada uno:
  • En cada especificación debemos tener al menos un comando Disallow o Allow en el robots.txt para bloquear y permitir rastreos
  • Disallow: Especificamos al user‑agent (rastreador/bot/robot) que URLs no debe rastrear. Vemos varios ejemplos:
  • Allow: Por defecto no debe ponerse esta directriz ya que los rastreadores si no se indica lo contrario van a rastrear todas las URLs que encuentren en una web. Anula la directriz Disallow e indica que URLs anteriormente bloqueadas se den rastrear. Ejemplos:
  • Sitemap: Nos es obligatoria su inclusión pero sirve para indicar a los robots donde tenemos ubicados los sitemaps de nuestra web, ejemplo:

    Podéis visitar este post para más info: Cómo referenciar un sitemap en el robots.txt
  • Comodines: Con estos (‘*’, ‘?’ y ‘$’) podemos realizar patrones para el rastreo de URL:
  • Craw-delay:  Especifica el número de segundos para realizar el siguiente rastreo de URL de una web:
  • Probador de robots.txt: Para comprobar que lo realizado es correcto disponemos del probador en la Search Console de Google.

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies