En esta nueva entrada vamos a ver qué es el fichero robots.txt, dónde se ubica y cuáles son los comandos de este imprescindible archivo que en toda web debe existir.
Veamos una imagen de ejemplo:
Otros post interesantes:
Es un archivo de texto plano, sin formato que podemos editar con cualquier editor de texto plano (Word y similares NO). Documentación oficial.
Su finalidad es la de establecer a los rastreadores (bots/buscadores) que URLs de una página web deben rastrear o no.
Es muy útil para la optimización SEO y aunque las páginas que impidamos rastrear no saldrán en los resultados de búsqueda (por ejemplo en Google) cabe aclarar estos puntos:
<meta name="robots" content="noindex" />
El robots.txt lo tenemos que ubicar siempre en la raíz de la web, y se debe de llamar igual, por ejemplo –> www.anerbarrena.com/robots.txt
Si tu web tiene subdominios debes poner un robots.txt en cada subdominio.
Veamos los diferentes comandos que tenemos en la sintaxis:
#Esto es un comentario
#Ejemplo 1 todos los robots no deben rastrear nada de la web User-agent: * Disallow: / #Ejemplo 2 en robot de Google no debe rastrear nada de la web User-agent: Googlebot Disallow: / #Ejemplo 3 en robot de Bing no debe rastrear nada de la web User-agent: Bing Disallow: / #Ejemplo 4 los robost de Bing y Google no deben rastrear nada de la web User-agent: Bing User-agent: Googlebot Disallow: /
#Ejemplo 1 para impedir que no se rastree nada el bot de Google User-agent: Googlebot Disallow: / #Ejemplo 2 para impedir que ningún robot rastree nada de directorio 'comisiones' User-agent: * Disallow: /comisiones/ #Ejemplo 3 para impedir que el bot de Google no rastree la URL indicada 'facturas.html' User-agent: Googlebot Disallow: /facturas.html
#Ejemplo para impedir que ningún robot rastree nada de directorio 'comisiones' excepto la url indicada con Allow User-agent: * Disallow: /comisiones/ Allow: /comisiones/validadas.html
Sitemap: https://www.miweb.com/sitemap.xml
Podéis visitar este post para más info: Cómo referenciar un sitemap en el robots.txt
#Ejemplo para evitar el rastreo de las imágenes gif de una web User-agent: * Disallow: /*.gif$ #Ejemplo para evitar el rastreo de los directorios y subdirectorios que comienzan con 'listado' User-agent: * Disallow: /listado*/ #Ejemplo para evitar el rastreo de los directorios que terminan con 'listado' User-agent: * Disallow: /*listado/$
#Ejemplo para que el rastredor vaya rastreando cada 5 segundos una nueva URL User-agent: * Craw-delay: 5