¿Cómo implementar una migración web exitosa?

¿Qué es?

Robots.txt es un código que utilizamos para que los bots de los buscadores no rastreen como resultado contenido que no queremos que muestren o indexen en su motor de búsqueda, ya que pueden agregan información innecesaria para la búsqueda, tiene como finalidad filtrar y categorizar archivos web. Un buen ejemplo de cuando usar Robots.txt sería cuando se quiere dejar afuera las páginas de búsqueda avanzada de nuestro sitio web.

¿Para qué sirve?

Además de denegar el acceso a los bots, sirve para guiar cual es el contenido que queremos que sea visualizado e indicar dónde se encuentran los sitemaps del sitio. Así podremos tener control sobre la información que queremos que sea indexada por el buscador y que no se rastreen determinadas páginas del sitio.

Cómo implementar un Robots.txt

Los archivos Robots.txt deben colocarse en la raíz del URL, es decir, luego del slash (/) que se encuentra luego del nombre del sitio. Por ejemplo: www.gril.cl/robots.txt.

Este archivo incluye varios grupos que tienen como finalidad permitir o bloquear el acceso a los bots del contenido del sitio que se quiere o no mostrar en el motor de búsqueda. Estos grupos van en la programación del sitio y el texto debe ir sin formato.

Sintaxis Robots.txt

User-agent: indica cual bots queremos que rastreen nuestro sitio y cuáles no.
Disallow: para indicar qué página queremos bloquear.
Allow: sirve para hacer excepciones en lo que queremos mostrar en una página bloqueada.
Sitemap: Indicar en qué URL se encuentra el sitemap.
Crawl-delay: Especificar cuánto tiempo de espera queremos que los bots tengan entre una página y otra.

Por ejemplo:

#Grupo1

User-agent: Googlebot

Disallow:/search-advance/

Este grupo bloqueara los bots del motor de búsqueda de Google para la pagina de “busqueda avanzada” del sitio web.

En cada grupo debe haber una comando User-agent para indicar el rastreador, si queremos bloquear los Ads de Google, sería de la siguiente forma:

User-agent: Googlebot

User-agent: AdsBot-Google

Disallow: /search-advance/

¿Qué hay que considerar del archivo Robots.txt?

Las instrucciones del archivo Robots.txt son solo directivas, es decir, son solo indicaciones. Hay una posibilidad de que estás no se cumplan. Pues es posible que en otros motores de búsqueda si aparece tu página, para esto ocupa una contraseña o usa el código noindex en el html.
Cada comando puede ser interpretado diferente por esto usa la sintaxis correcta dependiendo de cada motor de búsqueda, los códigos de Google serán diferente a la de Yahoo.
Restringe tu URL, es un error pensar que la página bloqueada no puede ser encontrada por otros usuarios, por tu competencia o por otros motores de búsqueda, por eso es importante bloquear el acceso.

Es de suma importancia seguir estos pasos y reconocer la sintaxis de los motores de búsqueda, debido a que cualquier error podría denegar el acceso al sitio web por completo, esto sería un gran inconveniente para la búsqueda orgánica y las estrategias SEO de la web, ya que utilizar el archivo Robots.txt sirve para optimizar el posicionamiento orgánico.