<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=244227003061217&amp;ev=PageView&amp;noscript=1">

¿Qué es el robots.txt y qué ventajas aporta a nuestra web?

El fichero denominado robots.txt es un archivo de texto que se encuentra en la raíz de un sitio web cuya función es restringir a los motores o rastreadores de búsquedas el acceso a ciertas partes de nuestra web.

La utilidad de este tipo de archivos radica en que los rastreadores de Google y otros buscadores tienden a indexar toda la información posible de las webs, lo que en ocasiones choca con nuestros intereses. Por ejemplo, cuando ciertos enlaces de nuestra web se encuentran en construcción o revisión, bien porque se trate de contenido duplicado o porque sospechemos que contienen errores.

robots.txt

 

Cómo funciona el archivo robots.txt

Ahora que ya sabes qué es el robots.txt, te vamos a enseñar las reglas básicas de su funcionamiento.

Lo primero que tienes que conocer es que este tipo de archivos se basan en un protocolo denominado Robots Exclusion Protocol, que es un estándar o convenio universalmente aceptado configurado con un pequeño grupo de comandos, así como unas reglas a nivel de sintaxis que deben seguirse para que los rastreadores comprendan nuestras indicaciones.

Comandos más importantes

Aunque existen algunos más, los comandos más usuales en cuanto a archivos robots.txt son los siguientes:

  • Disallow. Se utiliza para denegar el acceso a un directorio o una página concreta.
  • Allow. Sirve para justo lo contrario que el comando anterior, puesto que lo que hace es permitir que los robots rastreadores de Google y otros buscadores sí accedan a determinados enlaces.
  • User-agent. Hace referencia a qué tipo de robots, también denominados crawlers, deben seguir las indicaciones de los comandos.
  • Sitemap. Este comando indica la ruta exacta en la que se encuentra el mapa del sitio en XML.
  • Crawl-delay. Es una indicación sobre el tiempo, expresado en segundos, que debe esperar el robot entre cada página.

Las reglas de sintaxis

Siguiendo el protocolo establecido, los comandos nombrados anteriormente deben seguir las siguientes reglas:

  • Se deben respetar: las mayúsculas y minúsculas, la puntuación y los espacios establecidos.
  • Cada grupo User-agent/Disallow ha de ir separado por una línea en blanco.
  • Existe la posibilidad de incluir comentarios, utilizando para ello la almohadilla o símbolo de hash (#).
  • En principio, únicamente pueden utilizarse los comandos citados anteriormente.

 

Algunas cosas a considerar sobre los archivos.txt

  • Es necesario tener acceso a la raíz del dominio para poder crear un archivo robots.txt. Si no la conoces o tienes problemas con esta cuestión, deberás ponerte en contacto con tu proveedor de alojamiento web.
  • Hay que tener en cuenta que las instrucciones de los robots.txt son solamente indicaciones o recomendaciones. Es decir, aunque los rastreadores suelen hacerles caso, no están obligados a cumplirlas. Por otro lado, puede haber algunas discrepancias o interpretaciones distintas de las instrucciones de los comandos entre los diferentes rastreadores de Google.
  • El archivo .txt proporciona información pública, por lo que para proteger información de carácter privado es conveniente utilizar otros métodos, como la protección con contraseña de determinados directorios desde el propio servidor.
  • Existe una herramienta de Google, denominada probador de robots.txt, que te servirá para comprobar si estás consiguiendo el efecto que deseas con los comandos que has implementado.

 

¿Qué puede aportar a mi página el robots.txt?

Aunque, como hemos comentado, no existe una ley que obligue a los rastreadores a seguir las indicaciones de los robots.txt, se sabe que, normalmente, lo primero que hacen las arañas de Google cuando aterrizan en tu página es buscar el archivo robots.txt y tener en cuenta sus indicaciones a la hora de realizar el análisis y la valoración de tu sitio.

Por lo tanto, los robots.txt facilitan el trabajo a los rastreadores, lo que nos puede ayudar a conseguir un mejor posicionamiento SEO. En definitiva, la inclusión de este tipo de comandos debe entenderse como una acción más para conseguir estar lo más arriba posible en las entradas de Google. Y ya se sabe que el éxito del SEO está en ir sumando puntos para, al final, lograr ventaja frente a las páginas de la competencia.  Si quieres aprender sobre SEO, descárgate nuestra guía gratuita Los secretos del SEO (ed. actualizada).

En conclusión, la gran ventaja de estos comandos es que posibilitan restringir el acceso de los robots a tu página de una forma selectiva, teniendo tú el control en cuestiones como:

  • Evitar que determinados enlaces de nuestra página que no nos interesan (aunque sea de forma temporal) sean accesibles para los buscadores.
  • Bloquear también el acceso a archivos sin utilidad para los robots y los usuarios, como pueden ser ciertos códigos de programación.
  • Evitar ser penalizados por Google porque sus robots lleguen a indexar contenido duplicado en nuestra página.
  • Facilitar el acceso al sitemap y, de esta forma, provocar que Google conozca rápidamente la estructura y los contenidos básicos de nuestra web.

¿Te ha interesado este artículo? Si es así, te recomendamos la lectura de las siguientes entradas sobre SEO de nuestro Diccionario de Marketing Online:

New Call-to-Action