TOP

Archivo robots.txt para indexar mejor nuestra web en buscadores

Un archivo robots.txt en un sitio web funcionará como una recomendación que especifica a determinados robots que buscan web en todo internet que no hagan caso a directorios o archivos específicos en su búsqueda por tu web.

Esto se podría usar por ejemplo para excluir páginas que tengamos duplicadas ya que esto nos hace posicionarnos en peor posición al ser indexado por los motores de búsquedas.

También lo podemos usar para que no sean indexadas las páginas donde el contenido no coincida del todo con el resto de la página como podría ser la página de términos y condiciones, ya que podríamos salir en las búsquedas al introducir las palabras claves politica o leyes por ejemplo aún siendo nuestra página de otro tipo que no tenga nada que ver.


REGLAS PARA CONSTRUIR NUESTRO ARCHIVO robots.txt

Debemos seguir las reglas sino nuestro archivo será ignorado y perderemos visitas al ser indexado mal. Tenéis que recordar que este carácter “/” lo debeis poner detrás de cada directorio para que incluya subdirectorios.

Aquí os dejo los comandos básicos:

* = Significa que incluye a todos los bots
User-agent = A quienes se dirigen las recomendaciones / nombre del robot rastreador
Disallow = Implica la prohibición de entrar a carpetas o archivos


EJEMPLOS:

Permitir el acceso a todos los robots y a todo nuestra web:

User-agent: *
Disallow:

Negar el acceso a todo nuestro contenido web, el carácter “/” indica toda la web:

User-agent: *
Disallow: /

Negar a los bots entrar en un archivo concreto:

User-agent: *
Disallow: /directory/privado.html

Negar a los bots entrar en un directorio concreto:

User-agent: *
Disallow: /private/

No aconsejar que indexen ninguna página PHP:

User-agent: *
Disallow: /*.php/

Cuidado, los robots son sensibles a lo que escribamos diferenciando las mayúsculas y las minúsculas. Y recordad que editar el archivo robots.txt solo recomienda a los bots donde deben y donde no buscar, normalmente se comportan bien y  hacen caso de las recomendaciones.

Si queremos impedir el acceso solo a un bot cambiamos “*” por el nombre del robot de búsqueda.

Bueno pues esto es lo más básico que necesitáis saber para editar vuestro archivo robots.txt, como veis se puede combinar de muchas formas distintas para así dejar vuestra web perfectamente indexada en los buscadores.

Página oficial de robots.txt donde puede mirar cual es el que tienes en tu página o blog: http://www.robotstxt.org/


Espero que os haya servido, saludos y comentad dudas o problemas por si fuera capaz de ayudaros.