Archivo robots.txt
En el 93 y 94 hubo ocasiones en que robots visitaron servidores
donde no debían por diversas razones. Algunas veces hicieron
solicitudes muy continuamente o descargaron contenido repetido varias
veces. Otras, entraron a partes del sitio donde no deberían (arboles
virtuales muy profundos, información duplicada, archivos temporales o
scripts cgi con efectos secundarios (como votaciones))
Estos incidentes indicaban la necesidad de un mecanismo para los servidores, indicando qué se puede accesar y por quién.
El método
El método usado para excluir robots de un servidor era crear un
archivo en el servidor que especifica la política de acceso para
robots. Este archivo debe ser accesible por HTTP en la URL local
"/robots.txt". Una desventaja de este enfoque es que solo el
administrador del servidor puede mantener este archivo, no los
mantenedores individuales del servidor. Esto se puede resolver
construyendo el archivo final con varios otros pero esto se sale del
estándar. Después de analizarlo, se concluyó que el mejor nombre para
ese archivo era robots.txt.
El formato
El archivo consiste de uno o más registros separados una o más
líneas en blanco (terminadas por CR,CR/NL o NL). Cada registro contiene
líneas de la forma "<campo>:<espacioopcional><valor>< espacioopcional > ".
El nombre del campo es sencible a mayúsculas. Se pueden usar
comentarios siguiendo las convenciones del bourne shell de UNIX (i.e.
con '#').
El registro empieza con una o más líneas User-agen, cada una seguida
por una o más líneas Disallow. Encabezados no reconocidos son ignorados.
User-agent
El valor de este campo es el nombre del robot al que se refiere el
registro. Si hay más de un campo user-agent, el registro describe una
política de acceso idéntica para más de un robot. Al menos un campo
debe estar presente por registro.
El robot debe ser liberal interpretando este campo. Se recomienda
que reconozca una subcadena sensible a mayúsculas del nombre sin
versión.
El valor '*' se refiere a cualquier robot al que no se refiera ninguno
de los otros registros. No se permite tener varios de esos registros en
el /robots.txt.
Disallow
El valor de este campo especifica una URL parcial que no debe ser
visitada. Puede ser una ruta completa o parcial; cualquier URL que
empiece con este valor no será recuperada. Por ejemplo
Disallow: /help
se refiere tanto a /help.tml como a /help/index.html, mientras que
Disallow: /help/
se refiere a /help/index.html pero no a /help.html.
Un valor valor vacío indica que todas las URLs pueden ser recuperadas.
Por lo menos un campo Disallow debe estar presente en el registro. Un
archivo /robots.txt vacío no significa nada. Será tratado como si no
existierap; luego, todos los robots son bienvenidos.
Ejemplos
# robots.txt para http://www.ejemplo.com/
User-agent: *
Disallow: /cyberworld/map/ # Es un espacio virtual infinito
# Cybermapper sabe a donde ir.
User-agent: cybermapper
Disallow:
Un robots.txt como el siguiente prohibe todo: # déjenme en paz User-agent: * Disallow: /
|
_text_