Política de CortesíaUn crawler es finalmente otro cliente de un servidor web y como tal, consume sus recursos. Algunos costos asociados a un crawler desde el punto de vista de un servidor web son:
Una solución parcial es el uso del protocolo de exclusión para robots, conocido por el archivo robots.txt.[1] Este estándar sin embargo, no incluye una sugerencia para el intervalo entre visitas, pese a que esta es la forma más efectiva para evitar la sobrecarga de servidor. Cabe destacar que algunos motores de búsqueda como Ask Jeeves admiten un parámetro "Crawl-delay" en el archivo robots.txt. Esta propuesta inicialmente estipulaba 60 segundos. Pero, si las páginas se descargaran a esta frecuencia de un sitio web con más de 100,000 páginas con una conección perfecta (cero latencia y ancho de banda infinito), tomaría 2 meses descargar solo ese sitio, y solo se usaría una fracción de los recursos de ese servidor. Por supuesto, se pueden usar intervalos mejores como 10 ó 15 segundos. El crawler de MercatorWeb usa una política de cortesía adaptable: sea t el tiempo en segundos que le tomó descargar un documento de un servidor dado. Entonces espera 10t segundos antes de la siguiente descarga En cuanto a los crawlers para fines didácticos o académicos, hay que ser más considerados, ya que el servidor no gana nada con ser indexado por ese crawler. Empíricamente, se sabe que es conveniente usar intervalos de entre 20 segundos a 3 minutos. Mas, siendo muy educado, siempre habrán quejas de los administradores web. Sergey Brin y Larry Page[2] indican: "... correr un crawler que se conecta a más de medio millón de servidores (...) genera una buena cantidad de e-mail y llamadas telefónicas. Debido al gran número de personas que están en línea, siempre hay de los que no saben lo que es un crawler, por ser el primero que ven." 1. Koster, M. (1995). Robots in the web: threat or treat? 2. "Web crawling ethics revisited: Cost, privacy and denial of service |
_text_