Trampa para arañasUna trampa para arañas consiste en un conjunto de páginas web que pueden (intencionalmente o no) ser usadas para causar que un web crawler haga un número indefinito de solicitudes o causar que un crawler mal escrito se estropee. Pueden ser creadas para destruir ("atrapar") spambots u otros crawlers que desperdicien el ancho de banda de un servidor. También se pueden crear sin intención por calendarios que usen páginas dinámicas con links que continuamente apuntan al siguiente día o año. Algunas técnicas comunes son:
No hay algoritmo para detectar a todas las trampas. Algunas se
pueden detectar de manera automática pero (al igual que con los virus y
antivirus) aparecen nuevas constantemente. CortesíaUna trampa de araña provoca que un crawler entre en un ciclo
infinito, que desperdicia los recursos del crawler, baja su
productividad e incluso podría hacerlo caer. Un crawler cortés alterna
solicitudes entre diferentes hosts, y no solicita documentos del mismo
servidor más de una vez cada cierta cantidad de segundos. Esto implica
que un crawler cortés está menos expuesto al peligro que uno descortés
(ver Política de cortesía). |
_text_