Política de Paralelización
Un crawler paralelo es uno que corre varios procesos simultáneos. La
meta es maximizar la tasa de descarga mientras maximiza la sobrecarga (overhead)
por paralelización y evitar descargas repetidas. Para esto último, el
sistema requiere una política de asignación de nuevas URLs descubiertas
en el camino.
Normalmente se usan dos políticas de asignación:
-
Asignación dinámica: un servidor central (con mucho control)
asigna las URLs a cada proceso, manteniendo el balance y pudiendo
detener a cualquiera de ser necesario. Nótese que el servidor se puede
convertir en un cuello de botella, como en toda arquitectura
distribuida con un servidor.
-
Asignación estática: antes de empezar el arañado, se define una
regla de asignación de URLs. Normalmente se usa una función hash con
las URLs y los crawlers hacen las veces de las entradas en una tabla
hash. La conversión de URLs se puede hacer por lotes (batch)para aminorar la sobrecarga (overhead).
|
_text_