Estou agendando spiders implantados via scrapy com cron. Cada aranha uma linha. Agora, com 100 aranhas, isso se torna bastante difícil de planejar e gerenciar. Qual é a maneira recomendada de gerenciar uma grande quantidade de trabalhos? Analisar o tempo de manutenção potencial necessário para pausar/retomar trabalhos, entre outras coisas, como trabalhos sobrepostos, etc.
Não use cron
Se suas necessidades forem complexas, você pode considerar o uso de um produto mais avançado projetado para executar agendamentos complexos (distribuídos em vários servidores) e que suporte gatilhos, dependências de trabalho, tratamento de erros, tentativas e monitoramento de repetição etc. O jargão do setor seria "empresa " agendamento de tarefas e/ou "automação de carga de trabalho".
Se você precisar agendar QUANDO a tarefa será executada, não COM QUE FREQUÊNCIA, você pode continuar usando o cron. Para evitar execuções cruzadas de tarefas, você pode deixar o cron executar apenas um script curto que adiciona a tarefa a algum tipo de fila (redis, rabbitmq, banco de dados sql) e deixar outro script consumir essa fila e executar as cargas de trabalho sequencialmente ou com simultaneidade limitada. Isso, obviamente, traz outra categoria de problemas, como lidar com cargas de trabalho bloqueadas, bloqueando as outras de serem executadas :)