Como corro regularmente contra o limite de tamanho de documento do mongodb e também as limitações de grupo da estrutura de agregação > 16M, dependendo da quantidade de dados que preciso processar, procuro uma solução alternativa simples.
A solução também deve ser adequada para nós únicos (e não deve exigir vários mongos).
Dito em poucas palavras, é uma agregação para encontrar
(a) o número (contagem) de únicos em um campo e agrupar o número por outro campo
(b) a frequência ou contagem de quantas vezes um id único apareceu.
Um exemplo pode facilitar o entendimento da tarefa: Digamos que haja uma coleção com 2 campos, o último e o sobrenome.
(ex a) Quantos sobrenomes diferentes existem para cada sobrenome? O resultado pode ser: Existem 1000 sobrenomes únicos (distintos) para o sobrenome "smith", 500 sobrenomes diferentes para pessoas com sobrenome "schulz" etc.
=> isso também pode ser resolvido com contagem distinta e/ou mapreduce etc. nenhuma limitação é excedida. de qualquer forma, parece ser uma varredura de tabela lenta e a estrutura de agregação faz a tarefa muito mais rapidamente.
(ex b) Quão populares são os sobrenomes para cada sobrenome? Resultado: Com o sobrenome "smith" existem 500 sobrenomes diferentes que aparecem apenas uma vez, 200 sobrenomes que aparecem 2 vezes, 45 são listados 3 vezes nossos dados, ...
=> aqui é muito confortável trabalhar com a estrutura de agregação do mongodb, que lida com essa tarefa de forma rápida e adequada. No entanto, ao tentar a tarefa com muitos únicos em uma coleção de 15 GB, ele se preocupa com a limitação de 16 milhões.
A primeira solução alternativa foi bem-sucedida, mas é apenas um truque não escalável rápido e sujo: em vez de processar todos os dados e $grupo posteriormente, eu filtro ($correspondência) para cada $grupo-item. Com o exemplo acima, procuro todos os sobrenomes distintos, executo uma agregação por sobrenome e reduzo os dados do pipeline antes do início da agregação.
Isso evita o problema de limite de 16 milhões se a quantidade de dados para um único item de grupo $ (sobrenome) não for muito. => apenas solução alternativa rápida e suja.
Outra ideia é uma coleção de ajuda para os COUNTs.
Eu poderia iterar cada documento de entrada e escrever em outra coleção os sobrenomes e um campo por sobrenome com o contador.
Por exemplo, sobrenome=John count_with_Lastname.smith=10, count_with_Lastname.brown=2, ...
Construir esta coleção auxiliar é muito lento, não é? Ao incrementar +1, que é 1 atualização/gravação por documento de entrada, temo que isso possa levar uma eternidade :-(
Existe uma prática recomendada ou dicas para resolver esta tarefa (sem vários nós e sem Hadoop ou alternativas)?
Por favor deixe-me saber
Depois de ultrapassar as limitações mencionadas (até que $out seja suportado , pelo menos), sua melhor opção é Map Reduce. Se você for executar vários trabalhos de Map Reduce, eu recomendaria pelo menos a versão 2.4 (usa o mecanismo V8, multi-threaded). Para um exemplo de como fazer uma contagem única com Map Reduce, dê uma olhada aqui:
http://cookbook.mongodb.org/patterns/unique_items_map_reduce/