AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 36869
Accepted
ledy
ledy
Asked: 2013-03-18 05:55:44 +0800 CST2013-03-18 05:55:44 +0800 CST 2013-03-18 05:55:44 +0800 CST

MongoDB: solução alternativa de agregação por coleção auxiliar

  • 772

Como corro regularmente contra o limite de tamanho de documento do mongodb e também as limitações de grupo da estrutura de agregação > 16M, dependendo da quantidade de dados que preciso processar, procuro uma solução alternativa simples.

A solução também deve ser adequada para nós únicos (e não deve exigir vários mongos).

Dito em poucas palavras, é uma agregação para encontrar

(a) o número (contagem) de únicos em um campo e agrupar o número por outro campo

(b) a frequência ou contagem de quantas vezes um id único apareceu.

Um exemplo pode facilitar o entendimento da tarefa: Digamos que haja uma coleção com 2 campos, o último e o sobrenome.

(ex a) Quantos sobrenomes diferentes existem para cada sobrenome? O resultado pode ser: Existem 1000 sobrenomes únicos (distintos) para o sobrenome "smith", 500 sobrenomes diferentes para pessoas com sobrenome "schulz" etc.

=> isso também pode ser resolvido com contagem distinta e/ou mapreduce etc. nenhuma limitação é excedida. de qualquer forma, parece ser uma varredura de tabela lenta e a estrutura de agregação faz a tarefa muito mais rapidamente.

(ex b) Quão populares são os sobrenomes para cada sobrenome? Resultado: Com o sobrenome "smith" existem 500 sobrenomes diferentes que aparecem apenas uma vez, 200 sobrenomes que aparecem 2 vezes, 45 são listados 3 vezes nossos dados, ...

=> aqui é muito confortável trabalhar com a estrutura de agregação do mongodb, que lida com essa tarefa de forma rápida e adequada. No entanto, ao tentar a tarefa com muitos únicos em uma coleção de 15 GB, ele se preocupa com a limitação de 16 milhões.

A primeira solução alternativa foi bem-sucedida, mas é apenas um truque não escalável rápido e sujo: em vez de processar todos os dados e $grupo posteriormente, eu filtro ($correspondência) para cada $grupo-item. Com o exemplo acima, procuro todos os sobrenomes distintos, executo uma agregação por sobrenome e reduzo os dados do pipeline antes do início da agregação.

Isso evita o problema de limite de 16 milhões se a quantidade de dados para um único item de grupo $ (sobrenome) não for muito. => apenas solução alternativa rápida e suja.

Outra ideia é uma coleção de ajuda para os COUNTs.

Eu poderia iterar cada documento de entrada e escrever em outra coleção os sobrenomes e um campo por sobrenome com o contador.

Por exemplo, sobrenome=John count_with_Lastname.smith=10, count_with_Lastname.brown=2, ...

Construir esta coleção auxiliar é muito lento, não é? Ao incrementar +1, que é 1 atualização/gravação por documento de entrada, temo que isso possa levar uma eternidade :-(

Existe uma prática recomendada ou dicas para resolver esta tarefa (sem vários nós e sem Hadoop ou alternativas)?

Por favor deixe-me saber

nosql mongodb
  • 1 1 respostas
  • 729 Views

1 respostas

  • Voted
  1. Best Answer
    Adam C
    2013-05-28T07:38:22+08:002013-05-28T07:38:22+08:00

    Depois de ultrapassar as limitações mencionadas (até que $out seja suportado , pelo menos), sua melhor opção é Map Reduce. Se você for executar vários trabalhos de Map Reduce, eu recomendaria pelo menos a versão 2.4 (usa o mecanismo V8, multi-threaded). Para um exemplo de como fazer uma contagem única com Map Reduce, dê uma olhada aqui:

    http://cookbook.mongodb.org/patterns/unique_items_map_reduce/

    • 1

relate perguntas

  • Existe alguma maneira de executar com eficiência o equivalente a DENSE_RANK no MongoDB?

  • O que significa escala horizontal?

  • "phpMyAdmin" para Cassandra

  • Bons recursos para operar/administrar o MongoDB

  • Quais são as diferenças entre o NoSQL e um RDBMS tradicional?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Conceder acesso a todas as tabelas para um usuário

    • 5 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve