AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 36869
Accepted
ledy
ledy
Asked: 2013-03-18 05:55:44 +0800 CST2013-03-18 05:55:44 +0800 CST 2013-03-18 05:55:44 +0800 CST

MongoDB:通过助手集合进行聚合解决方法

  • 772

由于我经常遇到 mongodb 的文档大小限制以及聚合框架的组限制 >16M,这取决于我需要处理的数据量,所以我寻找一个简单的解决方法。

该解决方案还必须适用于单个节点(并且不得需要多个 mongos)。

简而言之,这是一个用于查找的聚合

(a) 一个字段中唯一值的数量(计数),并将该数量按另一个字段分组

(b) 唯一 ID 出现的频率或计数。

一个例子可以使任务更容易理解:假设有一个包含 2 个字段的集合,即姓氏和姓氏。

(例 a)每个姓氏有多少个不同的姓氏?结果可能是:姓氏“smith”有 1000 个唯一(不同)的姓氏,姓氏“schulz”的人有 500 个不同的姓氏等。

=> 这也可以通过不同的计数和/或 mapreduce 等来解决。没有超过限制。无论如何,这似乎是一个缓慢的表扫描,聚合框架可以更快地完成任务。

(例如 b)每个姓氏的姓氏有多受欢迎?结果:对于姓氏“smith”,有 500 个只出现一次的姓氏,200 个出现 2 次的姓氏,45 个出现了 3 次我们的数据,...

=> 在这里使用 mongodb 的聚合框架非常舒服,它可以快速正确地处理这个任务。然而,在 15GB 的集合中尝试具有大量唯一值的任务时,它担心 16M 的限制。

第一个解决方法是成功的,但只是一个快速的'n'dirt 不可扩展的技巧:我没有处理所有数据和之后的 $group,而是为每个 $group-item 过滤($match)。使用上面的示例,我查找所有不同的姓氏,对每个姓氏运行一次聚合,并在聚合开始之前减少管道数据。

如果单个 $group-item(姓氏)的数据量不是太多,这可以避免 16M 限制问题。=> 只有 quick'n'dirty 解决方法。

另一个想法是 COUNT 的帮助集合。

我可以迭代每个输入文档并使用计数器将姓氏和每个姓氏的一个字段写入另一个集合。

例如 surname=John count_with_Lastname.smith=10, count_with_Lastname.brown=2, ...

构建这个助手集合非常慢,不是吗?当递增 +1 时,即每个输入文档 1 次更新/写入,我担心这可能会永远持续下去:-(

是否有解决此任务的最佳实践或技巧(没有多个节点且没有 Hadoop 或替代方案)?

请告诉我

nosql mongodb
  • 1 1 个回答
  • 729 Views

1 个回答

  • Voted
  1. Best Answer
    Adam C
    2013-05-28T07:38:22+08:002013-05-28T07:38:22+08:00

    一旦你超出了你提到的限制(直到至少支持 $out ),那么你最好的选择是 Map Reduce。如果您要运行多个 Map Reduce 作业,我建议至少使用 2.4 版(使用 V8 引擎,多线程)。有关如何使用 Map Reduce 进行唯一计数的示例,请查看此处:

    http://cookbook.mongodb.org/patterns/unique_items_map_reduce/

    • 1

相关问题

  • 有没有什么方法可以在 MongoDB 中有效地执行 DENSE_RANK 的等价物?

  • 水平缩放是什么意思?

  • Cassandra 的“phpMyAdmin”

  • 关于操作/管理 MongoDB 的良好资源

  • NoSQL 和传统的 RDBMS 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    授予用户对所有表的访问权限

    • 5 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve