AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 338212
Accepted
Furkan YIlmaZ
Furkan YIlmaZ
Asked: 2024-04-01 16:56:25 +0800 CST2024-04-01 16:56:25 +0800 CST 2024-04-01 16:56:25 +0800 CST

分片集群 - 为什么我的数据没有在节点之间拆分?

  • 772

我创建了一个包含两个分片的集群。或者说我是这么想的。在我的设计中,第一台服务器有 mongos_router shard1 (3 个节点)和配置服务器。第二台服务器只有分片 2 个节点。配置分片后,我为每个数据库启用了分片。当我查看 sh.status() 的输出时,我看到以下输出:

...
  {
    database: {
      _id: 'wins_emission',
      primary: 'shard1rs',
      partitioned: false,
      version: {
        uuid: UUID('aebf94cf-6069-41ba-9a91-f91a944071b1'),
        timestamp: Timestamp({ t: 1711952615, i: 3000 }),
        lastMod: 1
      }
    },
    collections: {}
  },
  {
    database: {
      _id: 'wins_healthcheck',
      primary: 'shard2rs',
      partitioned: false,
      version: {
        uuid: UUID('663cb5f7-b7b3-4f40-9f52-2c3d1969fb65'),
        timestamp: Timestamp({ t: 1711952305, i: 4 }),
        lastMod: 1
      }
    },
...

我理解这是因为数据库将分布在分片之间。我预计节点之间的数据不会相同。例如,通知表有 17.7k 个文档。我希望这些文档能够在节点之间共享。就像 shard1-first 节点有 4k 一样,shard1-second 节点有 4k 等等。但它不是这样工作的。每个分片中的每个节点都有相同数量的 17.7k 。我可能会误解这一点。

我尝试在通知表的集合级别进行分片。我创建了一个散列分片键。然后执行sh.shardCollection()命令。现在,我的第一个分片在其自己的节点中有 4.7k 个文档,而 shard2 本身有 12.9k 个文档。现在这让我想到了这些问题。

  1. 我是否需要对每个集合进行分片才能使用分片集群?
  2. 我应该对每个集合进行分片,还是只对那些保存日志等大数据的集合进行分片?
  3. 为什么一个分片中的所有节点都有相同数量的文档。他们不应该自行分发数据吗?

任何帮助表示赞赏。

编辑1:特定集合的getShardDistribution的输出;

{
  data: '382.25MiB',
  docs: 7006,
  chunks: 3,
  'estimated data per chunk': '127.41MiB',
  'estimated docs per chunk': 2335
}
---
Shard shard2rs at shard2rs/172.16.114.129:27020,172.16.114.129:27021,172.16.114.129:27022
{
  data: '579.78MiB',
  docs: 10578,
  chunks: 1,
  'estimated data per chunk': '579.78MiB',
  'estimated docs per chunk': 10578
}
---
Totals
{
  data: '962.03MiB',
  docs: 17584,
  chunks: 4,
  'Shard shard1rs': [
    '39.73 % data',
    '39.84 % docs in cluster',
    '55KiB avg obj size on shard'
  ],
  'Shard shard2rs': [
    '60.26 % data',
    '60.15 % docs in cluster',
    '56KiB avg obj size on shard'
  ]
}


replication
  • 1 1 个回答
  • 27 Views

1 个回答

  • Voted
  1. Best Answer
    Wernfried Domscheit
    2024-04-02T17:03:12+08:002024-04-02T17:03:12+08:00

    MongoDB 以块的形式分布数据。默认块大小为 128 MiBytes。

    因此,采集数据大小必须大于128 MiBytes,否则不进行分发。

    关于您的问题:

    1. 我是否需要对每个集合进行分片才能使用分片集群?
    2. 我应该对每个集合进行分片,还是只对那些保存日志等大数据的集合进行分片?
    • 不,没有必要对所有集合进行分片。通常,您仅在大集合上启用分片。
    1. 为什么一个分片中的所有节点都有相同数量的文档。他们不应该自行分发数据吗?

    在 MongoDB 的早期版本中,数据被分片以获得均匀分布的文档/块数量。在新版本的 MongoDB 中,数据被分片以获得均匀分布的数据量。

    请在我的分片集群中查看此示例:

    {
      data: '238.38GiB',
      docs: 65898591,
      chunks: 28,
      'Shard shard_02': [
        '25.05 % data',
        '26.49 % docs in cluster',
        '3KiB avg obj size on shard'
      ],
      'Shard shard_04': [
        '24.97 % data',
        '26.85 % docs in cluster',
        '3KiB avg obj size on shard'
      ],
      'Shard shard_03': [
        '25 % data',
        '19.84 % docs in cluster',
        '4KiB avg obj size on shard'
      ],
      'Shard shard_01': [
        '24.96 % data',
        '26.81 % docs in cluster',
        '3KiB avg obj size on shard'
      ]
    }
    
    • 0

相关问题

  • 如何阻止 MySQL 从站将更改复制到“mysql”数据库?

  • 在同一台物理服务器上运行复制是不明智的吗?

  • 有没有办法以小于 1 秒的分辨率测量 MySQL 中的复制滞后?

  • 运行时间偏移延迟复制的最佳实践

  • PostgreSQL 9.0 Replication 和 Slony-I 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve