从交互式数据包装器地图收集数据

Question

rwallace

Asked: 2023-10-19 20:47:10 +0800 CST2023-10-19 20:47:10 +0800 CST 2023-10-19 20:47:10 +0800 CST

为什么 Postgres 枚举占用 4 个字节？

772

根据https://www.postgresql.org/docs/current/datatype-enum.html

枚举值在磁盘上占用四个字节。

这似乎是一个奇怪的选择。当然，为了速度，枚举标签被映射到固定大小的整数，但为什么是 4 个字节呢？

大多数时候，枚举仅用于少数选项；1 个字节就足够了。

可以理解的是，设计者可能想要满足偶尔较大的枚举的需求。在野外见过的最大的枚举是什么？我可以想象一个用于例如国家代码。这是最后一次计数的 249；再多几个国家就会溢出 1 字节。我可以明白将其设置为 2 个字节的理由。

但为什么是4？有没有人使用过超过 65536 个案例的数据库枚举？Postgres 真的可以与那么多人一起工作吗？

1 个回答

Voted

Laurenz Albe · Answer 1 · 2023-10-19T21:46:45+08:00

在底层，枚举值是 a real，而不是 an integer，这就是它占用四个字节的原因。查看系统目录：

\d pg_enum
              Table "pg_catalog.pg_enum"
    Column     │ Type │ Collation │ Nullable │ Default 
═══════════════╪══════╪═══════════╪══════════╪═════════
 oid           │ oid  │           │ not null │ 
 enumtypid     │ oid  │           │ not null │ 
 enumsortorder │ real │           │ not null │ 
 enumlabel     │ name │           │ not null │ 
Indexes:
    "pg_enum_oid_index" PRIMARY KEY, btree (oid)
    "pg_enum_typid_label_index" UNIQUE CONSTRAINT, btree (enumtypid, enumlabel)
    "pg_enum_typid_sortorder_index" UNIQUE CONSTRAINT, btree (enumtypid, enumsortorder)

enumtypid是数据类型的 OID（来自pg_type），enumsortorder是存储在表中的实际值，enumlabel是标签。

要了解为什么real使用，请查看该示例：

CREATE TYPE wealth AS ENUM ('poor', 'rich');

SELECT * FROM pg_enum WHERE enumtypid = 'wealth'::regtype;

  oid  │ enumtypid │ enumsortorder │ enumlabel 
═══════╪═══════════╪═══════════════╪═══════════
 35366 │     35364 │             1 │ poor
 35368 │     35364 │             2 │ rich
(2 rows)

到目前为止，这并不奇怪。

ALTER TYPE wealth ADD VALUE 'billionaire';

SELECT * FROM pg_enum WHERE enumtypid = 'wealth'::regtype;

  oid  │ enumtypid │ enumsortorder │  enumlabel  
═══════╪═══════════╪═══════════════╪═════════════
 35366 │     35364 │             1 │ poor
 35368 │     35364 │             2 │ rich
 35370 │     35364 │             3 │ billionaire
(3 rows)

这也很清楚。

ALTER TYPE wealth ADD VALUE 'millionaire' BEFORE 'billionaire';

SELECT * FROM pg_enum WHERE enumtypid = 'wealth'::regtype;

  oid  │ enumtypid │ enumsortorder │  enumlabel  
═══════╪═══════════╪═══════════════╪═════════════
 35366 │     35364 │             1 │ poor
 35368 │     35364 │             2 │ rich
 35370 │     35364 │             3 │ billionaire
 35371 │     35364 │           2.5 │ millionaire
(4 rows)

啊! 因为'millionaire' < 'billionaire'，它的排序顺序必须在'rich'和之间'billionaire'。对于integer，我们必须将的排序顺序更改'billionaire'为 4 以便为新标签腾出空间。但这是不可能的，因为 3 的内部值可能已经存储在某个表中，并且我们当然不能重写所有这些表。

显而易见的答案是使用浮点值，以便我们可以在现有值之间插入新值。

我们必须“浪费”四个字节，因为没有更短的浮点数据类型。如果您考虑到每个表行都有 23 个字节的开销，并且您想要保存的三个字节中的大部分很可能会因对齐要求而导致填充丢失，那么您会发现浪费并没有那么严重。

为什么 Postgres 枚举占用 4 个字节？

使用 <font color="#xxx"> 突出显示 html 中的代码

为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类？

您可以使用花括号初始化列表作为（默认）模板参数吗？

为什么列表推导式在内部创建一个函数？

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

为什么 'char -> int' 是提升，而 'char -> Short' 是转换（但不是提升）？

为什么库中不调用全局变量的构造函数？

std::common_reference_with 在元组上的行为不一致。哪个是对的？

C++17 中 std::byte 只能按位运算？

为什么 Postgres 枚举占用 4 个字节？

1 个回答

相关问题