SQL Server - 使用聚集索引时如何存储数据页

Question

Asked: 2015-10-02 16:35:44 +0800 CST2015-10-02 16:35:44 +0800 CST 2015-10-02 16:35:44 +0800 CST

您将如何存储一组模拟参数的排列，优化存储和解析效率？

772

我将使用我在不久的将来编写的应用程序运行大量模拟，但围绕此设计我的数据库时遇到了麻烦。

这是它的工作原理。每个模拟有 6 个可以变化的参数，每个参数有大约 10 个选项。所以我们有大约 100 万个排列以某种方式存储在数据库中。我能想到的最简单的方法是为每个参数设置一列，并为我的主键 (ExperimentID) 添加一列。然后，我可以通过执行一个简单的操作直接访问给定实验的参数

SELECT * FROM Parameters WHERE ExperimentID = (givenID)

每个参数都将作为一个 int 存储在数据库中，我的应用程序将在运行时将其解释为必要的参数。

一种更复杂但我认为更快的方法是利用二进制移位的速度。我没有直接存储参数，而是将有关每个参数的信息存储在 4 位无符号整数中。我实际上并不知道整数是如何在数据库中存储的（二进制方式），所以这是主要的障碍。

关于在这种情况下该怎么做的任何建议？此外，我还没有这些列，所以如果我决定使用第一个选项，我将如何使用一组参数的所有排列来填充表格？

2 个回答

Voted

Solomon Rutzky · Answer 1 · 2015-10-02T16:56:56+08:00

为什么您认为将真实数据隐藏到位掩码字段中会更快？您只谈论 100 万行和每行 24 个字节。这真的不多，特别是因为你只做单例/查找操作。

更好的优化是使用TINYINT字段（范围为 0 - 255；byte在 .NET 中）。使用TINYINT而不是INT（并假设FILLFACTOR^**为 100）将导致：

该表实际上是 10 MB 而不是 28 MB（6 个字段中的每个字段 1 个字节 + INT [ID] 字段的 4 个字节 = 每行 10 个字节）。
您将在每个 8060 字节的数据页中得到 806 行，而不是具有六个INT字段的 287 行

这里获得的主要效率是：

2244 条记录的初始查找时间更快。怎么会这样？对于 100 万行，每 8k 数据页 287 行相当于 3484 页，而每 8k 数据页 806 行仅相当于 1240 页。一旦页面被读取以获取第一行的值，它应该保留在缓冲池（即内存）中以供后续查找（即同一数据页上的其他行）。每页更多的行意味着从磁盘读取的页面更少——在这种情况下减少了 2244 页。但是一旦所有页面都在缓冲池中，无论是每页 806 行还是 287 行，查找速度都应该相同。因此，100 万次中的 2244 次查找操作稍快一些。当然还不错，因为此优化没有相关成本，但只是希望将其放在正确的角度来看。
将整个表保存在内存中所需的内存更少。这将使它更有可能保留在内存中。

最后，绝对有可能将这些数据压缩成更小的表示形式。但此时它是每行 10 个字节，没有增加处理/编码的复杂性，所有值都是人类可读的。每行 10 个字节以下没有太多空间，但即使它减少到每行 7 个字节（INT IDENTITY + 参数 3 个字节，这应该是处理这些范围所需的最低要求），我是不确定增加的复杂性是否值得（即规模不经济）。

CREATE TABLE dbo.Experiment
(
  ExperimentID INT NOT NULL IDENTITY(1, 1),
  Parameter1  TINYINT NOT NULL,
  Parameter2  TINYINT NOT NULL,
  Parameter3  TINYINT NOT NULL,
  Parameter4  TINYINT NOT NULL,
  Parameter5  TINYINT NOT NULL,
  Parameter6  TINYINT NOT NULL,
  CONSTRAINT [PK_Experiment] PRIMARY KEY (ExperimentID) WITH (FILLFACTOR = 100) ON [Tables]
)
ON [Tables];

您可以使用以下内容填充它（假设两个参数为 0 - 4，两个参数为 0 - 7，两个参数为 0 - 9；基于对问题的评论）：

;WITH Five(num) AS
(
  SELECT 0 UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4
), Eight(num) AS
(
  SELECT 0 UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4
  UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7
), Ten(num) AS
(
  SELECT 0 UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4
  UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8
  UNION ALL SELECT 9
)
--INSERT INTO dbo.Experiment
--     (Parameter1, Parameter2, Parameter3, Parameter4, Parameter5, Parameter6)
SELECT f1.[num] AS [Parameter1],
       f2.[num] AS [Parameter2],
       e1.[num] AS [Parameter3],
       e2.[num] AS [Parameter4],
       t1.[num] AS [Parameter5],
       t2.[num] AS [Parameter6]
FROM   Five f1
CROSS JOIN Five f2
CROSS JOIN Eight e1
CROSS JOIN Eight e2
CROSS JOIN Ten t1
CROSS JOIN Ten t2;

上面的查询仅生成 160k 排列，而不是 100 万，再次基于对问题的评论。但是应该很容易弄清楚如何针对六个参数的任意组合的不同值范围调整它。

** FILLFACTOR：行存储在大约 8060 字节的数据页上。较小的行 = 适合该固定大小容器的更多行。FILLFACTOR是为新行保留多少空间（在创建/重建索引时）或由于可变长度字段需要更多字节用于新版本的行而占用更多空间的更新。值 100 表示没有保留空间，当前行应占用 8060 的 100%。在这种情况下，只有固定长度的字段，没有乱序插入。

Hannah Vernon · Answer 2 · 2015-10-02T18:21:36+08:00

我喜欢将测试参数存储在单个INT列中的想法。考虑到这一点，我创建了以下测试平台，这可能有助于解释如何使用测试参数创建表，以及稍后如何提取这些值。

首先，我们创建 3 个表，用于构建 0-4、0-7 和 0-9 集合。

CREATE TABLE dbo.numbers4 
(
    num INT NOT NULL
);
CREATE TABLE dbo.numbers7 
(
    num INT NOT NULL
);
CREATE TABLE dbo.numbers9 
(
    num INT NOT NULL
);

在这里，我们填充表格：

INSERT INTO dbo.numbers4 (num)
SELECT TOP(5) (ROW_NUMBER() OVER (ORDER BY o.name)) - 1
FROM syscolumns o;

INSERT INTO dbo.numbers7 (num)
SELECT TOP(8) (ROW_NUMBER() OVER (ORDER BY o.name)) - 1
FROM syscolumns o;

INSERT INTO dbo.numbers9 (num)
SELECT TOP(10) (ROW_NUMBER() OVER (ORDER BY o.name)) - 1
FROM syscolumns o;

INT这是我们将用于存储组合 6 组数字的移位值的表：

CREATE TABLE dbo.t
(
    TestID INT NOT NULL
        CONSTRAINT PK_t
        PRIMARY KEY CLUSTERED
        IDENTITY(1,1)
    , TestParms INT NOT NULL
);

在这里，我们从上面的 3 个临时表中填充该表：

DECLARE @p1 INT;
DECLARE @p2 INT;
DECLARE @p3 INT;
DECLARE @p4 INT;
DECLARE @p5 INT;
DECLARE @p6 INT;

SET @p1 = 0x1;
SET @p2 = 0x10;
SET @p3 = 0x100;
SET @p4 = 0x1000;
SET @p5 = 0x10000;
SET @p6 = 0x100000;

TRUNCATE TABLE dbo.t;

INSERT INTO dbo.t (TestParms)
SELECT (n1.num
    + n2.num * @p2
    + n3.num * @p3
    + n4.num * @p4
    + n5.num * @p5
    + n6.num * @p6)
FROM dbo.numbers4 n1 
    , dbo.numbers4 n2
    , dbo.numbers7 n3
    , dbo.numbers7 n4
    , dbo.numbers9 n5
    , dbo.numbers9 n6;

下一部分展示了如何从单列中将数字提取到 6 个不同的集合中INT：

DECLARE @p1 INT;
DECLARE @p2 INT;
DECLARE @p3 INT;
DECLARE @p4 INT;
DECLARE @p5 INT;
DECLARE @p6 INT;

SET @p1 = 0xF;
SET @p2 = 0xFF;
SET @p3 = 0xFFF;
SET @p4 = 0xFFFF;
SET @p5 = 0xFFFFF;
SET @p6 = 0xFFFFFF;

DECLARE @p1_shift INT;
DECLARE @p2_shift INT;
DECLARE @p3_shift INT;
DECLARE @p4_shift INT;
DECLARE @p5_shift INT;
DECLARE @p6_shift INT;

SET @p1_shift = 0x1;
SET @p2_shift = 0x10;
SET @p3_shift = 0x100;
SET @p4_shift = 0x1000;
SET @p5_shift = 0x10000;
SET @p6_shift = 0x100000;

SELECT t.TestID
    , Param1 = (t.TestParms & @p1)
    , Param2 = (t.TestParms & @p2) / @p2_shift
    , Param3 = (t.TestParms & @p3) / @p3_shift
    , Param4 = (t.TestParms & @p4) / @p4_shift
    , Param5 = (t.TestParms & @p5) / @p5_shift
    , Param6 = (t.TestParms & @p6) / @p6_shift
FROM dbo.t t;

由于只有 160,000 行（您建议的排列数），此表仅需要 2.6MB 的存储空间（大约 330 个数据页），包括IDENTITY可能需要也可能不需要的列。

以上结果的示例select是：

您将如何存储一组模拟参数的排列，优化存储和解析效率？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

您将如何存储一组模拟参数的排列，优化存储和解析效率？

2 个回答

相关问题