最新问题 - Page 28

Asked: 2024-06-13 10:57:12 +0800 CST

为大量时间序列数据设计表格

我正在设计一个 Postgres 表来存储大量时间序列数据，并试图找出构造列的最佳方法。我看过这样的答案，但由于它已经有近 10 年的历史了，我想看看是否有任何我应该注意的新事物。

时间序列数据来自多个来源（src_id示例中就是如此）。每个来源每分钟会有一个数据点，每个数据点有许多不同的测量值。测量值表示特定分钟的温度、湿度等。不过，为了便于举例，我将它们抽象为“测量值 A”、“测量值 B”等。目前需要支持的测量类型有 20 种，将来还会添加更多。

数据量达到数十亿行。绝大多数写入操作将为当前分钟添加新行。典型的读取查询将针对特定源、时间窗口和测量类型。我还计划对我选择的任何表进行分区，也许将其划分为一个月的分区。

选项 1) 平桌

我可以实现一个简单的平面表。但有一个缺点，随着我随着时间的推移添加更多测量类型，我将不得不用新列更新表格。它也从 23 列开始，这似乎走错了路。

TABLE data_points (id, src_id, timestamp          , measurement_a, measurement_b, ...)
                  (1 , 1     , 2024-01-01 00:00:00, 100          , 6.8          , ...)
                  (2 , 2     , 2024-01-01 00:00:00, 55           , 0.1          , ...)

选项 2）键值对

这样可以将列数减少到一定数量，因此在添加新测量值时，我无需用新列更新表格。但是行数会多得多（开始时是 20 倍，因为我从 20 种测量类型开始）。

TABLE data_points (id, src_id, timestamp          , meas_type, meas_value)
                  (1 , 1     , 2024-01-01 00:00:00, A        , 100       )
                  (2 , 1     , 2024-01-01 00:00:00, B        , 6.8       )
                  ... 

                  (3 , 2     , 2024-01-01 00:00:00, A        , 55        )
                  (4 , 2     , 2024-01-01 00:00:00, B        , 0.1       )
                  ...

选项 3）两个表

我可以让一个表存储 src_id 和时间戳，另一个表存储测量数据。这类似于键值对，只是分成两个表，这样我就不必重复和src_id列timestamp了。

不过，这可能会使分区变得有点棘手。此外，所有读取都必须进行连接，而我更关心性能而不是整体数据库大小，所以也许这不值得付出开销？

TABLE data_point_times (id, src_id, timestamp          )
                       (1 , 1     , 2024-01-01 00:00:00)
                       (2 , 1     , 2024-01-01 00:00:00)
                  
TABLE data_point_values (id, data_point_time_id, meas_type, meas_value)
                        (1 , 1                 , A        , 100       )
                        (2 , 1                 , B        , 6.8       )
                        ...
                        
                        (3 , 2                 , A        , 55       )
                        (4 , 2                 , B        , 0.1       )
                        ...

选项 4）jsonb

我可以使用 jsonb 实现“两全其美”的效果；列数固定，行数较少。但这可能存在一些我不知道的缺点？

TABLE data_points (id, src_id, timestamp          , data                                 )
                  (1 , 1     , 2024-01-01 00:00:00, {"measurement_a": 100, "measurement_b": 6.8, ... })
                  (2 , 2     , 2024-01-01 00:00:00, {"measurement_a": 55 , "measurement_b": 0.1, ... })

任何帮助是极大的赞赏！

Chema

Asked: 2024-06-13 07:46:13 +0800 CST

使用函数作为 GRANT 的参数失败，出现语法错误

我无法GRANT将current_database()其作为参数。这些都失败并出现相同的错误：

GRANT ALL PRIVILEGES ON DATABASE current_database() to justintestin;
GRANT ALL PRIVILEGES ON DATABASE (current_database()) to justintestin;
GRANT ALL PRIVILEGES ON DATABASE (Select current_database()) to justintestin;
GRANT ALL PRIVILEGES ON DATABASE format('%I', current_database()) to justintestin;

SQL 错误 [42601]：错误：在“（”处或附近出现语法错误

目前，我使用EXECUTE：

Do 
$$ 
Begin
    Execute Format('GRANT ALL PRIVILEGES ON DATABASE %I TO %I', current_database(), 'justintestin');
End;
$$;

但挑剔的我知道一定有更简单的方法。在官方 postgres:16 Docker 镜像上运行：

x86_64-pc-linux-gnu 上的 PostgreSQL 16.2（Debian 16.2-1.pgdg120+2），由 gcc（Debian 12.2.0-14）12.2.0，64 位”*）编译。

variable

Asked: 2024-06-12 07:21:56 +0800 CST

授予执行存储过程（全部）是否隐式允许任何关键权限？

授予执行存储过程（全部）权限是否隐式允许任何关键权限？例如，通过运行相关存储过程来控制安全性等的权限？

授予执行所有存储过程的权限的方法是：

GRANT EXECUTE TO [user]

adnan kamili

Asked: 2024-06-12 01:41:59 +0800 CST

Aurora Postgres - 每个租户数据库架构问题

我们有一个多租户 SaaS 应用。我们一直为所有租户使用共享数据库，并将 TenantId 作为所有表中的外键。一切都运行良好，直到我们的业务需要每个租户架构的数据库（或模式）。

我们升级了后端 (ASP.NET Core 8) 来处理这种架构，并雄心勃勃地将所有租户迁移到集群上的单独数据库。集群上有大约 1000 个数据库，因此我们的迁移过程非常艰难。在数据量和负载相同的情况下，即使是 32 GB 4 CPUr7g.xl实例似乎也配置过度，现在，即使是 16 CPU 128 GB r7g.4xlAWS 实例有时也似乎配置不足。

在 1000 个数据库中，超过一半的数据甚至不会超过 100 MB。很少有数据库的数据量能达到几 GB。

由于我们一直在使用 AWS DMS（无服务器），因此复制也有一段时间处于非活动状态。因此一段时间后，出现了警告：

WARNING: oldest xmin is far in the past

当我们检查所有可能的原因时，结果发现复制槽正在持有 xmin。以下是以下查询返回的内容：

SELECT c.relnamespace::regnamespace as schema_name, c.relname as table_name,
greatest(age(c.relfrozenxid),age(t.relfrozenxid)) as age,
2^31-1000000-greatest(age(c.relfrozenxid),age(t.relfrozenxid)) as remaining
FROM pg_class c LEFT JOIN pg_class t ON c.reltoastrelid = t.oid
WHERE c.relkind IN ('r', 'm') ORDER BY 4;

结果：

该值不断增加，我们尝试删除复制槽两次，每次都导致停机，集群无法恢复，我们不得不从备份中创建新集群。因此，当我们删除不活动的复制槽时，会发生以下情况：

插入/更新查询本来运行良好，但在删除复制槽后突然开始显示 LW 锁。

现在看起来是这样的（插槽未被删除）：

我们认为，每个集群拥有超过 300 个 DB 是一个错误。因此，我们将使用多个集群，每个集群拥有大约 300 个 DB。

但是我们现在应该做什么，为什么删除复制槽会触发这些锁？

Richard

Asked: 2024-06-10 21:42:44 +0800 CST

AWS Postgres 复制：向副本添加索引？

对于初学者的问题，深表歉意。

我有几个 AWS Postgres 数据库，在活动当天每秒将接收几千次写入。

我还需要对数据库进行读取查询。如果使用索引，这些查询显然会更好，但添加这些索引会大大降低写入速度。

我想在 AWS 上设置原始 Postgres 数据库的复制，以允许高性能读取而不影响高性能写入。

我知道我无法进行物理复制，因为我无法添加索引。但是，进行逻辑复制并在副本上添加索引是一种好方法吗？

或者有更好的方法来解决这个问题？

DMDM

Asked: 2024-06-10 18:07:29 +0800 CST

即使禁用了所有相关表的 auto_stats，SP 仍会以“统计信息已更改”原因重新编译

我正在排除性能故障，我需要一个 SP 来停止因为自动更新统计数据而重新编译。

我不想禁用整个数据库的自动统计信息更新，所以我认为可以使用sp_autostatsproc 禁用所有相关表的自动统计信息更新。但即使在我禁用所有相关表的自动统计信息更新后，它仍然会重新编译，原因是“统计信息已更改”。

我检查了上次更新统计数据的时间，并使用了 auto_stats 扩展事件来跟踪统计数据是否已更新，但事实并非如此。

瑞普罗

USE [test]
GO
CREATE TABLE [dbo].[test](
    [a] [int] IDENTITY(1,1) NOT NULL,   [b] [int] NULL, [c] [int] NULL,
PRIMARY KEY CLUSTERED 
(
    [a] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = ON, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
GO
CREATE NONCLUSTERED INDEX [idx] ON [dbo].[test]
(
    [c] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = ON, SORT_IN_TEMPDB = OFF, DROP_EXISTING = OFF, ONLINE = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
GO
CREATE proc [dbo].[sp1] @a int
as
select * from  test  where c=@a  order by b
GO
sp_autostats 'test','off'
go

--creating lots of changes.
--Session 1
set nocount on 
while 1=1
begin
delete top(1) from test
end

--Session 2
set nocount on 
while 1=1
insert into test select 1, FLOOR(RAND() * (10 - 1 + 1)) + 1;

--powershell 3.  Calling the SP in a loop
while ($true) {
    
        $sqlQuery = "EXEC test.dbo.sp1 @a=100;"
        Invoke-Sqlcmd -ServerInstance 'sql1\s14' -Database 'test' -Query $sqlQuery -Encrypt Optional
        Start-Sleep -Milliseconds 500
}

--Monitor sql_statement_recompile extended event.  Should see a recompile event in a couple minutes with "Statistics changed" as recompile_cause
CREATE EVENT SESSION [test] ON SERVER 
ADD EVENT sqlserver.sql_statement_recompile(SET collect_object_name=(1),collect_statement=(1)
    ACTION(sqlserver.server_principal_name,sqlserver.sql_text))
ADD TARGET package0.ring_buffer
WITH (MAX_MEMORY=4096 KB,EVENT_RETENTION_MODE=ALLOW_SINGLE_EVENT_LOSS,MAX_DISPATCH_LATENCY=30 SECONDS,MAX_EVENT_SIZE=0 KB,MEMORY_PARTITION_MODE=NONE,TRACK_CAUSALITY=OFF,STARTUP_STATE=OFF)
GO

我怀疑这可能与为排序创建的工作表上的统计信息有关？如果我们注释掉 SP 中的 order by 子句，问题就会消失。定期调用sp_recompile似乎还会重置触发重新编译的跟踪内容。

有什么解决方法吗？还有其他人遇到过这个问题吗？

mediocre

Asked: 2024-06-10 13:03:45 +0800 CST

Citus：并行工作者未启动

我们正在进行Citus基准测试，并遇到了一种情况，即规划器parallel execution plan在执行过程中没有parallel workers启动。集群有 3 个工作节点，每个节点在 Centos 上运行 2 个 CPU。这背后的原因是什么？

->  Finalize Aggregate  (cost=76650.31..76650.32 rows=1 width=32) (actual time=174741.832..174741.999 rows=1 loops=1)
                 ->  Gather  (cost=76650.09..76650.30 rows=2 width=32) (actual time=174741.807..174741.974 rows=1 loops=1)
                       Workers Planned: 2
                       Workers Launched: 0
                       ->  Partial Aggregate  (cost=75650.09..75650.10 rows=1 width=32) (actual time=174740.490..174740.492 rows=1 loops=

我们用于基准测试的查询是

select sum(amount) from tab_dist_1 where id>=49820 and id<=59743292;

Betty Liv

Asked: 2024-06-09 21:46:52 +0800 CST

在 C 盘以外的驱动器上安装 MongoDB

在安装 MongoDB Community 7.0 的过程中，安装程序会询问数据库的路径，我将它们指向专用的 50GB 空驱动器 E:，这是专门为 MongoDB 创建的。

下一步表明目标驱动器 C: 没有足够的空间。下面的驱动器列表显示了 C: 和 E:，但 E: 是不可选择的。

MongoDB 不能安装在 C: 以外的任何驱动器上吗？

Roman N

Asked: 2024-06-09 04:20:39 +0800 CST

如何将分区移动到其他 pg 服务器？

我有一张包含 1b 行的表，并且该表还在不断增长。目前，我使用 pg_partman 按月进行分区。有很多仅针对当前或前几个月的选择查询。是否可以将“旧”分区移动到另一台服务器？因此，理想情况下，我希望有一台服务器（功能强大且磁盘速度快）只包含最近的分区，另一台服务器（便宜）包含其他分区。我应该使用 postgres_fdw 扩展来链接分区吗？实现这种方案的良好做法是什么？

SomeBody

Asked: 2024-06-07 21:43:40 +0800 CST

当插入下一个条目时，插入后触发器的执行是否完成？

我有一个 SQL Server 数据库，其中有一个带有触发器的表，该触发器在插入后执行。如果我直接一个接一个地插入两个条目，那么只有在触发器执行完成后才插入第二个条目，这一点很重要。我可以依靠这个吗？或者我可能会在某个时候遇到有问题的竞争条件？

触发器的代码如下所示：

ALTER TRIGGER [dbo].[TR_MachineState_Desable_OldData_ON_Insert]
   ON [dbo].[machine_state]
   AFTER INSERT
AS 
BEGIN
      DECLARE @RowID INT;
      DECLARE @Name NVARCHAR(30);
      DECLARE @MachineState NVARCHAR(30);
      DECLARE @Devicescount INT;
      DECLARE @StartedOn DATETIME;
      DECLARE @CreateOn DATETIME;
      DECLARE @ToolName NVarchar(30);


    -- SET NOCOUNT ON added to prevent extra result sets from
    -- interfering with SELECT statements.
    SET NOCOUNT ON;

    -- Insert statements for trigger here
          SELECT
                   @RowID=[RowId]
                  ,@Name= [Name]
                  ,@MachineState=[MachineState]
                  ,@Devicescount=[Devicescount]
                  ,@StartedOn= [StartedOn]
                  ,@CreateOn =[ActionDate]
                  ,@ToolName=[ToolName]
        from inserted ;

    update [machine_state]
    set [IsActive]=0
    where  [Name] =@Name and  ToolName = @ToolName and  RowId <> @RowID

    update machine_state
    set IsActive =1
    where RowId=@RowID


END

正如您所看到的，触发器确保只有具有相同工具名称和相同名称的最后一个条目才为IsActivetrue。

为大量时间序列数据设计表格

选项 1) 平桌

选项 2）键值对

选项 3）两个表

选项 4）jsonb

使用函数作为 GRANT 的参数失败，出现语法错误

授予执行存储过程（全部）是否隐式允许任何关键权限？

Aurora Postgres - 每个租户数据库架构问题

AWS Postgres 复制：向副本添加索引？

即使禁用了所有相关表的 auto_stats，SP 仍会以“统计信息已更改”原因重新编译

Citus：并行工作者未启动

在 C 盘以外的驱动器上安装 MongoDB

如何将分区移动到其他 pg 服务器？

当插入下一个条目时，插入后触发器的执行是否完成？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

全部问题(dba)

选项 1) 平桌

选项 2）键值对

选项 3）两个表

选项 4）jsonb