dakini提出的问题 -dba

Asked: 2024-02-24 02:59:00 +0800 CST

在 Postgres 查询计划中使用 Partial HashAggregate 子节点最终确定 GroupAggregate 父节点

我在一些查询计划中看到，父节点是 Finalize GroupAggregate，但其子节点是 Partial HashAggregates。这什么时候有意义？

例如，我有一个类似于以下内容的查询：

=# SELECT x, count(*) AS n FROM t GROUP BY x ;

没有涉及排序，那么为什么它选择顶部的 GroupAggregate 呢？为什么并行工作者使用 HashAggregate？

"Finalize GroupAggregate  (cost=44630.76..47219.48 rows=10218 width=24) (actual time=270.025..309.145 rows=27909 loops=1)"
"  Group Key: x"
"  ->  Gather Merge  (cost=44630.76..47015.12 rows=20436 width=24) (actual time=270.014..293.964 rows=61056 loops=1)"
"        Workers Planned: 2"
"        Workers Launched: 2"
"        ->  Sort  (cost=43630.73..43656.28 rows=10218 width=24) (actual time=264.612..270.608 rows=20352 loops=3)"
"              Sort Key: x"
"              Sort Method: external merge  Disk: 728kB"
"              Worker 0:  Sort Method: external merge  Disk: 720kB"
"              Worker 1:  Sort Method: external merge  Disk: 776kB"
"              ->  Partial HashAggregate  (cost=39474.60..42950.27 rows=10218 width=24) (actual time=198.285..223.757 rows=20352 loops=3)"
"                    Group Key: x"
"                    Batches: 5  Memory Usage: 1073kB  Disk Usage: 2312kB"
"                    Worker 0:  Batches: 5  Memory Usage: 1073kB  Disk Usage: 1760kB"
"                    Worker 1:  Batches: 5  Memory Usage: 1073kB  Disk Usage: 3400kB"
"                    ->  Parallel Seq Scan on t (cost=0.00..17344.46 rows=345446 width=16) (actual time=0.053..52.217 rows=276357 loops=3)"

我在这个问题中也看到了类似的东西。尽管在这种情况下，我不知道原始查询。

ahron

Asked: 2024-02-06 02:53:25 +0800 CST

更便宜的查询计划需要更长的时间来执行

我正在运行一个查询，例如

explain (analyze, buffers) select col1, col2, count(col3) as c from table1 group by 2, 1 order by 2, 1

当work_mem设置为 4 MB 时，计划如下所示：


"GroupAggregate  (cost=0.70..211944.54 rows=573788 width=26) (actual time=5.146..2601.133 rows=1867574 loops=1)"
"  Group Key: col2, col1"
"  Buffers: shared hit=1844356 read=9682"
"  ->  Incremental Sort  (cost=0.70..191999.45 rows=1894295 width=21) (actual time=5.131..1848.190 rows=1894295 loops=1)"
"        Sort Key: col2, col1"
"        Presorted Key: col2"
"        Full-sort Groups: 58831  Sort Method: quicksort  Average Memory: 27kB  Peak Memory: 27kB"
"        Buffers: shared hit=1844356 read=9682"
"        ->  Index Scan using table1_pkey on table1  (cost=0.43..121686.41 rows=1894295 width=21) (actual time=5.071..923.512 rows=1894295 loops=1)"
"              Buffers: shared hit=1844356 read=9682"
"Planning:"
"  Buffers: shared hit=2"
"Planning Time: 0.127 ms"
"JIT:"
"  Functions: 7"
"  Options: Inlining false, Optimization false, Expressions true, Deforming true"
"  Timing: Generation 0.614 ms, Inlining 0.000 ms, Optimization 0.346 ms, Emission 4.648 ms, Total 5.609 ms"
"Execution Time: 2725.164 ms"

当我将work_mem增加到1GB时，它突然变得非常不同

"Sort  (cost=107700.32..109134.79 rows=573788 width=26) (actual time=6461.310..6821.930 rows=1867574 loops=1)"
"  Sort Key: col2, col1"
"  Sort Method: quicksort  Memory: 195057kB"
"  Buffers: shared hit=13813 read=116"
"  ->  HashAggregate  (cost=47079.16..52817.04 rows=573788 width=26) (actual time=1194.218..1777.794 rows=1867574 loops=1)"
"        Group Key: col2, col1"
"        Batches: 1  Memory Usage: 303121kB"
"        Buffers: shared hit=13813 read=116"
"        ->  Seq Scan on table1  (cost=0.00..32871.95 rows=1894295 width=21) (actual time=0.016..214.794 rows=1894295 loops=1)"
"              Buffers: shared hit=13813 read=116"
"Planning:"
"  Buffers: shared read=2"
"Planning Time: 0.122 ms"
"JIT:"
"  Functions: 7"
"  Options: Inlining false, Optimization false, Expressions true, Deforming true"
"  Timing: Generation 0.477 ms, Inlining 0.000 ms, Optimization 0.216 ms, Emission 4.722 ms, Total 5.416 ms"
"Execution Time: 6967.294 ms"

令人困惑的观察结果——

它切换到顺序扫描而不是索引扫描，因为内存更多
它放弃了高效的增量排序（随后是 GroupAggregate），并进行了 HashAggregate 和快速排序
具有 1 GB 内存的新计划的成本较低，但运行时间要长得多。

这是怎么回事？

ahron

Asked: 2024-01-24 19:22:31 +0800 CST

无法在 CTE 中使用 INSERT

我正在尝试使用 CTE 将一些随机数据插入表中 -

create table foo (id integer)

with x as (select random())
  insert into foo (id)
  select x from x

这给出了一个错误： ERROR: column "id" is of type integer but expression is of type record

只是 CTE 的select作品：

with x as (select random())
--   insert into foo (id)
  select x from x

我也无法打字：

with x as (select random())
  insert into foo (id)
  select x::integer from x

这给出了一个错误：ERROR: cannot cast type record to integer。

出了什么问题以及如何解决？

dakini

Asked: 2022-12-14 22:41:47 +0800 CST

为什么 Postgres 递归 CTE 需要列列表作为参数？

这是一个主观的问题。

如果我有一个递归 CTE，例如：

WITH RECURSIVE r(x, y) AS ( ...
    SELECT x, y -- select1
    FROM t WHERE .. 
    UNION
    SELECT t.x, t.y -- select2
    FROM r JOIN t
    ON ...
)
SELECT x, y
FROM r

在 CTE 定义中将列列表指定为参数究竟有什么意义？如果我不指定它，它无论如何都会采用SELECT.

如果我确实指定了它，那么每次我想要进行更改时，我都必须SELECT在 CTE 的 s 和参数列表中反映出来。

WITH RECURSIVE r(x, y) AS我从写作而不是仅仅写作中获得什么好处WITH RECURSIVE r AS？

dakini

Asked: 2022-11-30 21:27:11 +0800 CST

如何处理 MySQL 中递归 CTE 中的循环/无限循环

图中的循环导致 CTE 中的无限循环。

在 Postgres 中处理它们很简单。

从 8.0 开始，MySQL 也允许 CTE。我如何检测 MySQL CTE 中的循环和无限循环？

目标不是在 1000 次或任何迭代次数后中断查询，而是在代码中实际处理它（例如，通过在数组中收集已访问节点的列表并设置不等式条件以避免循环）。

或者是否有任何“内置”选项来处理这个问题，比如cycle COLNAME在 Postgres CTE 中？

我当前的代码看起来像这样

with recursive circle as (                                                               
select friend2, name2, 0 as depth from my_view1 where friend1 = 1
union
select m.friend2, m.name2, c.depth+1 from my_view1 m
inner join circle c on c.friend2 = m.friend1)
select * from circle where circle.depth < 2;

可以使用以下方法创建基础表：

create table people (person_id integer primary key, name varchar(20) not null);

insert into people (person_id, name) values (1, 'tom'), (2, 'dick'), (3, 'harry'), (4, 'susan'), (5, 'mary'), (6, 'jill');

create table friends (friend1 integer references people (person_id), friend2 integer references people (person_id), primary key (friend1, friend2));

insert into friends (friend1, friend2) values (1,2), (2, 3), (3, 4), (5, 6);

insert into friends (friend1, friend2) values (2,1), (3,2), (4,3), (6,5);

create view my_view1 as select f.friend1, p.name as name1, f.friend2, p1.name as name2 from friends f join people p on p.person_id = f.friend1 join people p1 on p1.person_id = f.friend2 ;

dakini

Asked: 2019-03-26 21:22:45 +0800 CST

无法在 plpgsql 循环中包装简单的 CTE

对于测试数据库，我想创建一堆测试用户（都具有“默认”值）。有一张桌子叫users，还有一张桌子叫user_properties。对于每个测试用户，我需要在这两个表中创建相应的条目。我已经有一个运行良好的 CTE 来执行此操作，但我无法将此 CTE 包装在一个循环中。

CREATE OR REPLACE FUNCTION ins() 
returns void as 
$BODY$
BEGIN
--RETURN record;

  FOR Loopid  IN 0..10 LOOP

with 
    user as (
    insert into user
    values(default) 
    returning id
    )
    ,user_property as (
    insert into user_property (property_of) 
    select id from user 
    returning id
    )
select id from user_property;

END LOOP;
END;
$BODY$
LANGUAGE 'plpgsql' VOLATILE;

它创建了函数，但在运行时它会抱怨

ERROR:  query has no destination for result data
HINT:  If you want to discard the results of a SELECT, use PERFORM instead.

但是似乎不可能select用一个替代来替换 CTE的最后一个perform——这是一个语法错误。那我该怎么做呢？

可以假定表结构非常简单，因为大多数列将采用默认值。表user只有一列id，并且user_properties有两列id和- 这是表中 col的property_of外键。两列都是自动生成的序列。iduserid

标题非常相似的几个问题（示例）的答案是循环/cte 并不是真正必要的，所以它们对我没有帮助。

dakini

Asked: 2018-06-03 07:14:15 +0800 CST

在参数化查询中传递数据类型间隔的值

上下文正在从休息服务器连接到 Postgres 数据库。

考虑一个假设的代表性示例：我希望能够获得一个名称列表，其中帐户创建日期比任意值早/新。

在下面的示例查询中，表结构很简单 -name是 type text，并且creation_date是 type timestamp。所以当我做类似的事情时

server_pg_module:query("select name from new_table where 
current_timestamp - creation_date < '6 days'")

它工作得很好。但我真正想做的是6 days从服务器获取该值。所以我尝试类似

server_pg_module:query("select name from new_table where
current_timestamp - timestamp < $1", ["6 days"]

它抛出一个错误。我试过了'6 days'，"'6 days'"还有其他一些混合物，都抛出错误。所以要检查我添加了一个新interval的类型列interval并尝试了一个类似的查询

server_pg_module:query("insert into new_table (name, interval) values ($1, '3 day')", ["fooo"]).

哪个有效，但是

server_pg_module:query("insert into new_table (name, interval) values ($1, $2)", ["fooo", "3 days"]).

休息。为了更好地衡量，除了"'3 days'"上面提到的混合物之外，我还尝试$2::interval了（我不确定这是否合法），但它不起作用。

因此，我相信它可能与在参数查询中表达间隔有关，或者与我正在使用的模块有关。任何关于导致麻烦的原因以及如何做这类事情的想法都将不胜感激。或者可以缩小范围，问题不在于 pg 而在于模块，然后我必须在其他地方解决它。

Postgres 版本：10.x

我正在使用的模块是 pgo（用于 Erlang 编程语言）https://github.com/SpaceTime-IoT/pgo。我得到的错误消息（当我传递"2 days"或"'2 days'"作为查询参数时）看起来像：

{error,{pgsql_error,#{code => <<"08P01">>,file => <<"pqformat.c">>,
                          line => <<"575">>,
                          message => <<"insufficient data left in message">>,
                          routine => <<"pq_copymsgbytes">>,severity => <<"ERROR">>,
                          {unknown,86} => <<"ERROR">>}}}

当我'2 days'作为参数传递时，它会引发badarg错误。

dakini

Asked: 2018-04-07 08:53:11 +0800 CST

带有嵌套 CTE 的条件插入？

我试图弄清楚是否有一种方法可以使嵌套 CTE 适用于这种特殊情况。

考虑以下基于实际应用程序的（高度人为的）场景：有一个员工 ID 的单列表。然后是一个包含所有详细信息的员工属性表。（单个 col 表背后的主要原因通常是理所当然地需要在知道实际员工的任何详细信息之前批量创建和分配新员工 ID。）

现在到手头的任务，我们正在插入新员工的详细信息（即姓名），但首先我们需要检查是否已经存在具有该姓名的员工。如果是，我们将简单地返回 id，如果不是，我们将创建一个新的员工记录，然后插入详细信息，最后返回新创建的 id。

要重新创建此测试场景：

CREATE TABLE public.employee (
    id text DEFAULT gen_random_uuid(),
    PRIMARY KEY (id)
);

CREATE TABLE public.employee_details (
    employee_id text,
    name text,
    PRIMARY KEY (employee_id),
    FOREIGN KEY (employee_id) REFERENCES public.employee(id)
);

我试图敲定的查询如下所示。

with 
e as 
    (select name, employee_id from employee_details where name = 'jack bauer'), 

i as (insert into employee_details (name, employee_id) 
    select 'jack bauer', 
        (with a as (insert into employee values(default) RETURNING id) select a.id from a)
    where not exists (select 1 from e) returning name, employee_id) 

select employee_id, name from e
union all 
select employee_id, name from i;

如果我用已经创建的 id 替换嵌套的 CTE（单独执行嵌套的 CTE），它可以工作（但可能导致创建多余的 id）。with e as (..), i as (..), a as (..) select .. where not exists...也可以简单地将嵌套的CTE移动到顶层（所以整个事情看起来像做到这一点“内联” - 所以只有在not exists子句返回 true时才会创建新的 id 。

我不断收到错误：

包含数据修改语句的 WITH 子句必须位于顶层。

我想问题在于嵌套的 CTE 返回一个“列”，而如果它获得一个“值”，则整个查询将起作用（当一个简单地复制文本值而不是 CTE 时，它会起作用）。我确实在这个问题上遇到了一些相关的讨论，提到了一个自 9.3 以来已修复的明显错误。我不知道这是否与我在这里的麻烦有关。引用链接的讨论：

解析分析代码似乎认为 WITH 只能附加到集合操作树内的顶层或叶级 SELECT；但语法遵循 SQL 标准，没有这样的说法

我正在使用 Postgres 10.3。

dakini

Asked: 2018-03-12 04:40:49 +0800 CST

在一组 with 之后的多个插入查询

我正在尝试一种可重现的方式来使用一些测试数据填充数据库。

假设（一个过于简化的示例）三个基本表：name、city、job 和两个关系表：name-city 和 name-job。我需要在三个基表中的每一个中创建一个条目，并使用上述条目在两个关系表中创建条目。

我已经拥有的是一种使用一系列with查询在 3 个基表中创建条目并将值插入到 ONE 关系表中的方法。

with x as 
(INSERT INTO "public"."name" VALUES(DEFAULT) RETURNING "id"),
y as 
(INSERT INTO "public"."job" VALUES(DEFAULT) RETURNING "id"),
z as 
(INSERT INTO "public"."city" VALUES(DEFAULT) RETURNING "id")

INSERT INTO "public"."name-job"("name", "job")  
select x.id, y.id from x,y;

我真的很想添加第二个插入语句

INSERT INTO "public"."name-city"("name", "city")  
select x.id, z.id from x,z;

在第一次插入后，但不知道如何。我尝试用逗号分隔两个插入语句，并将它们括在括号中，然后用逗号分隔它们，以及其他一些方法，但没有任何效果。

在第二个插入中使用全新的语句并不完全是一种选择，因为我需要使用相同的 x、y、z 值。鉴于我缺乏专业知识/经验，我完全有可能遗漏了一些明显的东西......所以任何关于我如何做到这一点的想法，理想情况下，没有高度复杂的工具，将是最受欢迎的。

FWIW，我正在使用 Postgres (10.x)

dakini

Asked: 2015-09-23 12:03:59 +0800 CST

带索引的 JSONB 与 hstore

我正在尝试决定数据库设计，在这个阶段尽可能少的假设（关于 Web 应用程序的实际发展方式）。

作为第一步，了解 JOINS 的成本很高，我正在考虑使用少量的整体表，而不是大量规范化的小表。作为第二点，我在使用 hstore、常规表和 JSONB（使用 GiST 索引）之间感到困惑。

AFAIK（请随时纠正）：

通常，在 Postgres 中，已知 hstore 的性能优于其他数据类型。FOSDEM PGDAY 的这个演示文稿有一些有趣的统计数据（在幻灯片的后半部分）。 https://wiki.postgresql.org/images/b/b4/Pg-as-nosql-pgday-fosdem-2013.pdf
hstore 的一个优势是快速索引（GiN 或 GiST）。但是，使用 JSONB，GiN 和 GiST 索引也可以应用于 JSON 数据。
来自 2nd Quadrant 的专业人士的这篇博客说：“在这一点上，在所有新应用程序中用 jsonb 替换 hstore 可能是值得的”（滚动到最后）： http ://blog.2ndquadrant.com/postgresql-anti-patterns-unnecessary -jsonhstore-动态列/

所以我想决定以下几点：

对于数据的主要（结构化）部分：它应该放在几个关系表中（相对较大，有很多列），还是应该是使用 hstore 的多个键值存储？
对于临时（用户贡献/非结构化）数据，它应该是 JSON 还是 hstore 中的临时键值存储（键存储在主要关系表之一中）？

dakini

Asked: 2015-08-17 01:27:13 +0800 CST

文件系统存储（用于 blob、图像等）如何与（传统）数据库存储（例如 MySQL/Postgres）集成？

如果我将数据库用于关系数据并选择在文件系统中存储大型二进制 blob，我如何将两者集成？这个过程是如何进行的？

我知道数据库需要存储一个目录路径/链接到相应的 blob，但是有人可以告诉我具体细节吗？例如，我认为我应该有一些 shell 脚本来首先对安全 /tmp 位置中的二进制文件执行病毒检查，然后将其移动到实际存储位置并更新数据库中的路径。但是要从操作系统执行此操作将需要一个脚本来定期检查目录中是否有更改，然后触发操作。是否可以从数据库中运行 shell 脚本（我知道反过来也是可能的）？

或者在 MySQL/Postgres 中是否有更好的工具来做这种事情（与文件系统存储集成）？

在 Postgres 查询计划中使用 Partial HashAggregate 子节点最终确定 GroupAggregate 父节点

更便宜的查询计划需要更长的时间来执行

无法在 CTE 中使用 INSERT

为什么 Postgres 递归 CTE 需要列列表作为参数？

如何处理 MySQL 中递归 CTE 中的循环/无限循环

无法在 plpgsql 循环中包装简单的 CTE

在参数化查询中传递数据类型间隔的值

带有嵌套 CTE 的条件插入？

在一组 with 之后的多个插入查询

带索引的 JSONB 与 hstore

文件系统存储（用于 blob、图像等）如何与（传统）数据库存储（例如 MySQL/Postgres）集成？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

dakini's questions