如何将 jackc/pgx 与连接池、上下文、准备好的语句等一起使用

Question

Hasan Can Saral

Asked: 2024-10-18 18:53:05 +0800 CST2024-10-18 18:53:05 +0800 CST 2024-10-18 18:53:05 +0800 CST

如何让 Postgres 使用我的函数索引

772

我有下表：

CREATE TABLE items
(
    id NUMERIC(20, 0) NOT NULL DEFAULT NEXTVAL('items_sequence') PRIMARY KEY,
    item_price NUMERIC(19, 2) DEFAULT NULL NULL,
    status NUMERIC(2, 0) NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP NOT NULL
);

具有以下索引：

CREATE INDEX items_dash_idx ON items (status, DATE(created_at));

我想按状态和每天对我的商品进行分组，持续约 30 天。这意味着我想获取过去 30 天内每个状态每天的商品数量和总价格，包括数量/金额为 0 的情况。我有 5 个状态，其中一个 (50) 不相关且行数太多（例如，状态 50 有约 400k 行，而状态 10、20、30 和 40 有约 1k 行，持续过去 30 天）。

我有以下疑问：

SELECT COUNT(i.id)                    AS count,
       COALESCE(SUM(i.item_price), 0) AS amount,
       dates_table.status,
       dates_table.created_at
FROM (SELECT created_at::DATE AS created_at, 10 AS status
      FROM GENERATE_SERIES('2024-09-18'::DATE, '2024-10-18'::DATE, INTERVAL '1 DAY') AS created_at
      UNION
      SELECT created_at::DATE AS created_at, 20 AS status
      FROM GENERATE_SERIES('2024-09-18'::DATE, '2024-10-18'::DATE, INTERVAL '1 DAY') AS created_at
      UNION
      SELECT created_at::DATE AS created_at, 30 AS status
      FROM GENERATE_SERIES('2024-09-18'::DATE, '2024-10-18'::DATE, INTERVAL '1 DAY') AS created_at
      UNION
      SELECT created_at::DATE AS created_at, 40 AS status
      FROM GENERATE_SERIES('2024-09-18'::DATE, '2024-10-18'::DATE, INTERVAL '1 DAY') AS created_at
     ) AS dates_table
LEFT JOIN items i 
       ON i.status = dates_table.status
      AND DATE(i.created_at) = dates_table.created_at
GROUP BY dates_table.created_at, dates_table.status
ORDER BY dates_table.created_at, dates_table.status;

此查询似乎需要 10 多秒，输出如下EXPLAIN (ANALYZE, BUFFERS)：

QUERY PLAN
Sort  (cost=2242005.05..2242006.05 rows=400 width=48) (actual time=21950.589..21950.601 rows=72 loops=1)
  Sort Key: dates_table.created_at, dates_table.status
  Sort Method: quicksort  Memory: 29kB
  Buffers: shared hit=676950 read=747852 dirtied=755, temp read=28515 written=28531
  ->  HashAggregate  (cost=2241982.76..2241987.76 rows=400 width=48) (actual time=21950.436..21950.492 rows=72 loops=1)
        Group Key: dates_table.created_at, dates_table.status
        Batches: 1  Memory Usage: 61kB
        Buffers: shared hit=676947 read=747852 dirtied=755, temp read=28515 written=28531
        ->  Merge Left Join  (cost=2161026.21..2239512.33 rows=247043 width=20) (actual time=21834.112..21948.382 rows=11066 loops=1)
              Merge Cond: ((dates_table.created_at = (date(i.created_at))) AND (((dates_table.status)::numeric) = i.status))
              Buffers: shared hit=676947 read=747852 dirtied=755, temp read=28515 written=28531
              ->  Sort  (cost=449.35..459.35 rows=4000 width=8) (actual time=895.905..895.933 rows=72 loops=1)
                    Sort Key: dates_table.created_at, ((dates_table.status)::numeric)
                    Sort Method: quicksort  Memory: 28kB
                    Buffers: shared hit=4
                    ->  Subquery Scan on dates_table  (cost=130.03..210.03 rows=4000 width=8) (actual time=895.792..895.846 rows=72 loops=1)
                          ->  HashAggregate  (cost=130.03..170.03 rows=4000 width=8) (actual time=895.788..895.831 rows=72 loops=1)
                                Group Key: ((created_ai.created_at)::date), (10)
                                Batches: 1  Memory Usage: 217kB
                                ->  Append  (cost=0.01..110.03 rows=4000 width=8) (actual time=895.697..895.749 rows=72 loops=1)
                                      ->  Function Scan on generate_series created_at  (cost=0.01..12.51 rows=1000 width=8) (actual time=895.694..895.697 rows=18 loops=1)
                                      ->  Function Scan on generate_series created_at_1  (cost=0.01..12.51 rows=1000 width=8) (actual time=0.012..0.014 rows=18 loops=1)
                                      ->  Function Scan on generate_series created_at_2  (cost=0.01..12.51 rows=1000 width=8) (actual time=0.010..0.012 rows=18 loops=1)
                                      ->  Function Scan on generate_series created_at_3  (cost=0.01..12.51 rows=1000 width=8) (actual time=0.010..0.012 rows=18 loops=1)
              ->  Materialize  (cost=2160576.87..2185898.76 rows=5064379 width=25) (actual time=19123.895..20601.926 rows=5066445 loops=1)
                    Buffers: shared hit=676943 read=747852 dirtied=755, temp read=28515 written=28531
                    ->  Sort  (cost=2160576.87..2173237.82 rows=5064379 width=25) (actual time=19123.888..20125.620 rows=5066445 loops=1)
                          Sort Key: (date(i.created_at)), i.status
                          Sort Method: external merge  Disk: 228120kB
                          Buffers: shared hit=676943 read=747852 dirtied=755, temp read=28515 written=28531
                          ->  Seq Scan on items i  (cost=0.00..1475438.79 rows=5064379 width=25) (actual time=0.064..16526.846 rows=5066445 loops=1)
                                Buffers: shared hit=676943 read=747852 dirtied=755
Planning Time: 0.399 ms
JIT:
  Functions: 44
  Options: Inlining true, Optimization true, Expressions true, Deforming true
  Timing: Generation 2.096 ms, Inlining 293.474 ms, Optimization 383.558 ms, Emission 218.758 ms, Total 897.885 ms
Execution Time: 21989.150 ms

当我运行此查询时，我的缓存命中率从 99.9% 降至 50%。Oracle 中的相同索引（显然TRUNC(created_at)不是DATE(created_at)）和相同查询大约需要 500ms。

更新：

SELECT COUNT(i.id) AS count,
       SUM(i.item_price) AS amount,
       DATE(i.created_at) AS created_at,
       i.status AS status
FROM items i
WHERE i.status = 10 
AND DATE(i.created_at) >= '2024-10-01'
GROUP BY i.status, DATE(i.created_at)
ORDER BY i.status, DATE(i.created_at)

速度很快，输出如下EXPLAIN (ANALYZE, VERBOSE, BUFFERS, SETTINGS)：

QUERY PLAN
GroupAggregate  (cost=0.43..27.72 rows=9 width=49) (actual time=0.044..0.117 rows=9 loops=1)
  Output: count(id), sum(item_price), (date(created_at)), status
  Group Key: i.status, date(i.created_at)
  Buffers: shared hit=26
  ->  Index Scan using items_dash_idx  on tenant_xxx.items i  (cost=0.43..27.49 rows=9 width=21) (actual time=0.025..0.097 rows=24 loops=1)
        Output: date(created_at), status, id, item_price
        Index Cond: ((i.status = '10'::numeric) AND (date(i.created_at) >= '2024-10-01'::date))
        Buffers: shared hit=26
Settings: effective_cache_size = '16GB', search_path = 'tenant_xxx', work_mem = '32MB'
Planning:
  Buffers: shared hit=3
Planning Time: 0.255 ms
Execution Time: 0.140 ms

更新 #2：

如果我预先过滤项目，然后执行连接：

WITH items_table AS (SELECT COUNT(i.id)        AS count,
                            SUM(i.item_price)  AS amount,
                            DATE(i.created_at) AS created_at,
                            i.status           AS status
                     FROM items t
                     WHERE i.status IN (10, 20, 30, 40)
                       AND DATE(i.created_at) >= '2024-10-01'
                       AND DATE(i.created_at) < '2024-10-18'::DATE + INTERVAL '1 DAY'
                     GROUP BY i.status, DATE(i.created_at)
                     ORDER BY i.status, DATE(i.created_at))
SELECT dates_table.created_at          AS created_at,
       dates_table.status              AS status,
       COALESCE(items_table.count, 0)  AS count,
       COALESCE(items_table.amount, 0) AS amount
FROM (SELECT created_at::DATE               AS created_at
           , UNNEST(ARRAY [10, 20, 30, 40]) AS status
      FROM GENERATE_SERIES('2024-10-01'::DATE, '2024-10-18'::DATE, '1 DAY') AS created_at) AS dates_table
         LEFT JOIN items_table ON items_table.status = dates_table.status AND
                                  items_table.created_at = dates_table.created_at
ORDER BY dates_table.created_at, dates_table.status

它会在大约~100ms 后返回。

1 个回答

Voted

Zegarek · Answer 1 · 2024-10-18T20:24:54+08:00

VACUUM ANALYZE items。如果我设置一个与您描述的类似的数据集，我会得到一个索引扫描。
这个答案主要是为了引起编辑，您可以添加您的explain(analyze, verbose, buffers, settings)内容，说明它与此有何不同，并填写有关数据集的其他详细信息，使其与此数据集不同。

您可以稍微缩短、简化和加快查询速度：生成一次日历，然后让目标状态unnest()成为每天的状态。您还可以在加入日历之前进行聚合，然后根据@Dunes的建议coalesce()将不匹配设置为：_{db<>fiddle 上的演示}0

WITH calendar AS
   (SELECT created_at::date
         , unnest(array[10,20,30,40]) AS status
    FROM GENERATE_SERIES('2024-09-18'::date,'2024-10-18','1 DAY') AS created_at)
,pre_agg AS
   (SELECT COUNT(i.id)                    AS count,
           COALESCE(SUM(i.item_price), 0) AS amount,
           i.status,
           date(i.created_at) as created_at
    FROM items i 
    WHERE i.status=any(array[10,20,30,40])
      AND date(i.created_at) between '2024-09-18' and '2024-10-18'
    GROUP BY date(i.created_at), i.status )
SELECT created_at
     , status
     , coalesce(count,0) as count
     , coalesce(amount,0) as amount
FROM calendar 
LEFT JOIN pre_agg 
    USING(created_at,status)
ORDER BY created_at,status;

查询计划
排序（成本=6419.03..6429.03 行=4000 宽度=76）（实际时间=48.105..48.121 行=124 循环=1）
输出： ((created_at.created_at)::date), (((unnest('{10,20,30,40}'::integer[])))::numeric), (COALESCE(pre_agg.count, '0'::bigint)), (COALESCE(pre_agg.amount, '0'::numeric))
排序键： ((created_at.created_at)::date), (((unnest('{10,20,30,40}'::integer[])))::numeric)
排序方法：快速排序内存：34kB
-> 哈希左连接（成本=6068.21..6179.71 行=4000 宽度=76）（实际时间=47.844..48.054 行=124 循环=1）
输出： ((created_at.created_at)::date), (unnest('{10,20,30,40}'::integer[])), COALESCE(pre_agg.count, '0'::bigint), COALESCE(pre_agg.amount, '0'::numeric)
内部唯一： true
哈希条件： ((((created_at.created_at)::date) = pre_agg.created_at) AND (((unnest('{10,20,30,40}'::integer[])))::numeric = pre_agg.status))
-> ProjectSet（成本=0.01..40.01 行=4000 宽度=8）（实际时间=0.028..0.120 行=124 循环=1）
输出：（created_at.created_at)::date，unnest('{10,20,30,40}'::integer[])
-> 在 pg_catalog.generate_series created_at 上进行函数扫描（成本=0.01..10.01 行=1000 宽度=8）（实际时间=0.025..0.031 行=31 循环=1）
输出：created_at.created_at
函数调用：generate_series(('2024-09-18'::date::带时区的timestamp, '2024-10-18 00:00:00+00'::带时区的timestamp, '1 day'::interval)
-> 哈希（成本=5948.04..5948.04 行=8011 宽度=48）（实际时间=47.796..47.798 行=124 循环=1）
输出：pre_agg.count、pre_agg.amount、pre_agg.created_at、pre_agg.status
桶：8192 批次：1 内存使用量：72kB
-> pre_agg 上的子查询扫描（成本=5747.76..5948.04 行=8011 宽度=48）（实际时间=47.532..47.730 行=124 循环=1）
输出：pre_agg.count、pre_agg.amount、pre_agg.created_at、pre_agg.status
-> HashAggregate（成本=5747.76..5867.93 行=8011 宽度=48）（实际时间=47.530..47.703 行=124 循环=1）
输出：count(i.id)、COALESCE(sum(i.item_price)、'0'::numeric)、i.status、(date(i.created_at))
组密钥：date(i.created_at)、i.status
批次：1 内存使用量：465kB
-> 在 public.items i 上进行位图堆扫描（成本=521.68..5562.67 行=18509 宽度=28）（实际时间=5.149..36.145 行=18355 循环=1）
输出：i.status、date(i.created_at)、i.id、i.item_price
重新检查条件： ((i.status = ANY ('{10,20,30,40}'::numeric[])) AND (date(i.created_at) >= '2024-09-18'::date) AND (date(i.created_at) <= '2024-10-18'::date))
堆块：exact=1074
-> items_dash_idx 上的位图索引扫描（成本=0.00..517.05 行=18509 宽度=0）（实际时间=4.917..4.918 行=18355 循环=1）
索引条件： ((i.status = ANY ('{10,20,30,40}'::numeric[])) AND (date(i.created_at) >= '2024-09-18'::date) AND (date(i.created_at) <= '2024-10-18'::date))
规划时间：0.554 毫秒
执行时间：48.340 毫秒

如何让 Postgres 使用我的函数索引

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何让 Postgres 使用我的函数索引

1 个回答

相关问题