INNER JOIN 和 OUTER JOIN 有什么区别？

Question

Dr.YSG

Asked: 2014-03-05 07:24:13 +0800 CST2014-03-05 07:24:13 +0800 CST 2014-03-05 07:24:13 +0800 CST

25M x 25M 内连接 (postgresql) 性能

772

我有一次需要在 25M 行上进行 25M 行的内部连接。盒子是Alienware area 51，4核25GB内存和SATA驱动（非系统盘）。到目前为止，它已经花费了 22 小时。我做了 btree 索引 ID (bigint) 列，这两个表都在进行连接。有小费吗？你觉得我要等多久？

EXPLAIN SELECT
    public.products_by_location_mv.id,
    public.products_by_location_mv."data_object.unique_id",
    public.products_by_location_mv.location AS outline,
    public.products_by_location_mv.elevation_ft,
    public.products_by_location_mv."geo_product.geo_product_id" AS pid,
    public.products_by_location_mv.cntry_name,
    public.products_by_location_mv.product_name,
    public.products_by_location_mv.product_type,
    public.products_by_location_mv.product_producer,
    public.products_by_location_mv.product_size,
    public.products_by_location_mv.do_location,
    public.products_by_location_mv.product_location,
    public.obj4.uid AS oid,
    public.obj4.size_bytes,
    public.obj4.object_date,
    public.obj4.description,
    public.obj4.location AS path
INTO
    public.inventory0
FROM
    public.obj4
INNER JOIN
    public.products_by_location_mv
ON
    (
        public.obj4.id = public.products_by_location_mv.id) ;

"Hash Join  (cost=3825983.03..12908235.27 rows=24202368 width=1356)"
"  Hash Cond: (products_by_location_mv.id = obj4.id)"
"  ->  Seq Scan on products_by_location_mv  (cost=0.00..1457298.68 rows=24202368 width=721)"
"  ->  Hash  (cost=1414691.68..1414691.68 rows=25507868 width=643)"
"        ->  Seq Scan on obj4  (cost=0.00..1414691.68 rows=25507868 width=643)"

2 个回答

Voted

Alexandros · Answer 1 · 2014-03-06T13:22:52+08:00

Alexandros

2014-03-06T13:22:52+08:002014-03-06T13:22:52+08:00

虽然我很难理解这种查询的动机，但你不能指望任何效率，因为查询结果不适合主内存。如果您希望以某种方式存储结果，唯一的方法是通过 COPY 命令（http://www.postgresql.org/docs/9.2/static/sql-copy.html）。COPY 的优点是，一旦从查询中检索到一行，它就会直接进入辅助存储。这样，您实际上有机会在几个小时后完成查询。然后，如果需要，您可以再次使用 COPY 将这些结果加载到另一个数据库表中。

0

Dr.YSG · Answer 2 · 2014-03-07T06:50:39+08:00

Best Answer

Dr.YSG

2014-03-07T06:50:39+08:002014-03-07T06:50:39+08:00

就像我说的，它是一次性操作（我需要它对一些大数据进行一次性清理，而且它永远不像 ACID 时代的东西那样合规）。

也就是说，我确实尝试过使用更少的列，并且性能非常好。37 分钟。（快速 VACUUM 也可能有所帮助）。

见下文：

SELECT
    public.obj4.id,
    public.obj4.size_bytes,
    public.obj4.object_date,
    public.obj4.description,
    public.pid_table.pid
INTO 
    public.obj_data
FROM
    public.obj4
INNER JOIN
    public.pid_table
ON
    (
        public.obj4.id = public.pid_table.id);
 16:33:22  [SELECT - 0 row(s), 2278.507 secs]  Command processed. No rows were affected
... 1 statement(s) executed, 0 row(s) affected, exec/fetch time: 2278.507/0.000 sec  [0 successful, 1 warnings, 0 errors]

0

25M x 25M 内连接 (postgresql) 性能

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

25M x 25M 内连接 (postgresql) 性能

2 个回答

相关问题