AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-101712

raphael's questions

Martin Hope
raphael
Asked: 2025-04-08 02:17:40 +0800 CST

在排序基于距离的连接时,确定性但随机的方式来打破平局

  • 5

我们正在尝试根据最近的地理距离将事件与线路进行匹配

--pseudo code
LATERAL JOIN (
    SELECT line_id, geom 
    FROM lines 
    ORDER by distance(lines.geom, events.geom) 
    LIMIT 1) nearest_line

有时,值得注意的是,会出现平局。我们希望确保如果使用相同的数据集再次运行我们的 ETL 管道,返回的结果会相同。一个想法是将其包含line_id在 中ORDER BY,但这可能会使我们的匹配结果偏向更低的line_id。如果我们的 ETL 必须在相同的数据集上重新运行,有没有办法随机打破平局,从而产生相同的输出?

我正在考虑类似的方法,但要根据和 的random()组合来设置种子。像在 ID 上使用 这样的方法可以吗?event_idline_idmod()

postgresql
  • 1 个回答
  • 29 Views
Martin Hope
raphael
Asked: 2019-03-13 12:03:24 +0800 CST

比较星期几和小时的日期时间索引优化

  • 1

我有一个传感器观测值表obs_ts timestamp, sensor_id text, sensor_val int,为了用数据填补空白,我们有按星期几和一天中的小时划分的模型:model_id int, hour_of_day int, model_val int。

为了填补缺失值,我们将通过交叉表连接这两个表,即:sensor_id text, day_of_week int, model_id int

如果我们的观察表很大,那么为加入isodow和建立索引的最佳方式是什么hour。索引时间戳是否也像索引函数一样EXTRACT(isodow FROM obs_ts),或者我应该使这些函数索引明确,例如CREATE INDEX ON observations (EXTRACT isodow FROM obs_tx)。对于按小时加入,将 转换hour_of_day为 a会更好timerange吗?

postgresql index-tuning
  • 1 个回答
  • 1102 Views
Martin Hope
raphael
Asked: 2017-08-09 11:22:25 +0800 CST

分区约束不用于涉及按时间戳分区的表的连接

  • 11

我有一个分区表结构,如:

CREATE TABLE measurements (
    sensor_id bigint,
    tx timestamp,
    measurement int
);

CREATE TABLE measurements_201201(
    CHECK (tx >= '2012-01-01 00:00:00'::timestamp without time zone 
       AND tx < ('2012-01-01 00:00:00'::timestamp without time zone + '1 mon'::interval))    
)INHERITS (measurements);
CREATE INDEX ON measurements_201201(sensor_id);
CREATE INDEX ON measurements_201201(tx);
CREATE INDEX ON measurements_201201(sensor_id, tx);
....

等等。每个表大约有 20M 行。

如果我在子句中查询传感器样本和时间戳样本WHERE,查询计划会显示选择的正确表和使用的索引,例如:

SELECT *
FROM measurements
INNER JOIN sensors TABLESAMPLE BERNOULLI (0.01) USING (sensor_id)
WHERE tx BETWEEN '2015-01-04 05:00' AND '2015-01-04 06:00' 
    OR tx BETWEEN '2015-02-04 05:00' AND '2015-02-04 06:00' 
    OR tx BETWEEN '2014-03-05 05:00' AND '2014-04-07 06:00' ;

但是,如果我使用 CTE,或者将时间戳值放入表中(未显示,即使在临时表上有索引)。

WITH sensor_sample AS(
    SELECT sensor_id, start_ts, end_ts
    FROM sensors TABLESAMPLE BERNOULLI (0.01)
    CROSS JOIN (VALUES (TIMESTAMP '2015-01-04 05:00', TIMESTAMP '2015-01-04 06:00'),
        (TIMESTAMP '2015-02-04 05:00', TIMESTAMP '2015-02-04 06:00'),
        (TIMESTAMP  '2014-03-05 05:00', '2014-04-07 06:00') ) tstamps(start_ts, end_ts)
)

类似下面的东西

SET constraint_exclusion = on;
SELECT * FROM measurements
INNER JOIN sensor_sample USING (sensor_id)
WHERE tx BETWEEN start_ts AND end_ts

对每个表执行索引扫描。这仍然相对较快,但是随着查询复杂性的增加,这可能会变成 seq 扫描,这对于从有限的分区表子集(50 个中的 4-5 个)中检索约 40K 行最终会非常慢。

我担心这样的事情是问题所在。

对于非平凡的表达式,您必须在查询中重复或多或少的逐字条件,以使 Postgres 查询规划器了解它可以依赖 CHECK 约束。即使看起来多余!

如何改进分区和查询结构以减少对所有数据运行 seq 扫描的可能性?

postgresql partitioning
  • 1 个回答
  • 1603 Views
Martin Hope
raphael
Asked: 2016-10-15 09:10:16 +0800 CST

如何在 Oracle Express 中恢复 10.91G 表?

  • 3

我收到了.dmp一个企业数据库的文件,但目前只能访问免费版本的 Oracle。我最终想将数据导入 PostgreSQL。但目前我想知道是否有办法在需要时以块的形式恢复最大的表(10.91G),所以我可以将其内容导出到 csvs 以导入 PostgreSQL。目前,如果我尝试有选择地恢复 10.91GB 表

impdp system/pw tables=TEST.BIG_TABLE directory=test_data dumpfile=test_data.dmp log=log.log;

我明白了

Connected to: Oracle Database 11g Express Edition Release 11.2.0.2.0 - 64bit Production
ORA-39002: invalid operation
ORA-31694: master table "SYSTEM"."SYS_IMPORT_TABLE_01" failed to load/unload
ORA-02354: error in exporting/importing data
ORA-39776: fatal Direct Path API error loading table "SYSTEM"."SYS_IMPORT_TABLE_
01"
ORA-12953: The request exceeds the maximum allowed database size of 11 GB

到目前为止,我能够创建的最大表空间是 of SIZE 10500M,命令: CREATE TABLESPACE test DATAFILE 'test.dbf' SIZE 10600M ONLINE;产生错误ORA-12953: The request exceeds the maximum allowed database size of 11 GB

结果select tablespace_name, sum(bytes) from dba_data_files group by tablespace_name是:

tablespace | sum(bytes)/1000000
-----------+-------------------
SYSAUX     | 692.06016
UNDOTBS1   | 398.45888
USERS      | 104.8576
SYSTEM     | 524.288
TEST       | 11010.048
oracle restore
  • 2 个回答
  • 1532 Views
Martin Hope
raphael
Asked: 2016-08-16 08:10:08 +0800 CST

我应该为云托管的 PostgreSQL 数据仓库获得多少 RAM?

  • 12

我正在考虑将当前的 PostgreSQL 数据仓库迁移到以 SSD 存储和 RAM 作为主要规模变量之一的云主机。我们目前处理的最庞大的数据将存在于每月分区表中。每个月大约有 70GB 的索引(40-ish w/o)。数据可能主要是定期批量加载,然后由 5 名研究人员组成的小团队访问。

我一直在尝试在此站点上搜索有关规范 RAM 的建议,而我发现的只是:

  • 适合整个数据库(>1TB,不切实际)
  • 越多越好

是否应该有足够的 RAM 至少将整个索引 (16GB) 加载到 RAM 中?我还需要提供其他详细信息吗?

postgresql memory
  • 1 个回答
  • 6531 Views
Martin Hope
raphael
Asked: 2016-08-04 09:11:09 +0800 CST

COMMIT 是否在 PostgreSQL 9.5 中的匿名 plgpsql 函数中工作?

  • 8

我正在将大量大文件导入到多个表中,这些表要使用匿名 plpgsql 代码块中的循环进行分区$do$。

$do$
BEGIN
    FOR yyyy in 2012..2016 THEN 
        EXECUTE $$COPY table$$||yyyy||$$ FROM 'E:\data\file$$||yyyy||$$.csv DELIMITER ',' CSV;$$;
    END LOOP;
END;
$do$ LANGUAGE plpgsql

整个过程大约需要 15 个小时,我希望如果在某些时候出现导入错误,所有导入都不会回滚。

IIRCCOMMIT在存储函数中不起作用,因为整个函数被视为单个事务。

从文档中$do$

代码块被视为没有参数的函数体,返回 void。它被解析并执行一次。

我假设这意味着整个$do$事务是一个事务,因此块内的提交将不起作用。我对么?

postgresql transaction
  • 2 个回答
  • 27072 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve