trench提出的问题 -dba

trench

Asked: 2016-12-13 06:05:20 +0800 CST

根据最大日期选择唯一行[重复]

1

我正在使用 PostgreSQL，我正在尝试创建数据视图：

forecast_datetime, file_date, thing_id, thing_name, facts...

forecast_datetime 列是每 30 分钟间隔的日期时间。问题是预测是未来 1 个月，这会导致大量重复数据。（所以今天，将会有 2016-12-25 01:30:00 的预测，然后明天会有相同间隔的预测，可能会一遍又一遍地进行，直到该时期实际发生。）。

我要创建的视图只是查看附加到表中的最后一个预测。这由 file_date 列指示（顾名思义，我收到一个附加到数据库的每日预测文件。此列指示文件名中的日期）。

我基本上想过滤每个thing_id 的所有行并选择forecast_datetime 列，其中file_date 是该预测的最大日期。所以每个 thing_id 应该只有一行，每个唯一的 forecast_datetime 间隔基于最新的 file_date。

CREATE OR REPLACE VIEW schema.view AS 
SELECT DISTINCT ON (thing_id, forecast_datetime, file_date)
       forecast_datetime,
       interval,
       time_zone,
       file_date,
       thing_id, 
       thing_name,
       other_cols...
FROM   schema.orig_table
ORDER  BY  file_date DESC

该查询会起作用吗？我可以在 pandas/python 中轻松做到这一点，但我对 SQL 比较陌生，想尝试一个视图而不是编写一个新的物理表。

这是应用我在上面写的查询后的一些示例数据。因为我在 SELECT DISTINCT 查询中包含了 file_date，所以仍然有一个重复行重复每个 forecast_datetime。当我将基于 thing_id 和 forecast_datetime 的数据加入到实际结果表中时，这会导致问题。

forecast_datetime   file_date   thing_id
2016-12-12 20:30    2016-12-11  99
2016-12-12 20:30    2016-12-10  99
2016-12-12 20:30    2016-12-09  99
2016-12-12 20:30    2016-12-08  99

我只想拥有最大 file_date 的行。在上面的示例中，这将是第一行 (2016-12-11)。其他行将从视图中删除。

trench

Asked: 2016-10-13 09:13:12 +0800 CST

BCP 每批将更多行导出到文件（查询输出）

7

我正在使用 Windows 10 并直接从命令提示符（管理员）运行它。有没有办法改变输出到文本文件的行数？

BCP "SELECT * FROM db.dbo.table WHERE row_date = '2016-10-11'" queryout "C:/Users/table.csv" -t, -c -S "servername" -T

1000 rows successfully bulk-copied to host-file. Total received: 1000
1000 rows successfully bulk-copied to host-file. Total received: 2000
1000 rows successfully bulk-copied to host-file. Total received: 3000
1000 rows successfully bulk-copied to host-file. Total received: 4000
1000 rows successfully bulk-copied to host-file. Total received: 5000
1000 rows successfully bulk-copied to host-file. Total received: 6000


12136 rows copied.
Network packet size (bytes): 4096

然后我尝试了 -b 5000 和 -b10000：

BCP "SELECT * FROM db.dbo.table WHERE row_date = '2016-10-11'" queryout "C:/Users/table.csv" -t, -c -b 5000 -S "servername" -T

但它仍然输出 1000 行。我尝试使用 -a 增加数据包大小，但这根本没有影响。

trench

Asked: 2016-10-12 06:15:17 +0800 CST

从 MS SQL Server 中提取大量数据的 BCP 代码

0

自 6 月以来，我一直在使用 Python 执行 SQL 查询并每天检索前一个日期的数据，并将其加载到本地的 Postgres 数据库中。每个日期大约有 200 万行和 75 列左右，因此它相当大，需要一段时间才能拉出。

有人可以给我一个生成 CSV（逗号）文件的示例 bcp 代码吗？我一次可以提取多少数据，或者我可以循环遍历 SELECT 语句中的每个日历日期？我希望这将是一种更快的方法来复制我感兴趣的表。

我的 Python 代码基本上归结为 SELECT * FROM table_name WHERE report_date = {}。报告日期通常是昨天。

如果其他人都偶然发现，这是我的最终工作结果。subprocess.run 执行包含 BCP 查询的字符串。在下面的代码中，有一些变量，例如 table_name、数据库名称和查询日期，因为我在不同日期循环访问不同的表和数据库。

path = 'C:/raw/'
filename = '{}_{}.csv'.format(database, select_database(database)[table_int])
query = '"SELECT * FROM {}.dbo.{} WHERE row_date = \'{}\'"'.format(database, select_database(database)[table_int], query_date)
command = 'BCP {} queryout \"{}\" -t, -c -S "server_name" -T'.format(query, os.path.join(path, filename))
table_name = 'raw_{}_{}'.format(select_database(database)[table_int], database)
logger.info(command)
subprocess.run(command)

根据最大日期选择唯一行[重复]

BCP 每批将更多行导出到文件（查询输出）

从 MS SQL Server 中提取大量数据的 BCP 代码

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

trench's questions