关于【csv】的问题- 第1页

Charlie Clark

Asked: 2022-04-07 01:06:38 +0800 CST

Postgres 对批量加载转换功能的改进

0

我定期从 httparchive.org 导入数据。数据是一个 MySQL CSV 导出，我使用 pgloader，它处理这个导出的怪癖（\Nfor NULL）等。我还需要做一些额外的处理以进行规范化：

在协议 (http|https) 和主机部分中拆分 url
将字符串日期“Mon DD YYYY”转换为日期对象

目前，我在导入数据时有一些触发器可以执行此操作，但我正在寻找改进方法，特别是查看是否可以并行运行某些步骤。

我有以下用于提取协议和端口的 CTE：

with split as
(select regexp_match(url, '(https|http)://(.+)/' )as parts 
from urls )

在本地运行这似乎比tsdebug

这适用于选择，但作为更新似乎非常慢。

with split as
(select regexp_match(url, '(https|http)://(.+)/' )as parts 
from urls )
update urls
set 
protocol = parts[1],
host = parts[2] 
from split

另一种方法，尤其是在处理文本源时，会在 URL 进入 Postgres 之前对其进行拆分。

未压缩的 CSV 为 3526430884 字节，导入大约需要 20 分钟，无需处理。但这与加工相比是两倍多。FWIW 我也尝试过使用外部数据包装器。但是，即使在使用 CSV（空值、编码）解决了各种问题之后，这也会导致内存错误。

在一些帮助下，我设法运行了基准测试并改进了我的触发器。

CREATE OR REPLACE FUNCTION public.extract_protocol()
 RETURNS trigger
 LANGUAGE plpgsql
AS $function$
DECLARE elements text [];
BEGIN
elements := regexp_match(NEW.url, '(https|http)://(.+)/');
NEW.protocol = elements[1];
NEW.host = elements[2];
RETURN NEW;
END;
$function$

现在，这比进行后续更新运行得更快，但两者都不是限制因素。现在的瓶颈是在将清理后的数据插入主表时索引的开销。我认为我唯一的选择是权衡插入索引的成本，而不是禁用然后添加它们。

s.k

Asked: 2022-01-20 06:58:00 +0800 CST

将包含 (geo)JSON 元素的列导出到 CSV，同时正确保留 JSON 双引号

0

我想使用复制表的 5 列进行导出，其中 3 列包含 ID、文本和时间戳值，但其中 2 列包含 JSON 和 GeoJSON 元素，例如：

 // Please, note the non-quoted string Value1
 // when there is no space in the value itself:
{"key": "value with space", "other_key": Value1, ...}

但是当使用这个命令时：

psql \
  -d <connection_uri> \
  --command "\copy public.mytable (id, json_array, geojson_field, status, timestamp) TO './file.csv' DELIMITER ';' CSV HEADER ENCODING 'UTF8' QUOTE '\"' ;"

结果看起来很奇怪：

11784,"{'"First value'",'"Second value'", ThirdValue, '"Fourth val'",...

即它以奇怪的顺序放置引号：“single-double <field_value> single-double”

（我也没有得到标题......）

我希望我可以在 csv 文件中以一个真正的 JSON 对象结束，我可以复制/粘贴到验证器中，例如这里没有错误。

难道我做错了什么？
如果是，如何解决？

PG:13

Wilmar

Asked: 2020-10-22 08:30:59 +0800 CST

SQL Server BULK IMPORT 截断错误

1

我正在尝试将一个简单CSV文件导入 SQL Server 2017 上的表中。CSV 文件和表在列数和数据类型方面相互匹配。这是CSV文件的摘录：

UID,customerID,DateT,TypeID,AssociatedID,AttributeID,LandingPage,jsonT,ClientIPAddress
9150,2345,2020-09-01T00:00:36Z,1,,859,campaign01.html,{'product': 'string01', 'type': '', 'string011'},192.168.200.2
9151,2356,2020-09-01T00:02:30Z,1,,640,campaign02.html,{'product': 'string02', 'type': '', 'string022'},192.168.200.1

这是我的桌子：

CREATE TABLE [dbo].[activity](
    [UID] [bigint] NOT NULL,
    [customerID] [bigint] NOT NULL,
    [DateT] [datetime] NULL,
    [TypeID] [bigint] NULL,
    [AssociatedID] [float] NULL,
    [AttributeID] [bigint] NULL,
    [LandingPage] [varchar](256) NULL,
    [jsonT] [varchar](1024) NULL,
    [ClientIPAddress] [varchar](64) NULL,
)
GO

这是我的导入声明：

BULK INSERT dbo.activity
FROM 'C:\tmp\activity.csv'
WITH (
    FIRSTROW = 2,
    FIELDTERMINATOR = ',',
    ROWTERMINATOR = '0x0a',
    BATCHSIZE = 1000,
    MAXERRORS = 2
)
GO

我不断收到一条错误消息，说要截断最后一列（客户端 IP）。我检查了所有值，它们只有 IP。此外，错误并非在所有行上，我一生都看不到一种 IP 格式或另一种 IP 格式之间的任何区别，它们只是 IP！我尝试简单地使 ClientIPAddress 字段更大（只是为了它），但我只是不断收到相同的错误。

Msg 4863, Level 16, State 1, Line 1
Bulk load data conversion error (truncation) for row 2, column 9 (ClientIPAddress).
Msg 4863, Level 16, State 1, Line 1
Bulk load data conversion error (truncation) for row 5, column 9 (ClientIPAddress).
Msg 4863, Level 16, State 1, Line 1
Bulk load data conversion error (truncation) for row 6, column 9 (ClientIPAddress).
Msg 4865, Level 16, State 1, Line 1
Cannot bulk load because the maximum number of errors (2) was exceeded.
Msg 7399, Level 16, State 1, Line 1
The OLE DB provider "BULK" for linked server "(null)" reported an error. The provider did not give any information about the error.
Msg 7330, Level 16, State 2, Line 1
Cannot fetch a row from OLE DB provider "BULK" for linked server "(null)".

任何关于我可以检查什么或我做错了什么的想法都将受到高度赞赏。

谢谢！

ellie-lumen

Asked: 2020-08-29 02:17:24 +0800 CST

ORA-06502: 写入 csv 时出现“字符串缓冲区太小”

0

我有一些要导出的表。我正在使用这个包（我称之为“CSV”）：https ://www.williamrobertson.net/documents/refcursor-to-csv.shtml

在添加 CASE 语句之前，我能够写入 CSV 文件。我真的希望有办法解决它，因为我的 CASE 语句非常有用。

错误是：

ORA-06502: PL/SQL: numeric or value error: character string buffer too small

ORA-06512: at "SYS.DBMS_SQL", line 2084

ORA-06512: at "C##USER1.CSV", line 38

ORA-06512: at "C##USER1.CSV", line 162

ORA-06512: at line 1

ORA-06512: at "C##USER1.CSV", line 278

ORA-06512: at "C##USER1.CSV", line 278

ORA-06512: at "C##USER1.EXPORT_02_PRODUCED_PURIFIED", line 5

ORA-06512: at "C##USER1.EXPORT_ALL_LYS_FOR_TABLEAU", line 5

这是错误指向的地方：

ORA-06512: at "C##USER1.EXPORT_02_PRODUCED_PURIFIED", line 5 在这儿：


CREATE OR REPLACE VIEW vw_export_02_produced_purified AS SELECT 
    pk_purified_enz_id,
    fk_construct_id as "fk_for_construct",
    fk_expr_system as "expression_system",
    CASE pr.valid 
        WHEN 1 THEN 'Yes'
        WHEN 0 THEN 'No'
    END as "Is this growth ok?",
    g_batch,
    p_batch,
    pur.concentration as "Concentration (uM)",
    pur.abts5_pur_checkpoint as "purification checkpoint",
    pur.yield as "Yield (mg/L)",
        CASE 
            WHEN pk_purified_enz_id IS NULL THEN ' ' 
            WHEN pk_purified_enz_id  IS NOT NULL THEN 
            buffer_mol || ' mM, ' || 
            fk_final_buffer_system || ' ' || 
            'pH ' || final_ph || ', ' ||
            final_nacl || ' mM NaCl' ||
            CASE 
                WHEN final_add IS NULL THEN ' ' 
                WHEN final_add IS NOT NULL THEN ', ' || final_add
            END
        END AS "Purification Buffer",
    buffer_mol,
    fk_final_buffer_system as "buffer system",
    final_ph,
    final_nacl,
    final_add as "other buffer additives" 
    
FROM produced pr FULL OUTER JOIN purified_enz pur
on pr.pk_produced_id = pur.fk_produced_id;


CREATE OR REPLACE PROCEDURE EXPORT_02_PRODUCED_PURIFIED AS 
    l_dataset sys_refcursor;
begin
    open l_dataset for select * from vw_export_02_produced_purified;
    csv.write_file
    ( p_dataset => l_dataset
    , p_heading => 'Y'
    , p_directory => 'EXTRACT_DIR'
    , p_filename => '02_produced_purified.txt' );
END EXPORT_02_PRODUCED_PURIFIED;
/

这个ORA-06512: at "C##USER1.EXPORT_ALL_LYS_FOR_TABLEAU", line 5来自主程序，它结合了所有较小的程序。

CREATE OR REPLACE PROCEDURE EXPORT_ALL_LYS_FOR_TABLEAU AS
BEGIN
EXPORT_00_CPP;
EXPORT_01_CONSTRUCT;
EXPORT_02_PRODUCED_PURIFIED;
EXPORT_03_CHAR;
EXPORT_04_CELL_DATA;
END EXPORT_ALL_LYS_FOR_TABLEAU;
/

被引用的表的 DDL：

CREATE TABLE PRODUCED (
  pk_produced_id NUMBER GENERATED ALWAYS AS IDENTITY,
  fk_construct_id NUMBER NOT NULL,
  g_batch VARCHAR2 (50) NOT NULL, 
  full_g_batch VARCHAR2 (200) GENERATED ALWAYS AS (g_batch || '-' || fk_construct_id) VIRTUAL,
  valid NUMBER (1) DEFAULT 1,
  fk_expr_system VARCHAR2 (50),

  CONSTRAINT pk_produced_id PRIMARY KEY (pk_produced_id),
  CONSTRAINT fk_p_construct_id FOREIGN KEY (fk_construct_id) REFERENCES construct (pk_construct_id),
  CONSTRAINT fk_expr_system FOREIGN KEY (fk_expr_system) REFERENCES EXPR_SYSTEM(pk_expr_system),
  CONSTRAINT uq_produced UNIQUE (fk_construct_id, g_batch) 
);

CREATE TABLE PURIFIED_ENZ (
  pk_purified_enz_id NUMBER GENERATED ALWAYS AS IDENTITY,
  fk_produced_id NUMBER, 
  p_batch VARCHAR2 (50) NOT NULL,
  pur_profile BLOB,
  fk_final_buffer_system VARCHAR2 (50),
  buffer_mol NUMBER (6, 2),
  final_nacl NUMBER (4),
  final_ph NUMBER (4, 2),
  final_add VARCHAR2 (50),
  yield NUMBER (6, 2),
  concentration NUMBER (6, 2),
  abts5_pur_checkpoint NUMBER (5, 2),
  
  CONSTRAINT pk_purified_enz_id PRIMARY KEY (pk_purified_enz_id),
  CONSTRAINT fk_produced_id FOREIGN KEY (fk_produced_id) REFERENCES produced (pk_produced_id),
  CONSTRAINT fk_final_buffer_system FOREIGN KEY (fk_final_buffer_system) REFERENCES buffer_system (pk_final_buffer_system),
  CONSTRAINT uq_purified_enz UNIQUE (fk_produced_id, p_batch)
  );

axdna

Asked: 2020-03-25 06:57:07 +0800 CST

为什么 BULK INSERT 以随机顺序插入数据？

1

我有一个csv包含 350,000 行的文件。想以与csv文件中相同的顺序将数据插入临时表。我正在尝试BULK INSERT使用：

BULK INSERT ##AllRows
    FROM @FilePath
    WITH
    (
    FIELDTERMINATOR = '\n'
    )

不幸的是BULK INSERT，以随机顺序插入数据。我每次执行的标题都在不同的行中。我在 SQL Server 2016 上运行它。是否有可能在旧版本的 SQL Server 中顺序方式不同？

使用该FIRSTROW选项不会将标题识别为文件的第一行。文件没有我们可以订购的任何列。在文件中，标题总是在第一行。

这可能是巧合，但即使FIRSTROW=2我的标题有可能出现在表格中。我检查了它。看起来csv文件中包含的行越多，插入到表中的可能性就越大。

ceving

Asked: 2020-01-23 08:36:11 +0800 CST

Postgres 多久根据 file_fdw 解析外部表？

0

我有一个用 file_fdw 定义的外部表，它从 CSV 文件中读取数据。Postgresql 解析 CSV 文件并将日期例如从转换YYYYMMDD为YYYY-MM-DD. 这工作正常。

我的问题是解析 CSV 文件的频率如何？它会被解析select吗？还是被缓存了？如果是这样，它会被缓存多长时间？

J.R.

Asked: 2019-12-16 17:00:04 +0800 CST

Mysql 输出到 csv 将列名放在底部

0

我正在尝试将下面列出的查询结果导出到 csv 并在第一行中包含列名。但是，当我运行代码并打开 csv 时，标题被列为最后一行。我不知道为什么。我错过了什么？

SELECT 'id','state','First_Name', 'Last_Name', 'Phone','County'
UNION ALL
SELECT id, state, First_Name, Last_Name, Phone, County
FROM tx.students
GROUP BY First_Name, Last_Name, Phone,
HAVING COUNT(*)>1
ORDER BY id
INTO OUTFILE '/var/lib/mysql-files/_students_dupes_test3.csv'
FIELDS TERMINATED BY ','
ENCLOSED BY '"'
LINES TERMINATED BY '\n';

BFlat

Asked: 2019-11-21 02:52:50 +0800 CST

将大型 PostgreSQL 表复制到具有有限行数的多个 csv 文件

2

有没有办法使用 sql 函数或已经存在的 psql 函数将一个非常大的表复制到多个 csv 文件中并指定输出文件中允许的最大行数？

例如，一个 3500 万行的表将输出 35 个 100 万行的 csv 文件。

Revolucion for Monica

Asked: 2019-11-15 06:52:07 +0800 CST

如何为表创建脚本自动检测 csv 文件的列类型？

1

我是 pgAdmin 和 Azure 数据库的新手。我有一个包含大约 220 列的巨大 csv 文件，我想在 pgAdmin4 中创建一个表以将其推送到 Azure。

但是我不知道如何自动检测列的类型。

这是一个例子：

IDI GKID    S01Q01  S02Q01_Gender ...
100093  enq030059569748fc89091fdd91cc337cac44eca90  Yes, I agree    Female ...

我正在编写脚本来创建表格。但是，考虑到列的数量，我想自动化它以获取允许我将 csv 添加到 Microsoft Azure 的 pgAdmin4 中的数据库的脚本。

然后，在转置 csv 标头后，我得到：

    IDI
    GKID
    S01Q01
    S02Q01_Gender
    ...

我正在编写脚本来创建表格。但是，考虑到列的数量，在最好的情况下，我希望自动检测列的类型以便能够将其写入正确的部分，在最坏的情况下，放置 TEXT 类型的泛型类型。

到目前为止，我已经尝试过

output = ""
file_name = "columns.txt"
string_to_add = " TINYTEXT,"

with open(file_name, 'r') as f:
    file_lines = [''.join([x.strip(), string_to_add, '\n']) for x in f.readlines()]

with open(file_name, 'w') as f:
    f.writelines(file_lines)

它给了我：

IDI TINYTEXT,
GKID TINYTEXT,
S01Q01 TINYTEXT,
S02Q01_Gender TINYTEXT,
...

然后，我可以这样做：

CREATE TABLE my_table (
IDI TINYTEXT,
GKID TINYTEXT,
S01Q01 TINYTEXT,
S02Q01_Gender TINYTEXT,
...

但我不确定这是否足以使表格能够接收我的 csv 文件。

jaia

Asked: 2018-06-19 18:18:48 +0800 CST

我主要是数据库的新手，并且正在构建一系列课程中学生成绩的 postgres 数据库。我的数据库使用一种称为“类”的类型，它由课程、学期（年和季度）和节号（1,2,3,...）组成，例如（'Bio 101', (17, 'F'），1）。我正在尝试将包含此类数据的 CSV 复制到表中，并收到一条错误消息，提示ERROR: extra data after last expected column. 我试过 pgAdmin III 导入向导、COPY 和 \copy，结果都一样。但是，手动从文件中复制一行并导入它（使用适当的括号）可以正常工作。发生了什么事，我能做什么？

这是表格和一些数据：

CREATE TABLE public."GradedItems"
(
  class class NOT NULL,
  category text NOT NULL,
  "number" smallint NOT NULL DEFAULT 1,
  topic text[],
  points integer,
  weight double precision, -- Weight of item within category
  CONSTRAINT primary_key PRIMARY KEY (class, category, number)
)


'class','category','number','points'
('LS 30A', (18, 'W'), 2),'Homework',1,60
('LS 30A', (18, 'W'), 2),'Homework',2,36

Postgres 对批量加载转换功能的改进

将包含 (geo)JSON 元素的列导出到 CSV，同时正确保留 JSON 双引号

SQL Server BULK IMPORT 截断错误

ORA-06502: 写入 csv 时出现“字符串缓冲区太小”

为什么 BULK INSERT 以随机顺序插入数据？

Postgres 多久根据 file_fdw 解析外部表？

Mysql 输出到 csv 将列名放在底部

将大型 PostgreSQL 表复制到具有有限行数的多个 csv 文件

如何为表创建脚本自动检测 csv 文件的列类型？

postgresql - 使用自定义类型导入 CSV 数据

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

问题[csv](dba)