Linux grep文件1中的内容在文件2中[重复]

Question

Asked: 2024-02-24 23:25:18 +0800 CST2024-02-24 23:25:18 +0800 CST 2024-02-24 23:25:18 +0800 CST

使用 GNU 并行处理很长的行

772

我有一个非常大的 SQL 转储文件 (30GB)，需要在加载回数据库之前对其进行编辑（进行一些查找/替换）。

除了尺寸较大之外，该文件还包含很长的行。除了前 40 行和最后 12 行外，所有其他行的长度都约为 1MB。这些行都是 INSERTO INTO 命令，看起来都很相似：

cat bigdumpfile.sql | cut -c-100
INSERT INTO `table1` VALUES (951068,1407592,0.0267,0.0509,0.121),(285
INSERT INTO `table1` VALUES (238317,1407664,0.008,0.0063,0.1286),(241
INSERT INTO `table1` VALUES (938922,1407739,0.0053,0.0024,0.031),(226
INSERT INTO `table1` VALUES (44678,1407886,0.0028,0.0028,0.0333),(234
INSERT INTO `table1` VALUES (910412,1407961,0.001,0.0014,0),(911017,1
INSERT INTO `table1` VALUES (903890,1408050,0.0066,0.01,0.0287),(9095
INSERT INTO `table1` VALUES (257090,1408136,0.0023,0.0037,0.0196),(56
INSERT INTO `table1` VALUES (593367,1408237,0.0066,0.0117,0.0286),(95
INSERT INTO `table1` VALUES (870488,1408339,0.0131,0.009,0.0135),(870
INSERT INTO `table1` VALUES (282798,1408414,0.0015,0.014,0.014),(2830
...

并行以长行错误结束：

parallel -a bigdumpfile.sql -k sed -i.bak 's/table1/newtable/'
parallel: Error: Command line too long (1018952 >= 63543) at input 0: INSERT INTO `table1...

因为所有的行都是相似的，我只需要在行的开头进行查找/替换，所以我遵循了这个类似问题中的建议，并提出了一个很好的使用--recstart建议--recend。然而这些不起作用：

parallel -a bigdumpfile.sql -k --recstart 'INSERT' --recend 'VALUES' sed -i.bak 's/table/newtable/'
parallel: Error: Command line too long (1018952 >= 63543) at input 0: INSERT INTO `table1...

尝试了多种使用方法--block，但无法使其正常工作。我是一个 GNU 并行新手，做了一些错误的事情或者只是错过了一些明显的事情。任何帮助表示赞赏。谢谢！

这是使用GNU parallel 20240122.

1 个回答

Voted

Ole Tange · Answer 1 · 2024-02-27T15:06:18+08:00

您应该使用--pipe( 或--pipepart)。如果您的磁盘速度很快：

parallel -a bigdumpfile.sql --pipe-part --block 100M -k -q sed 's/table1/newtable/' | sql ...

如果它们很慢：

parallel -j1 -a bigdumpfile.sql --pipe-part --block 100M -k -q sed 's/table1/newtable/' | sql ...

进行调整-j以找到最适合您的磁盘的选项。

如果您确实想并行运行多个插入：

# Create the table
head -n 40 bigdumpfile.sql | sql ...
# do the INSERTs in parallel
do_ins() {
  grep 'INSERT INTO' |
    sed s/table1/newtable/ |
    sql ...
}
export -f do_ins
parallel -a bigdumpfile.sql --pipe-part --block -1 do_ins

但正如 Stéphane Chazelas 所建议的：这样做可能会更快：

sed s/table1/newtable/ bigdumpfile.sql | sql some-database

使用 GNU 并行处理很长的行

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用 GNU 并行处理很长的行

1 个回答

相关问题