Tim提出的问题 -unix

Tim

Asked: 2020-02-07 21:08:25 +0800 CST

在不扰乱顺序的情况下加入具有许多字段的 csv

我有 2 个 csv 文件。第一个文件很大（> 400 个字段和许多行> 1 mil），需要通过匹配的连接附加另一个字段。

我想加入一个领域 $170

我努力了

gawk 'BEGIN {OFS=FS=","} NR==FNR{b[$1]=$2; next} 
$170 in b {print $0,b[$170]}
' b a

我没有对此进行测试，但想知道随着文件大小增加的“最佳”方法。

@cuonglm 建议使用join，但这会重新排列列以将连接字段放在首位。
我不能join使用参数轻松地为命令编写长输出格式，-o因为这会很长：

join -1 170 -2 1 -o1.1 1.2 1.3 1.4......1.300.... file1 file2

有没有办法join更容易做到这一点？

或者我应该坚持使用gawk, 作为文件大小问题（例如，文件 a 和 b 中的最大行数为 5 百万行，都具有大约 500 列）？

Tim

Asked: 2018-10-14 01:25:02 +0800 CST

我正在尝试递归地总结目录中的文件扩展名。

find .| xargs -d "\n" -I@ echo "${@##.*}" | sort |uniq -c

但这给了我一系列空白行。不是我想要的。

我知道：

find . -type f | sed 's/.*\.//' | sort | uniq -c来自类似的问题，但很好奇为什么我的公式不起作用。