我有一个看起来像这样的文件:
文件1:
0/28
7200/11
14400/11
21584/28
21600/11
28800/28
36000/11
36000/28
43200/11
43200/28
50400/11
57600/11
79200/28
在左侧(在 / 之前)我有以秒为单位的时间,而在右侧我有一个相应秒的参数值。
现在我有另一个看起来像这样的文件:
文件2:
0 14
0 15
0 20
0 28
7200 11
7200 14
7200 15
现在,我想从第二个文件中删除 FILE1 中的公共值。例如,我应该从 FILE2 中删除:
0 28
7200 11
并保持其余行不变。
我正在考虑在 bash 脚本中为 FILE1 中的每一行使用 for 循环,然后在 FILE2 中搜索它,但我无法识别该模式。如果我尝试从 awk 使用 substr 它将不起作用,因为时间没有相同的数字(0 有 1 个数字,7200 有 4 个数字)。
要阅读 FILE1 我正在做这样的事情:
IFS=$'\n' read -d '' -r -a X < ./FILE1.csv
为了编写 for 循环,我正在做这样的事情:
for x in "${X[@]}"
do
gawk -i inplace -v var=${x} '{...}' FILE2.csv
done
我也在考虑将 FILE1 转换为这样的东西:
0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28
基本上有 2 列,但使用我上面使用的 for 和 var,如果我有超过 1 列,则将不起作用。我认为第二种方法更好,但我不知道如何让它单独处理每一列。
编辑:
如果 FILE1 是,我将如何做到这一点:
0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28
文件 2 是:
0 14 2 19
0 15 157 67
0 20 28 57
0 28 25 67
7200 11 88 14
7200 14 34 247
7200 15 364 14
使用
awk
:每个输入文件之前的
FS
(字段分隔符)定义该文件的字段分隔符。最后回答添加的问题:
与
join
此答案中的其他变体(提供原始问题的答案)一样,这确保连接键是一个没有空格的单个字符串,然后从第二个文件中选择要连接的行key 与第一个文件中的任何条目都不匹配。这对必须以相同方式排序的文件做出了相同的假设。就像
join
一次只在内存中保留两行一样,我们仍然有相同的好处,grep
以及需要将一个文件中的所有条目保留在内存中的任何其他解决方案。使用原始文件
file1
和file2
您的问题,将第一个文件tr
即时转换为与第二个文件相同的格式,并使用重新格式化的数据作为一组行从第二个文件中删除。该
grep
实用程序在这里用于过滤掉(删除、排除)file2
与来自file1
.该
-x
选项强制进行全行匹配(不是通常的子字符串匹配),并将模式用作固定字符串而不是正则表达式-F
。grep
该-f
选项告诉实用程序从命名文件中读取模式(进程替换),并-v
反转匹配的通常含义,以便输出不匹配的行。也与您问题中的一些文字相关:
一种更有效的方法是使用
join
.file1
如果你很大,这可能是个好主意。在大量输入上,这预计会比使用grep
.下面假设您的两个文件都以相同的方式排序,并将第二个文件转换为与第一个文件相同的格式(用斜杠替换空格)以生成没有空格的行。我们以这种方式进行转换,
join
默认情况下使用空格作为分隔符,我们需要考虑整行,而不仅仅是第一个空格分隔的字段。这将在两个数据集之间执行关系 JOIN 操作,并将第二个输入中不匹配的行返回到
join
(转换后的第二个文件)。由于我们希望将空格分隔的数据作为最终结果,因此我们将最后的斜杠替换为空格。这在任何时候都不会在内存中保存超过两行的数据,而
grep
变体需要将第一个文件的全部内容保留在内存中,并且还需要针对第二个文件的每一行测试该文件的每一行文件。我将通过使用 shell 循环来解决这个问题。
这是一个不需要捏造
SUBSEP
,遍历字段,对文件进行预排序或具有预设数量的列/字段的解决方案:FS="^$"
的设置要快得多,因为我们正在进行全行匹配,所以浪费时间。splitting fields
经过测试和证明可以处理
gawk 5.1.1
(包括标志-c/-P
)mawk 1.3.4
、、、mawk 1.9.9.6
和macos nawk
--
The 4Chan Teller