grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Scouse_Bob

Asked: 2022-09-12 21:13:24 +0800 CST2022-09-12 21:13:24 +0800 CST 2022-09-12 21:13:24 +0800 CST

扫描文本文件中的重复 ID 号并保留日期值最高的行，删除其他行

772

我正在使用包含 7 列的多行文本文件 (.csv)。

每行包含“应该”是一个唯一的 id 还有一些日期列，其中一个是“最后修改”日期。

我发现应该是“唯一”的 id 实际上有时会重复，这是我需要通过删除除一个之外的所有来解决的问题。

我在下面有一个使用 gawk 的示例，但是有没有办法使用 gawk、awk 或 grep 等来删除任何重复的行，但“最近”修改的行除外？所以，有一些关于什么去和去的逻辑。

例如，这个 csv 提取有两行。除了一个之外，每个字段都是相同的。身份证号码“相同”意味着它是我的目的的“重复”。

但这两条线并不完全相同。

csv 文件最后（第 7 个）字段中的日期使一个条目比另一个条目更旧。

ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

是否可以对文件进行 gawk、cat、grep、cut、awk 等操作，并且：

a) 识别具有重复 ID 的任何事物。b) 仅保留最后一个字段中具有“最新”日期的重复项。

理想情况下，我需要保留第一行，因为它具有正在输入数据库的 csv 的标题。

这就是为什么这几乎可以正常工作的原因：

gawk -i inplace '!a[$0]++' *.csv

它实际上似乎删除了保留一行的重复项，但是它没有逻辑来根据最终字段中最旧的日期值来决定要保留什么。

你能帮忙吗...

3 个回答

Voted

Ed Morton · Answer 1 · 2022-09-13T04:05:07+08:00

假设您只想测试每个文件中的重复项，而不是所有文件中的重复项，并且您不关心保留数据的输入顺序，他将使用任何版本的强制性 POSIX 工具执行您想要的操作，因此它会起作用在任何 Unix 机器上：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    {
        head -n 1 "$file" &&
        tail -n 2 "$file" |
            sort -t "$sep" -r -k 7,7 |
            awk -F "$sep" '$1 != prev { print; prev=$1 }'
    } > "$tmp" &&
    mv -- "$tmp" "$file"
done

例如：

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

$ ./tst.sh file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

请注意，只有sort上面必须一次处理所有输入，其他工具一次只处理 1 行，并且sort旨在通过使用请求分页等来处理大文件，因此即使您也不太可能遇到内存问题如果您的输入文件很大。

如果您确实想保留输入行顺序，那么您可以更改上述内容以应用DSU 成语来做到这一点：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    awk -v OFS="$sep" '{ print (NR>1), NR, $0 }' "$file" |
        sort -t "$sep" -k1,1 -k9,9r |
        awk -F "$sep" 'NR==1{print; next} $1 != prev{ print; prev=$1 }' |
        sort -t "$sep" -k1,1 -k2,2n |
        cut -d "$sep" -f3- \
    > "$tmp" &&
    mv -- "$tmp" "$file"
done

但是sort在选择行后确实需要一秒钟才能将输入恢复到原始顺序。

如果您真的想在保留输入顺序的同时使用对 GNU awk 的一次调用来完成这一切，那么它会是：

$ cat tst.awk
BEGIN { FS="," }
FNR == 1 {
    delete id2maxTs
    delete id2fnr
    delete fnr2input
    print
    next
}
{ id=$1; ts=$7 }
!(id in id2maxTs) || (ts > id2maxTs[id]) {
    if ( id in id2fnr ) {
        prevFnr = id2fnr[id]
        delete fnr2input[prevFnr]
    }
    id2maxTs[id]   = ts
    id2fnr[id]     = FNR
    fnr2input[FNR] = $0
}
ENDFILE {
    for ( i=1; i<=FNR; i++ ) {
        if ( i in fnr2input ) {
            print fnr2input[i]
        }
    }
}

$ gawk -i inplace -f tst.awk file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00

该 gawk 脚本将保留原始输入顺序，但必须将每个输入文件的所有内容读入内存。

αғsнιη · Answer 2 · 2022-09-13T01:04:58+08:00

αғsнιη

2022-09-13T01:04:58+08:002022-09-13T01:04:58+08:00

使用 GNU awk 的mktime()函数：

gawk -F, '
NR==1{ print; next }
{
    svn=dTime=$7
    gsub(/[-:]/, " ", dTime)
    dTime=mktime(dTime)
    sub(/,[^,]*$/, "")
}
dTime > gId[$0] {
    gId[$0]=dTime
    records[$0]=svn
}
END { for(rec in records) print rec, records[rec] }' infile

请参阅使用 gawk ( PROCINFO["sorted_in"]) 使用预定义的数组扫描顺序来设置输出时数组的默认 for 循环遍历。

0

FelixJN · Answer 3 · 2022-09-13T01:24:39+08:00

FelixJN

2022-09-13T01:24:39+08:002022-09-13T01:24:39+08:00

结合sort_awk

#get header line
head -1 infile
#work on data
tail +2 infile | sort -t, -r -k7 | awk -F, '!seen[$1]++'

=> 按第七个字段（日期字段）反向排序，即最新条目优先。然后仅打印具有第一个唯一 ID 的行。

注意事项：字符串中的额外逗号；如果相同的 ID 出现相同的日期，则按照反向排序定义的行取行；日期字符串完全不使用前导/填充零或混合格式

0

扫描文本文件中的重复 ID 号并保留日期值最高的行，删除其他行

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

扫描文本文件中的重复 ID 号并保留日期值最高的行，删除其他行

3 个回答

相关问题