如何缩短 bash 中的变量名列表？

Question

emiral

Asked: 2024-06-24 03:43:13 +0800 CST2024-06-24 03:43:13 +0800 CST 2024-06-24 03:43:13 +0800 CST

根据特定字符串删除重复的行

772

我尝试根据特定字符串删除重复的行。我的问题中有两个类似的情况。

我有这种文件：

20151222051106 http://website.org/2015-12-11-art1
20151222054115 http://website.org/2015-12-11-art1
20151222054123 http://website.org/2015-12-11-art1
20151222050165 http://website.org/2015-12-12-art2
20151222051901 http://website.org/2015-12-12-art3
20151222051120 http://website.org/2015-12-14-art4
20151222051125 http://website.org:80/2015-12-14-art4
20151222051133 https://website.org/2015-12-14-art4

首先，我想删除具有相同 URL 的行（同时保留第一行）。结果如下：

20151222051106 http://website.org/2015-12-11-art1
20151222050165 http://website.org/2015-12-12-art2
20151222051901 http://website.org/2015-12-12-art3
20151222051120 http://website.org/2015-12-14-art4
20151222051125 http://website.org:80/2015-12-14-art4
20151222051133 https://website.org/2015-12-14-art4

其次，想要根据 url 字符串的特定部分删除重复的行（保留第一行）。

根据第一个问题的结果。当几个 URL 除了“http”或“https”部分外都相同时。我只想保留第一行。

20151222051106 http://website.org/2015-12-11-art1
20151222050165 http://website.org/2015-12-12-art2
20151222051901 http://website.org/2015-12-12-art3
20151222051120 http://website.org/2015-12-14-art4
20151222051125 http://website.org:80/2015-12-14-art4

我在同一篇文章中询问这两个问题，因为它们基本上是同一个问题（并且我认为这两个问题都可以使用 sed 来完成）。

1 个回答

Voted

glenn jackman · Answer 1 · 2024-06-24T06:56:24+08:00

Best Answer

glenn jackman

2024-06-24T06:56:24+08:002024-06-24T06:56:24+08:00

sed？没有。awk？有。

第一个问题可以这样回答

awk '!seen[$2]++' file

20151222051106 http://website.org/2015-12-11-art1
20151222050165 http://website.org/2015-12-12-art2
20151222051901 http://website.org/2015-12-12-art3
20151222051120 http://website.org/2015-12-14-art4
20151222051125 http://website.org:80/2015-12-14-art4
20151222051133 https://website.org/2015-12-14-art4

这是一个“著名”的 awk 习惯用法：过滤第二个字段 ( $2)，只打印第一次看到的行。我将向您指出stackoverflow awk 信息页面以了解详细信息。

对于第二部分，我们需要细化作为数组键存储的内容：$2我们需要规范化方案，而不是（整个 URL）：

awk '
    {key = $2; sub(/^https/, "http", key)}
    !seen[key]++
' file

2

根据特定字符串删除重复的行

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

根据特定字符串删除重复的行

1 个回答

相关问题