重新排列字母并比较两个单词

Question

mkomarinski

Asked: 2019-01-29 06:56:23 +0800 CST2019-01-29 06:56:23 +0800 CST 2019-01-29 06:56:23 +0800 CST

从文本文件中删除字符串的超集

772

我有一个包含目录列表的文件：

/a/b
/a/b/c
/a/b/d
/a/b/e
/a/c
/a/c/b
/a/c/d
/a/d/e
/a/d/e /f
/a/e/f/g
/a/e/f/g/h
...

我只想得到 /a/b、/a/c、/a/d/e 和 /a/e/f/g；也就是说，我想排除在其之前具有另一行子集的行。子目录的深度是任意的，所以我可以在 2、3、4 等目录下找到唯一的子目录。

5 个回答

Voted

steeldriver · Answer 1 · 2019-01-29T07:28:18+08:00

Best Answer

steeldriver

2019-01-29T07:28:18+08:002019-01-29T07:28:18+08:00

假设您的输入已排序，那么检查前缀并在更改时更新它如何？

$ awk 'NR == 1 || ! match($0, "^" pfx) {print; pfx = $0}' file
/a/b
/a/c

注意：这是一个正则表达式匹配，因此如果条目包含正则表达式特殊字符可能不合适 - FWIW 既不gawk或mawk似乎/在此上下文中将视为特殊字符

2

glenn jackman · Answer 2 · 2019-01-29T08:14:26+08:00

glenn jackman

2019-01-29T08:14:26+08:002019-01-29T08:14:26+08:00

gawk -F/ '
    {
        # have we seen something that is a prefix of this line?
        for (prefix in prefixes)
            if ($0 ~ "^" prefix)
                # yes we have
                next

        prefixes[$0] = 1

        # are there prefixes that get "cancelled out" by this new one?
        # e.g. /a/b/c is already a prefix but current line is /a/b
        for (prefix in prefixes)
            if (prefix ~ "^" $0 ".+")
                delete prefixes[prefix]
    }
    END {
        # GNU awk: traverse the array by index, sorted
        PROCINFO["sorted_in"] = "@ind_str_asc"
        for (p in prefixes)
            print p
    }
' list_of_dirs

输出

/a/b
/a/c
/a/d/e
/a/e/f/g

如果您没有 GNU awk，则将输出通过管道传输到| sort

1

DopeGhoti · Answer 3 · 2019-01-29T07:23:22+08:00

DopeGhoti

2019-01-29T07:23:22+08:002019-01-29T07:23:22+08:00

$ awk -F/ 'NF==3 { print }' filename

我们将字段分隔符设置为/，然后打印仅包含三个字段的行。假设您的输入文件格式是一致的，只会/a/b打印诸如的行，因为这三个字段依次是空字符串a、和b。

0

Scottie H · Answer 4 · 2019-01-29T07:57:40+08:00

Scottie H

2019-01-29T07:57:40+08:002019-01-29T07:57:40+08:00

你必须使用awk吗？格雷普可以做到。Tyy 是这样的： egrep '^/a/b\$|/a/c\$'

根据您的外壳，$ 可能需要也可能不需要使用反斜杠进行转义。

0

Rakesh Sharma · Answer 5 · 2019-01-30T07:03:00+08:00

您可以使用sed编辑器执行此操作，如下所示：

$ sed -e '
   $!N
   \|^\(.*\)\n\1/|!{P;D;}
   s/\n.*//;H;s/.*//;x;D
' input_file

/a/b
/a/c
/a/d/e
/a/e/f/g

在职的：

随时确保图案空间中有两条线。
如果在模式空间的第二部分的前导位置中找不到第一部分 => 它们不属于同一分支。我们打印第一部分，将其删除，然后返回将下一行读入模式空间，并执行相同的检查。
在匹配的情况下，我们删除第二部分，因为这是较大的部分（由于排序输入假设），所以我们继续并立即删除该部分。然后返回并将下一行读入模式空间，然后冲洗/重复。

如果输入没有排序，您可以通过以下方式进行：

$ perl -lne '
    my $l = $_;
    grep !index($l,$_), keys %h or $h{$_}++;
    }{print for sort keys %h;
' input
/a/b
/a/c
/a/d/e
/a/e/f/g

在职的：

index(str, substr) 将返回在 str 中找到 substr 的索引。为了在开头匹配，返回一个 0，然后将其反转为布尔值以使其读取为成功。grep 将遍历散列 %h 的所有当前键，其键是我们想要的子字符串。

从文本文件中删除字符串的超集

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

从文本文件中删除字符串的超集

5 个回答

相关问题