我想找到经常相互关联的关键字。
例子
目录包含降价文件,每个文件的最后一行都有一些关键字:
$ tail -n 1 file1.md
#doctor #donkey #plants
$ tail -n 1 file2.md
#doctor #firework #university
$ tail -n 1 file3.md
#doctor #donkey #linux #plants
伪输出
- 100% 包含关键字“#donkey”的文件也包含关键字“#doctor”。
- 50% 包含关键字“#plants”的文件也包含关键字“#linux”。
- …
一个 Shell 脚本、一个 awk 脚本,或者只是一个关于如何实现这个目标的解释就足够了!
任何帮助,将不胜感激。非常感谢
对数组数组使用 GNU awk:
如果关键字位于每个文件的第一行而不是使用 GNU awk 来
nextfile
提高效率:或在最后一行,然后再次依靠 gawk
ENDFILE
:或者仍然在最后一行,但使用 tail+gawk 更有效: