从文本文件传递变量的奇怪问题

Question

Whitehot

Asked: 2021-09-30 06:31:00 +0800 CST2021-09-30 06:31:00 +0800 CST 2021-09-30 06:31:00 +0800 CST

按照模式对文件名进行分组和计数

772

我在具有特定命名系统的文件夹中有大量文件。它看起来有点像这样：

my_file_A_a.txt
my_file_A_d.txt
my_file_A_f.txt
my_file_A_t.txt
my_file_B_r.txt
my_file_B_x.txt
my_file_C_f.txt
my_file_D_f.txt
my_file_D_g.txt
my_file_E_r.txt

我想要一个命令行或一系列命令（可以使用临时文件，我有写权限），它们会返回如下内容：

A: 4
B: 2
C: 1
D: 2
E: 1

可以用很多ls -1 *A* | wc -l命令来完成，但是需要很长时间，因为要计算几百个“组”。

此外，每个组名都是唯一的。有一个A群，一个B群，但没有AB群。

6 个回答

Voted

AdminBee · Answer 1 · 2021-09-30T06:57:22+08:00

假设您的文件名是“行为良好的”，即它们不包含换行符，下面的ls和组合awk将起作用：

ls -d my_file* | awk -F'_' 'NF==4{count[$3]++} END{for (i in count) printf "%s: %d\n", i, count[i]}'

这将重定向ls列出所有开始my_file*到awk程序的文件的命令的输出。该awk程序将使用_as 字段分隔符并检查第三个字段以跟踪数组中的出现count，该数组使用组号作为“数组索引”。

最后，它会打印出每个组发生频率的概览。

注意

通过要求恰好 4 个这样的字段，可以“最低限度地”保护文件名格式完全错误。这假设, , ,... 在您的示例_中不能是文件名的一部分。adf
输出不一定会根据类别名称进行排序。排序顺序将取决于如何遍历循环awk中的数组索引。for (i in count)如果需要排序，您可以在sort. 或者，如果您使用 GNU Awk，您可以通过添加配置设置
```
BEGIN{PROCINFO["sorted_in"]="@ind_str_asc"}
```
在NF==4{...}规则之前。这将确保根据数组索引遍历数组，按字典（ASCII）顺序排序。
这将适用于开头所述的限制，并且因为您的文件名结构相当简单。通常不鼓励解析ls.

Jim L. · Answer 2 · 2021-09-30T11:36:32+08:00

Best Answer

Jim L.

2021-09-30T11:36:32+08:002021-09-30T11:36:32+08:00

for f in my_file_*_*.txt
do
    f="${f#my_file_}"
    printf "%s\n" "${f%%_*.txt}"
done |
sort |
uniq -c

for循环重新格式化每个文件名以f去除前导my_file_和尾随_whatever.txt，然后对该输出进行排序，并用于uniq计算每个唯一值的出现次数。

3

Jeff Schaller · Answer 3 · 2021-09-30T11:40:56+08:00

Jeff Schaller

2021-09-30T11:40:56+08:002021-09-30T11:40:56+08:00

我会在通配符上循环处理它，然后在[[ Conditional Expression 构造中使用 bash 的正则表达式功能从文件名中提取字段。

unset collect
declare -A collect
for f in ./*_*_*_*.txt
do 
  [[ $f =~ [^_]+_+[^_]+_+([^_]+)_+[^_]+.txt ]] &&
  ((collect["${BASH_REMATCH[1]}"]++))
done

for group in "${!collect[@]}"
do
  printf '%s: %d\n' "$group" "${collect["$group"]}"
done

唯一带括号的字段是第三个下划线分隔的字段；collect一旦它被捕获，我们在关联数组 ( )中增加该值。

3

they · Answer 4 · 2021-09-30T10:57:22+08:00

包含四个下划线分隔的字段并以字符串结尾的文件名与.txt扩展的通配符模式匹配+([!_])_+([!_])_+([!_])_+([!_]).txt。每个+([!_])匹配一个或多个非下划线字符，就像[^_]+作为扩展正则表达式一样。

我们可以通过删除最初的两个字段和最后一个字段以及.txt后缀字符串来从中提取第三个字段。

#!/bin/bash

shopt -s extglob nullglob

names=( +([!_])_+([!_])_+([!_])_+([!_]).txt )
names=( "${names[@]#+([!_])_+([!_])_}" )
names=( "${names[@]%_+([!_]).txt}" )

printf '%s\n' "${names[@]}" | sort | uniq -c

该脚本仅假定文件名中的第三个字段不包含嵌入的换行符。

对问题中的示例文件名进行测试：

$ ls
list              my_file_A_f.txt   my_file_B_x.txt   my_file_D_g.txt
my_file_A_a.txt   my_file_A_t.txt   my_file_C_f.txt   my_file_E_r.txt
my_file_A_d.txt   my_file_B_r.txt   my_file_D_f.txt   script
$ ./script
   4 A
   2 B
   1 C
   2 D
   1 E

您可以通过一个简单的awk脚本对其进行过滤，以将其转换为您想要的任何格式。

$ ./script | awk '{ printf "%s: %d\n", $2, $1 }'
A: 4
B: 2
C: 1
D: 2
E: 1

如果您的名字表现良好，这意味着其中任何一个都没有嵌入的换行符，那么您可以稍微简化脚本并cut改用它。

#!/bin/bash

shopt -s extglob nullglob

printf '%s\n' +([!_])_+([!_])_+([!_])_+([!_]).txt |
cut -d _ -f 3 | sort | uniq -c

jubilatious1 · Answer 5 · 2021-09-30T11:17:28+08:00

使用 Raku（以前称为 Perl_6）

raku -e '.say for dir.split("_")[2,5,8...*].Bag.pairs.sort;'

示例输入（当前目录列表）：

my_file_A_a.txt
my_file_A_d.txt
my_file_A_f.txt
my_file_A_t.txt
my_file_B_r.txt
my_file_B_x.txt
my_file_C_f.txt
my_file_D_f.txt
my_file_D_g.txt
my_file_E_r.txt

样本输出：

A => 4
B => 2
C => 1
D => 2
E => 1

作为简要说明，获取当前目录dir()列表并按_下划线拆分。[假定文件名不以_下划线开头/结尾]。因此获得的元素是：

raku -e 'dir.split("_").raku.say;'

("my", "file", "A", "a.txt my", "file", "A", "d.txt my", "file", "A", "f.txt my", "file", "A", "t.txt my", "file", "B", "r.txt my", "file", "B", "x.txt my", "file", "C", "f.txt my", "file", "D", "f.txt my", "file", "D", "g.txt my", "file", "E", "r.txt").Seq

在那之后，Raku 有一个相当健壮的机制来生成/理解序列：只需输入就[2,5,8...*]可以拉出字母A,B,C,D,E（每三个元素，编号从开始0）。然后Bag,pairs和sort。

（如果您确定文件名中没有空格，则可以split(" ")在第一个调用之后添加第二个调用。然后您要提取的元素是[2,6,10...*]）。

注意 1：如果您有不符合 OP 列出的模式的无关文件名（并且正在弄乱您的计数），那么您可以将dir调用更改为类似于dir(test => / [ <-[_]>+ _ ] ** 3 /)regex 上一个或多个文件名的子集非下划线后面跟着一个下划线，重复三遍。

注意 2：如果您想要两列输出（=>中间没有），只需更改.say为.put. 或者，如果您更喜欢“Raku-ish”输出，请尝试使用.raku.say，它会返回以下内容：

:A(4)
:B(2)
:C(1)
:D(2)
:E(1)

https://docs.raku.org/routine/dir
https://docs.raku.org/type/Bag
https://raku.org

K-att- · Answer 6 · 2021-10-01T00:35:31+08:00

K-att-

2021-10-01T00:35:31+08:002021-10-01T00:35:31+08:00

排序，sed 和 uniq 足够了：

ls |grep my_file | sed "s/.*_.*_\(.*\)_.*txt/\1/"|sort |uniq -c|sed "s/[^0-9]*\([0-9]*\) \(.*\)/\2: \1/"

另一个 oneliner，只有 3 个变量：

count=0;chchange="dummy";ls | sed -n "s/.*my_file.*_\(.*\)_.*txt/\1/p"|sort|cat - <(echo end) |while read a ; do  if [ $a == $chchange ] ; then  ((count++));else if [ $chchange != "dummy" ] ;then  echo "$chchange $count"; fi; count=1; chchange=$a; fi;  done;

需要在排序输出中多放一行。

-1

按照模式对文件名进行分组和计数

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

按照模式对文件名进行分组和计数

6 个回答

相关问题