(macOS Bash) 2个看似相同的字符串并不相等，仅通过“set -x”显示差异

Question

Hashim Aziz

Asked: 2024-08-21 03:36:04 +0800 CST2024-08-21 03:36:04 +0800 CST 2024-08-21 03:36:04 +0800 CST

根据另一列中的重复项计算一列中的唯一值

772

我有一个带有标识符和值的文件：

ABC123 111111
ABC123 111111
ABCDEF 333333
ABCDEF 111111
CCCCCC 333333
ABC123 222222
DEF123 444444
DEF123 444444

两列都包含重复值，但我需要计算具有相同 ID（第一列）和唯一值（第二列）的行数。这将产生上述输入的输出：

ABCDEF 2
ABC123 2
DEF123 1
CCCCCC 1

...其中第一列是 ID，第二列是第二列中唯一值的数量。换句话说，我需要找出给定 ID 有多少个唯一值。

我最接近的是这个，但它所做的只是计算第一列的唯一值：

cut -d " " -f1 "file.txt" | uniq -cd | sort -nr | head

我该如何在 Bash 中做这样的事情？

7 个回答

Voted

anubhava · Answer 1 · 2024-08-21T04:05:43+08:00

anubhava

2024-08-21T04:05:43+08:002024-08-21T04:05:43+08:00

这awk应该对你有用：

awk '{
   uq[$0]                 # counts of full record
}
END {
   for (i in uq) {        # store frequency of uniques in fq
      sub(/ .*/, "", i)
      ++fq[i]
   }
   for (i in fq)          # print output from fq
      print i, fq[i]
}' file

CCCCCC 1
ABCDEF 2
DEF123 1
ABC123 2

5

Costi Ciudatu · Answer 2 · 2024-08-21T04:19:52+08:00

Best Answer

Costi Ciudatu

2024-08-21T04:19:52+08:002024-08-21T04:19:52+08:00

这够接近了吗？

$ sort -u file.txt | cut -d' ' -f1 | uniq -c
   2 ABC123
   2 ABCDEF
   1 CCCCCC
   1 DEF123

您可以进一步用它进行过滤以| grep -vw '1'模仿HAVING COUNT(DISTINCT value) > 1语义并从此示例的输出中删除最后两行（假设这不是1标识符的合法值！）。

当然，您也可以通过多种方式反转列顺序。例如

$ sort -u file.txt  |        # sort and eliminate multiple occurrences of the same '<identifier> <value>' pair
    cut -d' ' -f1   |        # keep only the identifier
    uniq -c         |        # collapse and count occurrences of the same identifier
    grep -vw '1'    |        # eliminate rows containing the word '1', assuming this can only be a count value, never an identifier!
    awk '{print $2 " " $1}'  # reverse column order to show '<identifier> <count>'
ABC123 2
ABCDEF 2

5

Fravadona · Answer 3 · 2024-08-21T04:50:39+08:00

Fravadona

2024-08-21T04:50:39+08:002024-08-21T04:50:39+08:00

使用任何 awk：

awk '
    !seen[$0]++ {++uniqs[$1]}
    END {for(id in uniqs) print id, uniqs[id]}
' file.txt

或者如果字段之间的空白可以变化，那么仍然可以使用任何 awk：

awk '
    !seen[$1,$2]++ {++uniqs[$1]}
    END {for(id in uniqs) print id, uniqs[id]}
' file.txt

或使用 GNU awk (用于多维数组)：

awk '
    !seen[$1][$2]++ {++uniqs[$1]}
    END {for(id in uniqs) print id, uniqs[id]}
' file.txt

DEF123 1
ABC123 2
ABCDEF 2
CCCCCC 1

5

markp-fuso · Answer 4 · 2024-08-21T05:16:54+08:00

markp-fuso

2024-08-21T05:16:54+08:002024-08-21T05:16:54+08:00

假设：

每行有 2 个空格分隔的字符串
重复的行确实是重复的（例如，它们具有相同数量的前导、嵌入和尾随空格）

另一种awk方法：

awk '
    { lines[$0] }                            # capture unique lines
END { for (line in lines) {                  # loop through list of unique lines
          split(line,a)                      # split line on white space
          counts[a[1]]++                     # count number of times we see the first field (aka "id")
      }
      for (id in counts)                     # loop through list of id
          print id, counts[id]               # print id and count
    }
' file.txt

这将生成：

ABC123 2
DEF123 1
ABCDEF 2
CCCCCC 1

如果需要对输出进行排序，则将结果通过管道传输到适当的sort命令，例如：

$ awk '<see script from above>' file.txt | sort -k2,2nr -k1,1r
ABCDEF 2
ABC123 2
CCCCCC 1
DEF123 1

3

dawg · Answer 5 · 2024-08-21T05:25:27+08:00

dawg

2024-08-21T05:25:27+08:002024-08-21T05:25:27+08:00

这是一个 Ruby 实现的：

ruby -lane 'BEGIN{ cnt=Hash.new{|h,k| h[k]=[]} }
cnt[$F[0]]<<$F[1]
END{
    cnt.select{|k,v| v.length>1 }.
        each{|k,v| puts "#{k} #{v.uniq.length}"} 
}
' file.txt

印刷：

ABC123 2
ABCDEF 2
DEF123 1

不清楚是否CCCCCC 1应该在输出中。如果是，则无需过滤：

ruby -lane 'BEGIN{ cnt=Hash.new{|h,k| h[k]=[]} }
cnt[$F[0]]<<$F[1]
END{ cnt.each{|k,v| puts "#{k} #{v.uniq.length}"} }
' file.txt

印刷：

ABC123 2
ABCDEF 2
CCCCCC 1
DEF123 1

您还可以执行这个 POSIX 管道：

sort -u file.txt | awk '{cnt[$1]++} END{for (e in cnt) print e, cnt[e]}'

或者awk仅使用来消除使用 uniqifing 的需要sort -u：

awk '!seen[$0]++ {cnt[$1]++} END{for (e in cnt) print e, cnt[e]}' file.txt

以下任一张印刷品（可能顺序不同）：

CCCCCC 1
ABCDEF 2
DEF123 1
ABC123 2

3

Daweo · Answer 6 · 2024-08-21T15:36:13+08:00

Daweo

2024-08-21T15:36:13+08:002024-08-21T15:36:13+08:00

我将利用 GNUAWK完成以下任务，让file.txt内容

ABC123 111111
ABC123 111111
ABCDEF 333333
ABCDEF 111111
CCCCCC 333333
ABC123 222222
DEF123 444444
DEF123 444444

然后

awk '{arr[$1][$2]}END{for(i in arr){print i,length(arr[i])}}' file.txt

给出输出

DEF123 1
ABC123 2
ABCDEF 2
CCCCCC 1

解释：我使用 2D 数组arr，但不存储任何值（仅存储键），然后我遍历上层，并使用length函数为每个层检测子键的数量。如果您需要将输出设置PROCINFO["sorted_in"]为预定义数组扫描顺序BEGIN之一，例如

awk 'BEGIN{PROCINFO["sorted_in"]="@ind_str_asc"}{arr[$1][$2]}END{for(i in arr){print i,length(arr[i])}}' file.txt

将给出输出

ABC123 2
ABCDEF 2
CCCCCC 1
DEF123 1

即按字典顺序升序排列

（在 GNU Awk 5.1.0 中测试）

3

Jetchisel · Answer 7 · 2024-08-21T12:59:12+08:00

Jetchisel

2024-08-21T12:59:12+08:002024-08-21T12:59:12+08:00

我该如何在 Bash 中做这样的事情？

使用bash关联数组（在我看来）是 mark markp-fuso 方法的穷人版awk。

declare -A id_value id_count

# Read each line from the file, splitting into id and value
while read -r id value; do
  id_value["$id $value"]=1  # Store the unique ID-value pair
done < file.txt

# Count unique values for each ID
for key in "${!id_value[@]}"; do
  id="${key%% *}"            # Extract the ID from the key
  ((id_count["$id"]++))      # Increment the count for this ID
done

##: declare -p id_count

# Print the results
for id in "${!id_count[@]}"; do
  printf '%s %s\n' "$id" "${id_count["$id"]}"
done

• 当数据/文件规模较大时，速度会非常非常慢。

• 请参阅关联数组算术上下文问题

1

根据另一列中的重复项计算一列中的唯一值

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

根据另一列中的重复项计算一列中的唯一值

7 个回答

相关问题