根据第一个逗号之前的匹配删除重复行数

Question

jian

Asked: 2022-01-15 03:11:30 +0800 CST2022-01-15 03:11:30 +0800 CST 2022-01-15 03:11:30 +0800 CST

awk 从字符串中提取数字

772

有多个相关的问题，似乎它们不能awk用来解决问题。

echo "blah foo123bar234blah" | egrep -o '([0-9]+)'

返回

123
234

但

echo "blah foo123bar234blah" | 
    awk '{ match($0,/([0-9]+)/,m); print m[0], m[1],m[2]}'

返回123 123和

echo "blah foo123bar234blah" | 
    awk '{ match($0,/([0-9]+).+([0-9]+)/,m); print m[0], m[1],m[2]}'

返回 123bar234 123 4

在手册中的部分：match(string, regexp [, array])中，示例为：

echo foooobazbarrrrr |
    gawk '{ match($0, /(fo+).+(bar*)/, arr); print arr[1], arr[2]}'

哪个返回foooo barrrrr。

那么如何使用 awk（相当于grep -o）从字符串中提取多个数字？

7 个回答

Voted

Ed Morton · Answer 1 · 2022-01-15T05:13:10+08:00

Best Answer

Ed Morton

2022-01-15T05:13:10+08:002022-01-15T05:13:10+08:00

使用 GNU awk 进行多字符 RS 和 RT：

$ echo "blah foo123bar234blah" |
    awk -v RS='[0-9]+' '$0=RT'
123
234

使用任何 awk （并保留原始正则表达式而不是否定它，因为这很容易使用简单的括号表达式而不是强大的通用方法）：

$ echo "blah foo123bar234blah" |
    awk -v FS='\n' '{gsub(/[0-9]+/,FS"&"FS); for (i=2;i<=NF;i+=2) print $i}'
123
234

或者：

$ echo "blah foo123bar234blah" |
    awk '{ while (match($0,/[0-9]+/) ) {print substr($0,RSTART,RLENGTH); $0=substr($0,RSTART+RLENGTH)} }'
123
234

5

they · Answer 2 · 2022-01-15T03:37:12+08:00

该match()函数执行正则表达式的单个匹配。match()要在 GNU中使用与 with 匹配的正则表达式查找每个数字awk，您必须循环。

{
    str = $0
    while (match(str,"[0-9]+",a)) {
        print a[0]
        str = substr(str,RSTART+RLENGTH)
    }
}

我们只对a[0]这里感兴趣，因为我们不在正则表达式中使用括号。我们不在表达式中使用括号，因为我们不需要它们。如果我们想用单个表达式（例如([0-9]+)[^0-9]+([0-9]+)等）匹配已知数量的整数，我们可能需要括号，但是在这个练习中，我们真的不知道可能有多少个整数。

或者，使用标准awk，

{
    str = $0
    while (match(str,"[0-9]+")) {
        print substr(str,RSTART,RLENGTH)
        str = substr(str,RSTART+RLENGTH)
    }
}

这匹配字符串中连续数字的运行str。对于每个匹配，匹配的字符串都会被打印出来，并且str不再感兴趣的部分会被删除substr()。

测试：

$ echo 'blah foo123bar234blah' | gawk '{ str = $0; while (match(str,"[0-9]+",a)) { print a[0]; str = substr(str,RSTART+RLENGTH) } }'
123
234

AdminBee · Answer 3 · 2022-01-15T03:48:07+08:00

AdminBee

2022-01-15T03:48:07+08:002022-01-15T03:48:07+08:00

您可以使用gsub()函数awk并将每次出现的“不包含数字的子字符串”转换为单个空格，然后使用该split()函数在空格处拆分结果字符串。这就像默认FS变量上的字段拆分一样，并丢弃前导和尾随“空字段”：

awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'

因此，对于您的示例：

~$ echo "blah foo123bar234blah" | awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
123
234

3

αғsнιη · Answer 4 · 2022-01-15T04:24:57+08:00

αғsнιη

2022-01-15T04:24:57+08:002022-01-15T04:24:57+08:00

要提取英文0-9数字，请使用 GNU awk 进行 FPAT：

awk -v FPAT='[0-9]+' -v OFS='\n' '$1=$1""'

或使用任何 awk：

awk -F'[^0-9]+' '{ for(i=1; i<=NF; i++) if($i+0==$i) print $i }' infile

或者专门使用 match() 函数（顺便说一句，没有好处，因为我们知道我们只过滤掉中的数字[^0-9]+，所以其他一切都只是数字，但是是的，为了避免打印空字段，它很有用，但没有比$i+0==$i上面的更好）：

awk -F'[^0-9]+' '{
    for(i=1; i<=NF; i++) {
        if (match($i, /[0-9]+/)) print $i
    }
}' infile

2

FelixJN · Answer 5 · 2022-01-15T03:43:56+08:00

FelixJN

2022-01-15T03:43:56+08:002022-01-15T03:43:56+08:00

如果您真的只想提取数字（以下示例中的自然数和零！），您可以将其他任何内容定义为字段分隔符：

awk 'BEGIN {FS="[^0-9]+"}
     {printf $1 ; for (i=2 ; i<=NF ; i++) { printf " "$i} ; printf "\n"}'

（添加了一些格式，因此它为每条记录返回以空格分隔的条目）

1

Carlos Pascual · Answer 6 · 2022-01-16T01:55:22+08:00

Carlos Pascual

2022-01-16T01:55:22+08:002022-01-16T01:55:22+08:00

还有另一个使用 GNUawk的选项patsplit()：

echo "blah foo123bar234blah" | awk 'patsplit($0, a, /[[:digit:]]+/) { for (i in a) printf "%d\n", a[i]}'
123
234

1

RARE Kpop Manifesto · Answer 7 · 2022-01-18T22:43:15+08:00

RARE Kpop Manifesto

2022-01-18T22:43:15+08:002022-01-18T22:43:15+08:00

为什么要使用所有 FPAT 和 patsplit 以及 while(match()) 让它变得如此复杂 -

就足够了：

 echo 'blah foo123bar234blah' \
 \
 | mawk2 'BEGIN { FS="[^0-9]+"; OFS=ORS; ORS="" } NF=NF'

123
234

0

awk 从字符串中提取数字

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

awk 从字符串中提取数字

7 个回答

相关问题