多行文件洗牌

Question

Brian Fitzpatrick

Asked: 2018-03-31 14:09:03 +0800 CST2018-03-31 14:09:03 +0800 CST 2018-03-31 14:09:03 +0800 CST

如何从给定字符串之前出现的文件名中提取数字？

772

我有很多文件

101s18-exam02--100-booklets.pdf
MATH232 Exam 01 99 booklets.pdf
35BOOKLETS.pdf

我想编写一个命令，从“小册子”一词之前出现的每个文件中提取数字（忽略大小写）。所以，运行这个命令的输出应该是

$ bash mycommand.sh 101s18-exam02--100-booklets.pdf
100

$ bash mycommand.sh MATH232 Exam 01 99 booklets.pdf
99

$ bash mycommand.sh 35BOOKLETS.pdf
35

我怎样才能做到这一点？

4 个回答

Voted

Kusalananda · Answer 1 · 2018-04-01T00:42:37+08:00

Kusalananda

2018-04-01T00:42:37+08:002018-04-01T00:42:37+08:00

使用grep知道-o标志的实现，并且tr：

#!/bin/sh

printf '%s\n' "$@" | grep -oiE '[0-9]+[^0-9]*booklets' | tr -dc '0-9\n'

这是一个sh脚本（不是bash，虽然它也可以使用bash）。它假定在命令行中传递给它的字符串中没有嵌入文字换行符。

扩展的正则表达式[0-9]+[^0-9]*booklets将匹配任何看起来像<integer><zero or more non-digit characters><"booklets">和 with 的字符串-o，这正是将从 . 返回的内容grep。tr只需删除输出grep中不是数字或换行符的任何内容。

tr可以替换为，这sed 's/[^0-9].*//'会删除字符串中第一个非数字字符中的所有内容。

测试它：

$ sh script.sh 101s18-exam02--100-booklets.pdf
100
$ sh script.sh "MATH232 Exam 01 99 booklets.pdf"
99
$ sh script.sh 35BOOKLETS.pdf
35

$ sh script.sh 101s18-exam02--100-booklets.pdf "MATH232 Exam 01 99 booklets.pdf" 35BOOKLETS.pdf
100
99
35

请注意，其中包含空格的字符串需要被引用。

3

Jeff Schaller · Answer 2 · 2018-04-10T03:17:04+08:00

Best Answer

Jeff Schaller

2018-04-10T03:17:04+08:002018-04-10T03:17:04+08:00

Bash 的条件测试运算符[[可以将文件名与正则表达式进行比较并提取带括号的表达式：

shopt -s nocaseglob
for f in *booklets*
do
  [[ $f =~ ([[:digit:]]+)[^[:digit:]]?booklets ]] && echo "${BASH_REMATCH[1]}"
done

这将遍历当前目录中匹配（不区分大小写）单词“booklets”的每个文件。如果您希望一次对单个文件执行某些操作，您可以简化上述内容并将其放入脚本或函数中：

extractnumber ()
(
    shopt -s nocaseglob
    if [ ! -f "$1" ]; then echo "File $1 not found!"; return 1; fi
    [[ $1 =~ ([[:digit:]]+)[^[:digit:]]?booklets ]] && echo "${BASH_REMATCH[1]}";
)

...然后调用它：

$ extractnumber 35BOOKLETS.pdf
35
$ extractnumber MATH232\ Exam\ 01\ 99\ booklets.pdf
99
$ extractnumber 101s18-exam02--100-booklets.pdf
100
$ extractnumber foobar
File foobar not found!

2

Praveen Kumar BS · Answer 3 · 2018-03-31T20:26:33+08:00

Praveen Kumar BS

2018-03-31T20:26:33+08:002018-03-31T20:26:33+08:00

我已经完成了下面提到pythonscript.py 的并将输出流水线化以搜索所需的匹配项。我本可以只使用 python，但我希望使用 grep 来流水线化输出

名为inputfilefile的输入文件：

101s18-exam02--100-booklets.pdf
MATH232 Exam 01 99 booklets.pdf
35BOOKLETS.pdf

用法：

python pythonscript.py |grep -o "^[0-9]*"

pythonscript.py包含：

#!/usr/bin/python
import re
o = open('inputfile','r')
k=re.compile(r'\d{2,3}\s?-?booklets',re.IGNORECASE)
for g in o:
    u=re.search(k,g)
    if u:
       print u.group()

输出：

100
99
35

1

ctac_ · Answer 4 · 2018-04-01T08:27:52+08:00

ctac_

2018-04-01T08:27:52+08:002018-04-01T08:27:52+08:00

你可以试试这个 sed

sed -E '
  s/^/ /
  s/.*[^0-9]([0-9]+).?[bB][oO]{2}[kK][lL][eE][tT][sS].*/\1/
' infile

1

如何从给定字符串之前出现的文件名中提取数字？

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何从给定字符串之前出现的文件名中提取数字？

4 个回答

相关问题