从文本文件传递变量的奇怪问题

Question

Porcupine

Asked: 2022-03-01 11:51:10 +0800 CST2022-03-01 11:51:10 +0800 CST 2022-03-01 11:51:10 +0800 CST

删除字符串中第一个字母 ([a-zA-Z]) 之前的所有字符

772

我想删除所有字符，直到[a-zA-Z] 字符串中的第一个字母。例如：

#121Abc-->Abc

%Ab#c-->Ab#c

Ab#c-->Ab#c

Abc-->Abc

1Abc-->Abc

1 21Abc-->Abc

1^1 Abc-->Abc

注意：所有非字母都包括非印刷字符。

bash工具可以吗？

5 个回答

Voted

αғsнιη · Answer 1 · 2022-03-01T12:00:12+08:00

Best Answer

αғsнιη

2022-03-01T12:00:12+08:002022-03-01T12:00:12+08:00

与awk：

awk 'sub(/^[^[:alpha:]]*/, "")' infile

与sed：

sed 's/^[^[:alpha:]]*//' infile

注意：如果您的行中没有字母字符，它将在输出中以空行结束，要跳过打印这些行以及跳过输入中的空行，您需要使用：

awk 'sub(/^[^[:alpha:]]*/, "") && NF' infile
awk 'sub(/^[^[:alpha:]]*/, "") && /./' infile
sed 's/^[^[:alpha:]]*//;/./!d' infile

或同样的做法grep（感谢@glennjackman）

grep -o '[[:alpha:]].*' infile

7

Stéphane Chazelas · Answer 2 · 2022-03-01T12:42:18+08:00

Stéphane Chazelas

2022-03-01T12:42:18+08:002022-03-01T12:42:18+08:00

使用 POSIX sh 参数扩展运算符（最初来自 ksh），假设输入在 shell 变量中：

$ string='#123Abc'
$ printf '%s\n' "${string#"${string%%[[:alpha:]]*}"}"
Abc

请注意，[A-Za-z]除了 C 语言环境之外，未指定匹配的内容。在实践中，它是相当随机的，尤其是对于bashshell。

[[:alpha:]]匹配区域设置中被视为字母的所有字符（或更一般地，即使在非字母脚本中，通常也是人类语言单词转录的一部分的字符）。无论语言环境如何，要仅匹配 ASCII 英文字母，您可以使用[abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ].

6

Stephen Kitt · Answer 3 · 2022-03-01T12:07:41+08:00

Stephen Kitt

2022-03-01T12:07:41+08:002022-03-01T12:07:41+08:00

仅使用 Bash：

$ shopt -s extglob
$ a='#121Abc'
$ printf '%s\n' "${a/#*([!a-zA-Z])/}"
Abc

（依此类推，设置a为您要处理的任何字符串）。

3

jubilatious1 · Answer 4 · 2022-03-01T21:09:11+08:00

使用Raku（以前称为 Perl_6）：

raku -pe 's/^ <:!Letter>+ //;'

或者（更简单）：

raku -pe 's/^ <:!L>+ //;'

样本输入：

#121Abc --> Abc
%Ab#c --> Ab#c
Ab#c --> Ab#c
Abc --> Abc
1Abc --> Abc
1 21Abc --> Abc
1^1 Abc --> Abc
_!_Abc --> Abc
!Åbc --> Åbc
_Åbc --> Åbc

样本输出：

Abc --> Abc
Ab#c --> Ab#c
Ab#c --> Ab#c
Abc --> Abc
Abc --> Abc
Abc --> Abc
Abc --> Abc
Abc --> Abc
Åbc --> Åbc
Åbc --> Åbc

包括这个答案，以防 OP 有需要处理的 Unicode 文本。简而言之，Raku 的-pe自动打印行标志用于实现众所周知的 ( sed-like)s///习语。

至于字符集，Raku 提供了基于Unicode 属性的字符集。Unicode 字母字符类使用表示<:Letter>，其否定则通过添加!感叹号表示，如下所示：<:!Letter>。有两个 Unicode 字母子类也很有用，<:Lu>大写字母和<:Ll>小写字母。

如果您有需要删除的空白行，您可以切换到-ne非自动打印的逐行标志，如下所示：

raku -ne 'S/^ <:!Letter>+ //.put if .chars;'

还有一些其他的正则表达式选项...Raku 还提供了 预定义的字符类，例如<alpha>类，其中包括"alphabetic characters plus underscore (_)"。很容易记住，在 Raku 中，<alnum>等于<alpha>plus <digits>。对于此类别中的字符集的注意事项，否定用前导-减号表示：

raku -pe 's/^ <-alpha>+ //;'

上面正确处理了示例文件（包括 Unicode），但倒数第三行_!_Abc保持不变，最后一行_Åbc保持不变。要删除这些前导_下划线，下面的替换代码可以工作（尽管在顶部使用 Unicode<:Letter>类更简单，因为该类不包含_下划线）：

raku -pe 's/^ [<-alpha>+ | <[_]>+]+ //;'

最后，如果 OP 认为不会遇到 Unicode 字符，则range下面的简单字符（s）起作用（同样，带有前导-减号表示否定）：

raku -pe 's/^ <-[A..Za..z]>+ //;'

但是请注意，上面的代码虽然很容易掌握，但不会正确处理 Sample Input 文件的最后两行，而是返回bc而不是（可能）期望的Åbc.

https://docs.raku.org/language/regexes
https://raku.org

DanieleGrassini · Answer 5 · 2022-03-01T12:21:31+08:00

DanieleGrassini

2022-03-01T12:21:31+08:002022-03-01T12:21:31+08:00

没有工具，但只有bash功能：

foo="#121Abc"
[[ "$foo" =~ ^[^a-zA-Z]* ]] && printf "%s\\n" "${foo:${#BASH_REMATCH}}"

trd删除c你说的字符集的补充：

printf "%s\\n" "$foo" | tr -dc [a-zA-Z]

perl音译：

printf "%s\\n" "$foo" | perl -ple 'y/a-zA-Z//dc'

0

删除字符串中第一个字母 ([a-zA-Z]) 之前的所有字符

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

删除字符串中第一个字母 ([a-zA-Z]) 之前的所有字符

5 个回答

相关问题