如何从命令行仅安装安全更新？关于如何管理更新的一些提示

Question

s3idani

Asked: 2022-04-14 12:23:25 +0800 CST2022-04-14 12:23:25 +0800 CST 2022-04-14 12:23:25 +0800 CST

如何 grep 带有变音符号的阿拉伯字符？

我在阿拉伯语 Tashkil中有大TXT文件，我正在尝试查找包含特定模式mashkula的行，我尝试了以下语法：َ ً ُ ٌ ّ ْ ٍgrep

cat file.txt | grep "اهلا"

在我插入 Tashkil 标记之前，这不会返回任何内容：

cat file.txt | grep "أهْلاً"

我得到正确的输出

أهْلاً

我也试过

grep -P "[ُ\ ّ\ َ\ ً\ ِ\ ٍ\ ٌ\ ْ\ \~]|[اهلا]" file.txt

这会以不同的模式返回所有匹配的字符：

أهْلاً أ ... هْ.. لًا أنْتَ لَيْلاً ..

如何将阿拉伯变音符号与 grep 匹配？是否可以在使用 grep 之前从文本中删除 Tashkil 标记？我的操作系统是 Ubuntu 18.04

更新：此时，我从文本中删除塔什基尔标记： sed "s/[ُ ّ َ ً ِ ٍ ٌ ْ]//g"，然后我可以得到grep我想要的。但是在这种方法中，sed命令会从所有文本中删除空格！

Pablo Bianchi · Answer 1 · 2022-04-17T13:04:59+08:00

Best Answer

Pablo Bianchi

假设 UTF-8 源和语言环境，使用 Perl删除U+064B - U+065B范围：

$ echo "أَهْلاً وَ سَهْلاً" | perl -CSAD -pe 's/[\x{064B}-\x{065B}]//g'

أهلا و سهلا

来源：这是有效的，因为阿拉伯语中的元音变音符号是组合字符，这意味着简单的搜索和删除这些就足够了。

GNUsed似乎也可以工作（请注意，基于这些答案还有其他变音符号）：

$ echo "أَهْلاً وَ سَهْلاً" | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g'

أهلا و سهلا

uconv也可能工作。

查看评论区和s3idani 的帖子以获取更多信息。

s3idani · Answer 2 · 2022-04-17T16:17:38+08:00

s3idani

根据Pablo Bianchi的回答，解决方法如下：

文本： أَهْلاً وَ سَهْلاً

命令：cat Text | sed -e 's/َ//g;s/ُ//g;s/ِ//g;s/ّ//g;s/ً//g;s/ٌ//g;s/ٍ//g;s/ْ//g;s/أ/ا/g;s/آ/ا/g;s/إ/ا/g' | grep -o "اهلا"

输出：اهلا