代表客户发送电子邮件

Question

lepe

Asked: 2021-05-23 01:08:28 +0800 CST2021-05-23 01:08:28 +0800 CST 2021-05-23 01:08:28 +0800 CST

如何在 spamassassin 中匹配日语？

772

我住在日本。最近有很多来自中国的垃圾邮件，都是用中文写的。由于 spamassassin 不包含针对中文的规则，因此大多数这些电子邮件都以低分通过。

我想确定电子邮件何时仅用中文编写。由于大多数日语汉字都包含在中文范围内（U+E400 到 U+E9FF），因此识别日语的一种方法是查看平假名（U+3040 到 U+309F）和片假名（U+30A0 到 U +30FF）。如果它包含平假名或片假名，我可以安全地假设是日语，否则是中文。

如果我测试单个字符，例如：あ或者ア它们正确匹配，但是当我使用范围时它不起作用。这是我们尝试过的：

body    CHINESE       /[\xe4-\xe9]/                 <--- this form seems to work fine
body    JAPANESE      /[\x30-\x31]/                 <--- not sure what is actually matching
body    JAPANESE      /(あ|え)/                      <---- this matches single character just fine
body    JAPANESE      /[あ-ん]/                      <--- doesn't work
body    JAPANESE      /[U+3040-U+30FF]/              <--- doesn't work
body    JAPANESE      /[\xe3\x81\x81-\xe3\x82\x96]/  <--- doesn't work
body    JAPANESE      /[\x{3040}-\x{30FF}]/          <--- doesn't work

我真的不知道我在做什么了。我知道上面的一些没有意义......

指定这些范围的正确方法是什么？

1 个回答

Voted

AnFi · Answer 1 · 2021-05-23T07:31:07+08:00

Best Answer

AnFi

2021-05-23T07:31:07+08:002021-05-23T07:31:07+08:00

您是否尝试过使用 Mail::SpamAssassin::Plugin::TextCat（语言检测器）？
恕我直言，您应该首先考虑/评估它。

header LANGUAGE_ZH X-Languages =~ /\b(?:zh)\b/
describe LANGUAGE_ZH Chinese language
score LANGUAGE_ZH 1.0

header LANGUAGE_JA X-Languages =~ /\b(?:ja)\b/
describe LANGUAGE_JA Japanese language
score LANGUAGE_JA -0.1

您可以对其进行修改以匹配“仅检测/猜测一种语言”或某些混合语言。

警告：确保插件由您的 SpamAssassin 配置加载。
它/etc/spamassassin/v310.pre在 Debian Linux 上的文件中配置。

5

如何在 spamassassin 中匹配日语？

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

如何在 spamassassin 中匹配日语？

1 个回答

相关问题