我住在日本。最近有很多来自中国的垃圾邮件,都是用中文写的。由于 spamassassin 不包含针对中文的规则,因此大多数这些电子邮件都以低分通过。
我想确定电子邮件何时仅用中文编写。由于大多数日语汉字都包含在中文范围内(U+E400 到 U+E9FF),因此识别日语的一种方法是查看平假名(U+3040 到 U+309F)和片假名(U+30A0 到 U +30FF)。如果它包含平假名或片假名,我可以安全地假设是日语,否则是中文。
如果我测试单个字符,例如:あ
或者ア
它们正确匹配,但是当我使用范围时它不起作用。这是我们尝试过的:
body CHINESE /[\xe4-\xe9]/ <--- this form seems to work fine
body JAPANESE /[\x30-\x31]/ <--- not sure what is actually matching
body JAPANESE /(あ|え)/ <---- this matches single character just fine
body JAPANESE /[あ-ん]/ <--- doesn't work
body JAPANESE /[U+3040-U+30FF]/ <--- doesn't work
body JAPANESE /[\xe3\x81\x81-\xe3\x82\x96]/ <--- doesn't work
body JAPANESE /[\x{3040}-\x{30FF}]/ <--- doesn't work
我真的不知道我在做什么了。我知道上面的一些没有意义......
指定这些范围的正确方法是什么?
您是否尝试过使用 Mail::SpamAssassin::Plugin::TextCat(语言检测器)?
恕我直言,您应该首先考虑/评估它。
您可以对其进行修改以匹配“仅检测/猜测一种语言”或某些混合语言。
警告:确保插件由您的 SpamAssassin 配置加载。
它
/etc/spamassassin/v310.pre
在 Debian Linux 上的文件中配置。