为什么 InetAddress 上的 switch 模式匹配会失败，并出现“未涵盖所有可能的输入值”？

Question

An5Drama

Asked: 2024-04-11 17:40:17 +0800 CST2024-04-11 17:40:17 +0800 CST 2024-04-11 17:40:17 +0800 CST

lua中中文单词前一个可选空格模式的正则表达式

772

我尝试使用string.match("Í",'%s?[\u{4e00}-\u{9FFF}]+')类似于我们在 JS 或其他语言中工作的方式。但它会匹配一个不必要的字符，如上面的“Í”。

匹配 UTF-8 的官方实现是使用 eacape\ddd但\u{XXX}似乎失败了，因为

Lua 的模式匹配工具逐字节工作

暂时，我使用类似于以下的不稳定解决方法utf8.charpattern：string.match("Í",'%s?[\228-\233][%z\1-\191][%z\1-\191]')基于utf8 编码将输出nil并用于检查 cjk（如“我”），尽管它的左起第二个字节有一个错误的范围。

问：

如何用正则表达式解决这个问题？

1 个回答

Voted

Luatic · Answer 1 · 2024-04-11T18:27:12+08:00

Lua 模式不是正则表达式。正则表达式具有 Lua 模式所没有的功能（例如分组、可能嵌套和选择），并且 Lua 模式具有正则表达式（至少在形式语言意义上）所没有的功能（例如%b, %1）。
你是对的：Lua 模式不在“代码点”上运行，它们在字节上运行。这就是为什么\u{4e00}-\u{9FFF}行不通的原因：Lua 在这里看到的是\228\184\128-\233\191\191，相当于\184\191\228\128-\233，这与你想要的非常不同（值得注意的是，范围突然从\128到\233）。我认为与在源代码中显示为单个代码点的多字节“字符”的交互-有点像枪炮。

由于您想要一个纯 Lua 解决方案，并且考虑到您的模式的简单性，因此手工解决方案是可行的：

local codepoints = {}
for _, c in utf8.codes(s) do
    if utf8.char(c):match"^%s$" and codepoints[1] == nil then
        codepoints[1] = c
    elseif c >= 0x4e00 and c <= 0x9FFF then
        table.insert(codepoints, c)
    else
        codepoints = {}
    end
end
local match = utf8.char(table.unpack(codepoints))
if match:match"^%s?$" then match = nil end -- single space or empty string

lua中中文单词前一个可选空格模式的正则表达式

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

lua中中文单词前一个可选空格模式的正则表达式

1 个回答

相关问题