我们在 dxf/dwg mtext 实体中看到了一些不熟悉的编码文本,例如 \M+5BCFE\M+5BAC5,它应该是汉字 件号。有人能识别这些编码并知道如何解码它们吗?
在 Google 上搜索并询问了 ChatGPT,但没有结果。
我们在 dxf/dwg mtext 实体中看到了一些不熟悉的编码文本,例如 \M+5BCFE\M+5BAC5,它应该是汉字 件号。有人能识别这些编码并知道如何解码它们吗?
在 Google 上搜索并询问了 ChatGPT,但没有结果。
我正在尝试弄清楚必须安装哪种字体才能看到此页面上的字符:
https://en.wiktionary.org/wiki/%F0%AE%A5%B6#Chinese
𮥶 即 U+2E976
我在 Linux Mint 上。我安装了所有 Noto 字体、Unifont、Everson Mono 和 Microsoft TTF。
Firefox 已设置为使用 Noto,我将其切换到 Unifont,仍然没有反应。我在其他文本程序中也看不到该字符。它总是显示为带有数字/字母的小方块,或者只是带有问号的方块。
有什么帮助吗?
谢谢
我尝试使用string.match("Í",'%s?[\u{4e00}-\u{9FFF}]+')
类似于我们在 JS 或其他语言中工作的方式。但它会匹配一个不必要的字符,如上面的“Í”。
匹配 UTF-8 的官方实现是使用 eacape\ddd
但\u{XXX}
似乎失败了,因为
Lua 的模式匹配工具逐字节工作
暂时,我使用类似于以下的不稳定解决方法utf8.charpattern
:string.match("Í",'%s?[\228-\233][%z\1-\191][%z\1-\191]')
基于utf8 编码将输出nil
并用于检查 cjk(如“我”),尽管它的左起第二个字节有一个错误的范围。
问:
如何用正则表达式解决这个问题?