AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1727074
Accepted
leonbloy
leonbloy
Asked: 2022-06-18 14:57:48 +0800 CST2022-06-18 14:57:48 +0800 CST 2022-06-18 14:57:48 +0800 CST

Git for Windows 的 cat.exe 如何处理字符集编码?

  • 772

我正在测试与字符集编码相关的 Windows 终端 (cmd.exe) 的行为。我有一些带有西班牙文本的几种编码(Win1252、CP437、UTF-8 等)的测试文件:“ qué tal”

我在我的 Windows 10 机器上打开一个 CMD.exe 终端,使用默认的 CP 437 代码页(我在终端窗口属性中检查)。而且,确实,该type命令给出了预期的输出:对 CP-437 正确,仅

 C:\temp > type testfile-cp437.txt
 qué tal         (OK)
 C:\temp > type testfile-utf8.txt
 qué tal        (WRONG)
 

到目前为止一切都很好。

我还安装了 Git for Windows 及其类似 linux 的二进制文件。

现在,我运行它cat.exe(在同一个终端中,请注意 - 我什至不打开bash.exe可执行文件),现在结果不同了。似乎一切都适用于 UTF-8

 C:\temp > C:\Git\usr\bin\cat.exe testfile-cp437.txt
 qu□ tal         (WRONG)
 C:\temp > C:\Git\usr\bin\cat.exe testfile-utf8.txt
 qué tal        (OK)

为什么会这样?我希望该cat命令只是将字节发送到终端,因此结果应该是相同的。字节到 UTF-8 的解码在哪里发生?谁以及为什么选择 UTF-8 编码?这是这个cat实例的一些实现细节还是什么?

windows character-encoding
  • 1 1 个回答
  • 84 Views

1 个回答

  • Voted
  1. Best Answer
    user1686
    2022-06-18T23:38:38+08:002022-06-18T23:38:38+08:00

    (在同一个终端,请注意 - 我什至不打开 bash.exe 可执行文件)

    那仍然是同一个终端。cmd.exe 和 bash.exe 本身都不是终端——您在Windows 控制台(Conhost) 中执行所有操作,Windows 会自动为“控制台”可执行文件生成该控制台。

    Windows 控制台与您通常的终端不同,它不仅使用 stdio 作为其唯一接口——它周围还有一个完整的 API。和 Windows 中的大多数东西一样,它处理 UTF-16 作为其主要文本编码。

    例如,虽然程序可以使用普通的 WriteFile() 将文本输出到其标准输出,但也有一个专用的 WriteConsole() 函数,它(与大多数 Windows API 一样)有两个版本:面向字节的 WriteConsoleA(),它期望数据在当前的 ANSI/OEM 编码,以及始终采用 UTF-16 的面向 Unicode 的 WriteConsoleW()。

    因此,如果程序知道它们正在处理已知编码的文本,并且如果它们正在写入控制台,它们就不需要依赖“当前 OEM 代码页”——程序可以自己转换为 UTF -16 然后使用 WriteConsoleW() 直接输出 Unicode 格式的文本。

    (即使 Cmd 的内置type命令也会这样做:如果它检测到您的文件具有 UTF-16 BOM,它会将其内容输出为 Unicode ,而不管活动代码页如何。)

    Git for Windows 中的工具是使用 MinGW 运行时编译的,与 Cygwin 一样,它试图消除 POSIX 和 Windows 环境之间的某些差异。似乎 MinGW 的 stdio 层对 Windows 控制台有特殊处理——请记住,Git 经常处理 UTF-8 数据,因此它在为 CP437 设置的控制台中无法正常工作——因此每当 MinGW 检测到它正在向其写入文本时控制台,它将自动从 UTF-8 1转换为 UTF-16 并使用 WriteConsoleW() 2直接将其输出为 Unicode 。

    这样 Git.exe 本身就不需要担心 OEM 代码页——例如git log,可以简单地输出 UTF-8 编码的作者姓名或按原样提交消息(就像在 Linux 上一样),并让 MinGW 运行时神奇地将其转换为 Windows 兼容Unicode,绕过 OEM 代码页转换,否则会乱码。


    1(MinGW 实际上根据 POSIX 语言环境设置执行此转换,因此如果您将环境变量LANG或LC_CTYPE环境变量设置为类似的C.cp437,您将看到 MSYS 工具处理所有文本,就好像它在 CP437 中一样。)

    2(某些程序也可能使用 SetConsoleOutputCP() 将控制台临时切换到实际的 UTF-8 作为“OEM”代码页——但 MinGW 更有可能使用 WriteConsoleW(),因为它在程序之后没有任何持久影响崩溃,而输出 CP 需要在退出时显式恢复。)

    • 2

相关问题

  • 如何在 Windows Precision 触摸板上禁用鼠标加速?

  • 批量重命名图像文件集

  • Python 的“pass”参数的批处理等价物是什么?

  • 在 Windows 上与 Docker 守护进程通信

  • 资源管理器侧面板中的桌面外壳快捷方式

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 为什么通过电缆(同轴电缆)的千兆位/秒 Internet 连接不能像光纤一样提供对称速度? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve