在 CentOS 7 上对二进制文件进行 base64 编码的正确方法是什么？

Question

George

Asked: 2022-01-11 23:52:12 +0800 CST2022-01-11 23:52:12 +0800 CST 2022-01-11 23:52:12 +0800 CST

如何修复在子目录中看起来不太好的 UTF-8 字符编码文件名

772

我有像KÃ¤yttÃ¶ohje.pdf. 这应该是Käyttöohje.pdf。

我可以使用以下命令转换子目录中的所有文件：

convmv -f utf8 -t iso-8859-1 -r --notest *

这转换KÃ¤yttÃ¶ohje.pdf为Käyttöohje.pdf.

问题是文件是否已经存在Käyttöohje.pdf

文件Käyttöohje.pdf转换为K'$'\344''ytt'$'\366''ohje.pdf

如何更改上述命令，以便

Käyttöohje.pdf被转换为Käyttöohje.pdf（单独留下）和
KÃ¤yttÃ¶ohje.pdf仍然转换为Käyttöohje.pdf

1 个回答

Voted

Stéphane Chazelas · Answer 1 · 2022-01-12T00:21:17+08:00

您不正确的文件似乎是双 UTF-8 编码。

例如，äU+00E4 已被编码为：

U+00E4 -> 0xc3 0xa4（UTF-8 编码）
0xc3 -> 0xc3 0x83 (iso8859-1 Ã-> UTF-8), 0xa4 -> 0xc3 0xa4 (iso8859-1 ¤-> UTF-8) 其中 U+00E4 的 UTF-8 编码的每个字节都被解释为是在单字节字符集（这里可能是 iso8859-1 或 windows-1252）中对某些其他字符进行编码，并在 UTF-8 中再次编码。

所以你使用它是正确convmv -f utf8 -t iso-8859-1的。要单独保留未双重编码的文件，convmv有一个特殊选项：--fixdouble，所以它应该是：

convmv --fixdouble -f utf8 -t iso-8859-1 -r --notest .

convmv手册中有专门的部分：

如何撤消双 UTF-8（或其他）编码文件名

有时您可能会“双重编码”某些文件名，例如文件名已经是 UTF-8 编码，而您不小心将某些字符集转换为 UTF-8。您可以通过相反的方式简单地撤消它。from-charset 必须是 UTF-8，to-charset 必须是您之前不小心使用的 from-charset。如果您使用“--fixdouble”选项，convmv 将确保仅处理转换后仍为 UTF-8 编码的文件，并且不会触及非 UTF-8 文件。您应该通过在没有“--notest”之前进行转换来检查以获得正确的结果，“--qfrom”选项可能会有所帮助，因为如果打印双 utf-8 文件名可能会搞砸您的终端 - 它们通常包含控制序列，这些控制序列会在您的终端窗口中做一些有趣的事情。如果您不确定意外转换的字符集，使用“--qfrom”是一种在不破坏文件名的情况下整理所需编码的好方法。

通过 iso8859-1 进行双 UTF 编码的文件（涵盖代码点 U+0000 U+00FF）将包含由 U+00C2 -> U+00F4 范围内的一个字符组成的非 ASCII 字符序列 ( ÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóô)后跟一个或多个 U+0080 -> U+00BF 范围内的字符（U+0080 到 U+009F 是控制字符加不间断空格加¡¢£¤¥¦§¨©ª«¬®¯°±²³´µ¶·¸¹º»¼½¾¿）。这些序列相对不太可能出现在非双编码文本中，特别是考虑到 U+00E0 以上的字符（上面第一组中的小写字符）必须跟在第二组中至少 2 个字符之后，所以convmv --fixdouble是不太可能弄错。

如何修复在子目录中看起来不太好的 UTF-8 字符编码文件名

如何撤消双 UTF-8（或其他）编码文件名

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何修复在子目录中看起来不太好的 UTF-8 字符编码文件名

1 个回答

如何撤消双 UTF-8（或其他）编码文件名

相关问题