增加命令行的列宽

Question

Pat

Asked: 2022-09-13 03:37:57 +0800 CST2022-09-13 03:37:57 +0800 CST 2022-09-13 03:37:57 +0800 CST

根据 file 命令将文件转换为 utf-8

772

有一个上传过程，读取文件并使用 sqlldr 将数据上传到数据库。在 sqlldr 中处理文件时，我遇到了无效号码问题。发现文件是 UTF-16 格式，然后在 notepad++ 中转换为 UTF-8 格式，它开始工作正常。现在我正在尝试像下面这样系统地转换它。

iconv -f UTF-16 -t UTF-8 file_name >output_file_name

该文件可能具有不同的编码，因此我想在转换之前找到该文件的编码，然后根据该编码进行转换。类似于使用文件命令仅从下面读取 UTF-16，然后在 -f 选项中使用它。

bash-4.2$ file "/FILE_UPLOADS/Relationship (4).txt"
/FILE_UPLOADS/Relationship (4).txt: Little-endian UTF-16 Unicode text, with CRLF line terminators

我怎么做？

3 个回答

Voted

White Owl · Answer 1 · 2022-09-13T05:12:06+08:00

White Owl

2022-09-13T05:12:06+08:002022-09-13T05:12:06+08:00

您可以使用file -i，它将返回文件的 MIME 编码。

就像是：

iconv -f `file -i $file|grep -Po 'charset=\K.*'` -t UTF-8 $file > $file_converted

另一种方法是使用更专用的工具，例如：
https
://gitlab.freedesktop.org/uchardet/uchardet 然后命令变得更简单

iconv -f `uchardet $file` -t UTF-8 $file > $file_converted

但是你需要安装它。

4

Stéphane Chazelas · Answer 2 · 2022-09-13T09:26:09+08:00

Stéphane Chazelas

2022-09-13T09:26:09+08:002022-09-13T09:26:09+08:00

vim能够自行自动检测一些文件编码并转换为 UTF-8，因此您可以尝试在ex以下模式下处理文件：

vim --clean -E -s -c 'argdo set fileencoding=utf-8 nobomb | update' -c q -- *.txt

我们也只重写在update此过程中修改过的文件。

4

Stéphane Chazelas · Answer 3 · 2022-09-13T13:50:25+08:00

当file说Little-endian UTF-16 Unicode text或使用--mime-encoding utf-16le时，这意味着该文件以 UTF-16 编码，并带有一个表明它是 little endian 的 BOM。

file无法检测没有 BOM 的 UTF-16 文本文件（小端或大端）。

对于 UTF-16 文本，它需要前两个字节为 0xff、0xfe（小端）或 0xfe 0xff（大端），然后检查前 64KiB 数据的其余部分是否看起来像文本（仅寻找 UTF -16 编码的 ASCII 控制字符，文本文件中不应出现）。

对于iconv,表示不带utf-16leBOM的小端 UTF-16 ，而 utf-16 表示带 BOM 的 utf-16，无论是大端还是小端。

因此，如果您使用的输出file -b --mime-encoding作为from字符集 in iconv，您最终将在输出中使用 UTF-8 编码的 BOM。

在这里，您可能想要类似的东西：

encoding=$(file -b --mime-encoding - < "$file") &&
  case $encoding in
    (utf-16[bl]e) iconv -f UTF-16 < "$file" -t UTF-8 > "$newfile";;
    (us-ascii | utf-8) ;; # already utf-8
    (*) printf >&2 '%s\n' "don't know what to do with a $encoding encoding"
  esac

如果这些是 Microsoft 文件，正如 CRLF 所建议的那样，您可能希望dos2unix使用iconv. dos2unix（至少当前版本）应该能够检测和 UTF-16 并转换为区域设置的字符集（LC_ALL=C.UTF-8 dos2unix如果您希望输出为 UTF-8 而不管区域设置，请运行它）并将 CRLF 更改为 LF 并修复其他怪癖在微软文件中。

根据 file 命令将文件转换为 utf-8

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

根据 file 命令将文件转换为 utf-8

3 个回答

相关问题