AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 716997
Accepted
Pat
Pat
Asked: 2022-09-13 03:37:57 +0800 CST2022-09-13 03:37:57 +0800 CST 2022-09-13 03:37:57 +0800 CST

根据 file 命令将文件转换为 utf-8

  • 772

有一个上传过程,读取文件并使用 sqlldr 将数据上传到数据库。在 sqlldr 中处理文件时,我遇到了无效号码问题。发现文件是 UTF-16 格式,然后在 notepad++ 中转换为 UTF-8 格式,它开始工作正常。现在我正在尝试像下面这样系统地转换它。

iconv -f UTF-16 -t UTF-8 file_name >output_file_name

该文件可能具有不同的编码,因此我想在转换之前找到该文件的编码,然后根据该编码进行转换。类似于使用文件命令仅从下面读取 UTF-16,然后在 -f 选项中使用它。

bash-4.2$ file "/FILE_UPLOADS/Relationship (4).txt"
/FILE_UPLOADS/Relationship (4).txt: Little-endian UTF-16 Unicode text, with CRLF line terminators

我怎么做?

ksh
  • 3 3 个回答
  • 313 Views

3 个回答

  • Voted
  1. White Owl
    2022-09-13T05:12:06+08:002022-09-13T05:12:06+08:00

    您可以使用file -i,它将返回文件的 MIME 编码。

    就像是:

    iconv -f `file -i $file|grep -Po 'charset=\K.*'` -t UTF-8 $file > $file_converted
    

    另一种方法是使用更专用的工具,例如:
    https
    ://gitlab.freedesktop.org/uchardet/uchardet 然后命令变得更简单

    iconv -f `uchardet $file` -t UTF-8 $file > $file_converted
    

    但是你需要安装它。

    • 4
  2. Stéphane Chazelas
    2022-09-13T09:26:09+08:002022-09-13T09:26:09+08:00

    vim能够自行自动检测一些文件编码并转换为 UTF-8,因此您可以尝试在ex以下模式下处理文件:

    vim --clean -E -s -c 'argdo set fileencoding=utf-8 nobomb | update' -c q -- *.txt
    

    我们也只重写在update此过程中修改过的文件。

    • 4
  3. Best Answer
    Stéphane Chazelas
    2022-09-13T13:50:25+08:002022-09-13T13:50:25+08:00

    当file说Little-endian UTF-16 Unicode text或使用--mime-encoding utf-16le时,这意味着该文件以 UTF-16 编码,并带有一个表明它是 little endian 的 BOM。

    file无法检测没有 BOM 的 UTF-16 文本文件(小端或大端)。

    对于 UTF-16 文本,它需要前两个字节为 0xff、0xfe(小端)或 0xfe 0xff(大端),然后检查前 64KiB 数据的其余部分是否看起来像文本(仅寻找 UTF -16 编码的 ASCII 控制字符,文本文件中不应出现)。

    对于iconv,表示不带utf-16leBOM的小端 UTF-16 ,而 utf-16 表示带 BOM 的 utf-16,无论是大端还是小端。

    因此,如果您使用 的输出file -b --mime-encoding作为from字符集 in iconv,您最终将在输出中使用 UTF-8 编码的 BOM。

    在这里,您可能想要类似的东西:

    encoding=$(file -b --mime-encoding - < "$file") &&
      case $encoding in
        (utf-16[bl]e) iconv -f UTF-16 < "$file" -t UTF-8 > "$newfile";;
        (us-ascii | utf-8) ;; # already utf-8
        (*) printf >&2 '%s\n' "don't know what to do with a $encoding encoding"
      esac
    

    如果这些是 Microsoft 文件,正如 CRLF 所建议的那样,您可能希望dos2unix使用iconv. dos2unix(至少当前版本)应该能够检测和 UTF-16 并转换为区域设置的字符集(LC_ALL=C.UTF-8 dos2unix如果您希望输出为 UTF-8 而不管区域设置,请运行它)并将 CRLF 更改为 LF 并修复其他怪癖在微软文件中。

    • 1

相关问题

  • 增加命令行的列宽

  • 如何在 ksh 中调用与当前函数不同的函数的子函数?

  • KSH 中的源字符串无效,但 BASH 中的源字符串无效

  • 如何获得美元?从通过 ssh 运行的命令

  • 在循环中使用 sed 时出现错误 - sed:no input files

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve