AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题

问题[character-encoding](computer)

Martin Hope
Henke
Asked: 2022-09-25 10:19:01 +0800 CST

我的文本文件充满了问号。我怎样才能使它可读?

  • 6

当我在Visual Studio Code中打开我的一个文本文件时,文本包含很多问号,我原本希望在这些地方看到瑞典字母,例如 å、ä、ö :

我的文本文件充满了问号。

^ 点击放大

在右侧(在VS Code的状态栏中),我注意到它说UTF-8。
这是否与我面临的问题有关?


如何使所有这些字母正确显示?


作为旁注,当我在普通的旧 Windows 记事本中打开相同的文件时,文本显示正确:

我的文本文件在记事本中正确显示。

在这种情况下,状态栏在右下角显示ANSI ,而不是 UTF-8。

但是在 VS Code 中,即使我点击UTF-8,然后 点击Reopen with Encoding,我也找不到任何名为 ANSI 的编码。

VS Code:UTF-8 > 使用编码重新打开 > 没有 ANSI!

如果您想使用我一直在使用的确切文件重现该行为,这里是.

参考

  • Visual Studio Code的下载页面
  • Windows 记事本
  • Basinkomst.md
visual-studio-code character-encoding
  • 1 个回答
  • 109 Views
Martin Hope
leonbloy
Asked: 2022-06-18 14:57:48 +0800 CST

Git for Windows 的 cat.exe 如何处理字符集编码?

  • 6

我正在测试与字符集编码相关的 Windows 终端 (cmd.exe) 的行为。我有一些带有西班牙文本的几种编码(Win1252、CP437、UTF-8 等)的测试文件:“ qué tal”

我在我的 Windows 10 机器上打开一个 CMD.exe 终端,使用默认的 CP 437 代码页(我在终端窗口属性中检查)。而且,确实,该type命令给出了预期的输出:对 CP-437 正确,仅

 C:\temp > type testfile-cp437.txt
 qué tal         (OK)
 C:\temp > type testfile-utf8.txt
 qué tal        (WRONG)
 

到目前为止一切都很好。

我还安装了 Git for Windows 及其类似 linux 的二进制文件。

现在,我运行它cat.exe(在同一个终端中,请注意 - 我什至不打开bash.exe可执行文件),现在结果不同了。似乎一切都适用于 UTF-8

 C:\temp > C:\Git\usr\bin\cat.exe testfile-cp437.txt
 qu□ tal         (WRONG)
 C:\temp > C:\Git\usr\bin\cat.exe testfile-utf8.txt
 qué tal        (OK)

为什么会这样?我希望该cat命令只是将字节发送到终端,因此结果应该是相同的。字节到 UTF-8 的解码在哪里发生?谁以及为什么选择 UTF-8 编码?这是这个cat实例的一些实现细节还是什么?

windows character-encoding
  • 1 个回答
  • 84 Views
Martin Hope
Tiina
Asked: 2021-05-14 00:38:02 +0800 CST

为什么 Unicode 有大端或小端,而 UTF-8 没有?

  • 13

UNICODE 为一个字符使用 2 个字节,因此它有大或小的字节序差异。例如,字符哈是54 C8十六进制的。因此,它的 UTF-8 是:

11100101 10010011 10001000

UTF-8 使用 3 个字节来表示相同的字符,但它没有大端或小端。为什么?

unicode character-encoding
  • 6 个回答
  • 6093 Views
Martin Hope
Tomas By
Asked: 2021-01-29 04:50:10 +0800 CST

转换字符集(德语)

  • 5

我有一个文本文件,它以当前非标准方式使用 128+ 范围内的各种字符。file命令只是Non-ISO extended-ASCII说。

从上下文中我可以识别这些:

Octal 201: u + unlaut
      204: a + umlaut
      216: A + umlaut
      224: o + umlaut
      341: double s

(还有很多其他的,我怀疑是图形符号,而不是字符。)

加法,例如:

 example:   E0X A ANCIENT.IMG 2 0 C:\DOS\DISKOPT.EXE A: /O /Sa /M2
              ДВД В ДДВДДДДДДДД В Д ДДДДДДДВДДДДДДДДДД ДДДДДДДВДДДДД
           і  і   і         і          і                  і
     load E0X ДЩ  АДДДДДДДДДї   і          і                  і
                      і     і   і          і                  і
     with ANCIENT.IMG Щ     і   і          і                  і
                            і   і          і                  і
     for drive A: ДДДДДДДДДДЩ   і          і                  і
                                і          і                  і
     let DISKOPT work ДДДДДДДДДДіДДДДДДДДДДБДДДДДДДДДДДДДДДДДДЩ
                    і
     and write the result back to disk if finished.

(图形字符为八进制 263、277、302、304、331。)

这是文件的链接:e0x.arj。它是E0X.ENG,但我猜它在所有文本文件中都是相同的编码。

这是哪个字符集,我怎样才能使它在现代计算机上可读?

character-encoding ms-dos
  • 1 个回答
  • 141 Views
Martin Hope
tripleee
Asked: 2019-08-18 02:40:27 +0800 CST

乔尔指的是哪个 ANSI 标准?

  • 6

我正在重读 Joel Spolsky 的经典博客文章绝对最低限度每个软件开发人员绝对、肯定地必须了解 Unicode 和字符集(没有借口!)并注意到这段话:

最终,这个免费的 OEM 被编入了 ANSI 标准 (强调我的)。在 ANSI 标准中,每个人都同意如何处理低于 128 的字符,这与 ASCII 几乎相同,但是有很多不同的方法来处理 128 及以上的字符,具体取决于您居住的地方。这些不同的系统称为代码页。

这篇文章指的是哪个 ANSI 标准?可以肯定的是,美国国家标准协会已经发布了许多标准(毕竟,这就是他们实际所做的),但我一直无法弄清楚是哪一个。

我对这可能暗示的最接近的猜测是,这实际上是在谈论 ISO-8859,也许该文件在被采纳为国际标准之前就开始作为美国标准使用;但这在标准化“代码页”和“OEM”字符集的上下文中没有意义。

维基百科的代码页文章提到了一个 IBM 标准,并指出 IANA 维护着代码页映射的注册表,但显然,它们都不是 ANSI。

我的理解是 ANSI 没有对任何现代 8 位字符集进行标准化,并且“ANSI”在这种情况下通常指的是微软现在已经废弃的混淆术语(其中“ANSI”当时显然是指当前的选定的代码页)。

有没有我忽略的标准?还是 Joel 的博客上只是(喘息)一个错误?

standards character-encoding
  • 4 个回答
  • 221 Views
Martin Hope
René Nyffenegger
Asked: 2019-08-10 10:36:49 +0800 CST

在代码页为 437 的 cmd.exe 中,为什么“数字”大于 127 的字符在使用类型时会在前面加上┬?

  • 6

我有一个文件,其中包含一些“数字”大于 127 的字符。如果我用来在代码页 ( ) 设置为 437的控制台type file.txt中显示文件的内容,这些字符前面会加上一个字符。我不明白为什么会这样,以及是否有可能将其关闭。cmd.exechcp┬

cmd.exe character-encoding
  • 1 个回答
  • 622 Views
Martin Hope
lit
Asked: 2019-04-25 10:04:59 +0800 CST

notepad.exe 是如何确定字符编码的?

  • 5

我有一个以 UTF-8 格式保存的没有 BOM 的 .txt 文件。它包含一个 'é' 字符。

notepad.exe如何判断是UTF-8编码的呢?

其他仅包含 < 0x80 个字符的 .txt 文件将以“ANSI”编码打开。

windows character-encoding
  • 1 个回答
  • 925 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Vickel Firefox 不再允许粘贴到 WhatsApp 网页中? 2023-08-18 05:04:35 +0800 CST
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve