我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2021-02-02 04:42:44 +0800 CST2021-02-02 04:42:44 +0800 CST 2021-02-02 04:42:44 +0800 CST

列出数据库给出'错误：用于编码“UTF8”的无效字节序列：0xe5 0xc6 0xf5'

772

我今天登录了我们的一个生产数据库，并尝试使用列出的数据库\l并得到：

ERROR: invalid byte sequence for encoding “UTF8”: 0xe5 0xc6 0xf5

由于我没有触及任何内容，只是数据库上的元数据，我不知道从哪里开始攻击它。除了多余的类似错误之外，我看不到类似问题的答案如何直接提供帮助。如果我猜的话，我会认为数据库的名称之一包含无法使用 utf8 表示的字符。

线索？

调试信息

在 Windows Server 2016 上运行 Postgresql 版本 10.4 64 位。

mydb=> SHOW client_encoding;
 client_encoding
-----------------
 WIN1252

mydb=> SHOW server_encoding;
 server_encoding
-----------------
 UTF8

mydb=> SELECT datname::bytea, encoding FROM pg_database;
       datname        | encoding
----------------------+----------
 \x706f737467726573   |        6
 \x74656d706c61746531 |        6
 \x74656d706c61746530 |        6
 \x6e696d626c656462   |        6

2 个回答

Voted

oligofren · Answer 1 · 2021-02-02T06:12:22+08:00

快速修复：更改客户端编码以匹配内容

我通过更改客户端编码以匹配服务器编码来完成这项工作。更改客户端编码起到了作用，因为它阻止了 Postgres 在编码为 cp1252 时对 utf8 文本进行编码。（我不知道这些Collate东西是什么。）

mydb=> \encoding
WIN1252

mydb=> \l
ERROR:  invalid byte sequence for encoding "UTF8": 0xe5 0x6c 0x5f

mydb=> \encoding utf8;

mydb=> \l
                                                      List of databases
   Name    |    Owner    | Encoding |           Collate           |            Ctype            |      Access privileges
-----------+-------------+----------+-----------------------------+-----------------------------+-----------------------------
 mydb      |     myadmin | UTF8     | Norwegian Bokml_Norway.1252 | Norwegian Bokml_Norway.1252 | =Tc/myadmin            +
           |             |          |                             |                             | myadmin=CTc/myadmin+
           |             |          |                             |                             | my=c/myadmin
 postgres  | postgres    | UTF8     | Norwegian Bokml_Norway.1252 | Norwegian Bokml_Norway.1252 |
 template0 | postgres    | UTF8     | Norwegian Bokml_Norway.1252 | Norwegian Bokml_Norway.1252 | =c/postgres                +
           |             |          |                             |                             | postgres=CTc/postgres
 template1 | postgres    | UTF8     | Norwegian Bokml_Norway.1252 | Norwegian Bokml_Norway.1252 | =c/postgres                +
           |             |          |                             |                             | postgres=CTc/postgres

为什么（进入原始字节领域）

这需要一段时间才能深入研究，但我使用了评论部分的提示，\l它实际上相当于pg_catalog.pg_database. 通过切换要列出的列，我能够找到证明有问题的列，并将其显示为原始字节，我可以准确地确定位置：

因此，datcollate事实证明这是有问题的专栏。根据文档，此列是 typename并且是LC_COLLATE for this database. 显然，有些东西是不让人注意的，因为 UTF8 编码的输出中没有任何“非 ascii”，但输出有点奇怪，因为语言环境名称有一些似乎已经消失的字符：“å “挪威 Bokml_Norway.1252”中的字符缺失（应为“...Bokmål...”）。这只是巧合吗？

让我们将标准 ascii 的输出与上面的输出进行比较：

$ echo -n Bokml | hexdump -C
00000000  42 6f 6b 6d 6c                                    |Bokml|
00000005

如果将其与上面的原始输出进行比较，您会看到 psql 输出有一个额外的字节：e5between 6dand 6c。这没有显示。

这就是å我的 UTF8 终端中的编码方式：

$ echo -n Bokmål | hexdump -C
00000000  42 6f 6b 6d c3 a5 6c                              |Bokm..l|
00000007

$ printf "%b" "\xc3\xa5"
å

所以å在 UTF8 中使用两个字节（c3a5），而在它上面只有一个字节。WIN1252中可以å吗？

$ printf "m%b" "\xe5" 
m�

$ printf "%b" "\xe5" |  iconv -f cp1252 -t utf8 
å

确实如此！所以问题是区域设置名称在内部postgres数据库中编码为WIN1252，当服务器编码设置为UTF8时似乎无法正确处理，因为客户端似乎假设它接收的数据都是有效的utf8 .

奖励：已修复 VIEW 查询问题

巧合的是，这也修复了我正在修复的另一个相关问题，该问题在尝试列出VIEW包含 UTF8 挪威语字符的内容时发生：

mydb=> select * from conversation_message limit 20;
ERROR:  character with byte sequence 0xf0 0x9f 0x91 0x8d in encoding "UTF8" has no equivalent in encoding "WIN1252"

Laurenz Albe · Answer 2 · 2021-02-03T05:57:22+08:00

您的排序规则Norwegian Bokmål_Norway.1252来自操作系统 (Windows) 并按原样使用。现在 Windows 使用十六进制 E5 中的Windows-1252编码，其中å代码点 226。

此字符串pg_database.datcollate按原样输入，但 PostgreSQL 期望名称为 UTF-8 格式，这会导致错误。

PostgreSQL 必须清理那个 string ，所以这是一个 PostgreSQL 错误（虽然，诚然，Windows 应该归咎于将其语言环境名称从一个版本更改为另一个版本）。

这种特殊情况实际上已在 2019 年修复，因此如果您使用了 PostgreSQL 的最新错误修复级别，则可以避免该问题。

已经提出了一个补丁来在更一般的基础上处理此类问题，但它从未被提交，因为 Windows 上没有人对其进行测试。您可以将其推送到 -hackers 列表中，最好是测试补丁（但这需要在 Windows 上构建 PostgreSQL，这需要一些设置）。

列出数据库给出'错误：用于编码“UTF8”的无效字节序列：0xe5 0xc6 0xf5'

快速修复：更改客户端编码以匹配内容

为什么（进入原始字节领域）

奖励：已修复 VIEW 查询问题

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？