我可以在使用数据库后激活 PITR 吗？

Question

Cyrbil

Asked: 2015-12-17 02:57:17 +0800 CST2015-12-17 02:57:17 +0800 CST 2015-12-17 02:57:17 +0800 CST

Postgres数据库编码问题

772

我正在努力从我的表中转换编码错误的数据。例如，我有一个字段NadÃ¨ge应该是Nadège.

我尝试使用 Postgres 的函数convert, convert_from，convert_to但没有取得多大成功。

db=# SHOW client_encoding;
 client_encoding 
-----------------
 UTF8
(1 row)

db=# SHOW server_encoding;
 server_encoding 
-----------------
 UTF8
(1 row)

db=# SELECT "firstName", encode("firstName"::bytea, 'hex') FROM contact;       
 firstName |       encode       
-----------+--------------------
 Nadège    | 4e6164c3a86765
 NadÃ¨ge   | 4e6164c383c2a86765
(2 rows)

db=# SELECT "firstName", convert_from("firstName"::bytea, 'latin1') FROM contact WHERE "lastName" ILIKE 'crochard';
 firstName |  convert_from  
-----------+----------------
 Nadège    | NadÃ¨ge
 NadÃ¨ge   | NadÃ\u0083Â¨ge
(2 rows)

db=# SELECT "firstName", convert("firstName"::bytea, 'utf8', 'latin1') FROM contact;                                                                                                                                                       
 firstName |     convert      
-----------+------------------
 Nadège    | \x4e6164e86765
 NadÃ¨ge   | \x4e6164c3a86765
(2 rows)

使用 python 我可以得到正确的编码：

data.encode('latin1').decode('utf8')

关于如何在 postgres 中转换这些错误编码的数据的任何提示？

1 个回答

Voted

Craig Ringer · Answer 1 · 2015-12-17T17:39:55+08:00

正如您已经正确识别的那样，NadÃ¨geUTF-8 表示 Nadège错误地解码为 ISO-8859-1（“latin-1”）。然后，在您的情况下，重新编码为 UTF-8 以存储在数据库中。

要修复它，您需要：

采用当前表示并将 UTF-8 解码为 latin-1 作为字节字符串
重新解释字节字符串，将其解码为 utf-8

所以：

test=> SELECT convert_from(convert_to('NadÃ¨ge', 'latin-1'), 'utf-8');
 convert_from 
--------------
 Nadège
(1 row)

Python 等价物将接近您编写的内容，但以 unicode 表示开始，以说明 PostgreSQL 将所有内容存储在数据库编码中。就像是：

>>> print u"NadÃ¨ge".encode("latin-1").decode("utf-8")
Nadège

您尝试的所有解决方案的问题在于从texttobytea 的转换使用数据库编码。因此，您从 utf-8 错误解码为 latin-1 的 utf-8 表示的字节开始。使用演员表，您必须写：

test=> SELECT convert_from(convert_to(convert_from((TEXT 'NadÃ¨ge')::bytea, 'utf-8'), 'latin-1'), 'utf-8');
 convert_from 
--------------
 Nadège
(1 row)

因为在重新解释为 latin-1 并再次解码之前，您必须明确解码演员产生的 utf-8 表示。

你只需要使用convert_to(mycol, 'latin-1')而不是mycol::bytea

Postgres数据库编码问题

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Postgres数据库编码问题

1 个回答

相关问题