我有一个 Postgres 8.4 环境,我们所有数据库的编码都设置为SQL_ASCII
- 我们终于迁移到 Postgres 9.2,我想将所有内容迁移到UTF8
编码。
不幸的是,这个数据库中的文本数据不干净——尝试将 pg_dump 恢复到 utf8 编码的数据库会引发有关无效字节序列的错误,即使我--encoding=UTF8
在运行 pg_dump 时指定(可能是因为 Postgres 不知道该怎么做他们并只是将它们原封不动地转储?)。
我们有很多数据(超过一百万行带有文本/字符串元素),手动审核所有这些数据将非常耗时(并且容易出错),所以如果可能的话,我希望将其自动化。
有没有一种简单的方法可以在数据库中找到不符合 utf8 的字符串/文本字段,以便我们修复它们?还是我坚持进行手动审核以解决这个问题?