关于【encoding】的问题- 第1页

Nir

Asked: 2020-11-25 07:07:37 +0800 CST

如何在 MySQL 中转义特殊字符

1

当我select * .. | mysql ... > /tmp/file从带有文本的表中进行操作时，有一些有问题的字符会阻止我使用copy（postgres）或load into（mysql）将其加载到不同的数据库中。诸如制表符、换行符之类的字符会自动转换为\nand \t，但一些有问题的字符是 escape ^[、 CR ^M、^U、^Z、^F，^H也许还有其他我以前没见过的字符。

通常我会像一样替换它echo "select * .." | mysql .. | sed 's/\r/\\r/g'，但是那里有太多未知字符。因此，与其在选择后替换它们，我想要一个检索已经转义的文本的函数（我想删除它们也可以）。

我该怎么做？

Rob P.

Asked: 2018-07-07 05:09:13 +0800 CST

Postgres - 编码、排序规则和 CType

12

                                                        List of databases 
          Name           |  Owner   | Encoding |          Collate           |           Ctype            |
-------------------------+----------+----------+----------------------------+----------------------------|
 MyDatabase              | postgres | UTF8     | English_United States.1252 | English_United States.1252 |

有人能解释一下 Encoding、Collate 和 Ctype 是如何相互关联的吗？

我知道编码会影响信息的实际存储方式（即“A”是否需要一个字节或多个字节，以及这些字节的值取决于编码）。

我被告知 collate 指定了比较字符的规则。如果您要对一堆字符串进行排序，则整理类型将决定顺序。

我一直在努力寻找 Ctype 是什么；可能与大写和小写等概念有关（假设 'a' 知道 'A' 是大写形式？）。

我不明白（如在我的示例中）我如何拥有一个 UTF8 编码的数据库并使用英语 1252 的校对值。UTF8 有许多 win1252 没有的字符；如果我尝试对它们进行排序或比较会发生什么？我当前的设置是荒谬的......似乎我总是希望 Encoding/Collate/Ctype 同意？

mlwacosmos

Asked: 2018-06-07 04:32:07 +0800 CST

NLS_LANG 和 NLS_CHARACTERSET

2

我以为我读到NLS_CHARACTERSET了数据库NLS_LANG的编码和客户端的编码。那是对的吗？

这是否意味着两种编码可以不同？

在其他一些文档中，我读到NLS_LANG是由NLS_CHARACTERSET. 哪个断言是正确的？

Jesse Reilly

Asked: 2018-01-08 21:34:48 +0800 CST

从 PostgreSQL 数据库中删除导致编码错误的字符

3

我有一个使用 WIN1252 编码的 PostgreSQL 10 数据库。

从 pgAdmin 4 运行选择时，我的其中一列的值会导致转换错误：

SELECT myfield FROM mydb.myschema."MYTABLE"

回报：

ERROR:  character with byte sequence 0x9d in encoding "WIN1252" has no 
equivalent in encoding "UTF8"
SQL state: 22P05

在 pgAdmin 4 中将客户端编码设置为 WIN1252 会导致它断开与数据库的连接（我记得在某处读到 pgAdmin 4 在设置客户端编码时存在问题，但请追踪链接）。

使用 psql 并将客户端编码设置为 WIN1252，选择有问题的功能之一：

SELECT myfield
FROM mydb.myschema."MYTABLE"
WHERE oid = 12345

回报：

â€œA sample comment

查看最初导入数据库的数据，“弯引号”似乎被错误地导入。

有没有办法从列中删除这些字符 - 用常规引号替换它们，或者干脆删除它们？

user1762087

Asked: 2017-07-20 07:55:50 +0800 CST

具有两个不同字符集的两个表

5

我有一个存储用户输入的表，因此为了允许国家字符，我将 charset 设置为utf8mb4。

然后我有第二个表，它可以变得非常大（100+ 数百万行），我 100% 确定这个表将只存储 ASCII 字符，所以我将此表的字符集设置为latin1以节省磁盘空间。

在一个数据库中的表之间使用不同的字符集有什么缺点吗？它被认为是不好的做法吗？

或者有没有其他方法可以解决这个问题？（以保持磁盘占用最小并允许国家字符）

编辑：

其输出show create table需要用户输入（并具有 utf8mb4）

 CREATE TABLE `sensor` (
  `id` int(20) NOT NULL AUTO_INCREMENT,
  `label` varchar(191) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `description` varchar(3000) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `created` datetime(6) NOT NULL,
  `state` varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `region` varchar(255) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `model_reference` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `label` (`label`),
  KEY `id` (`id`),
  KEY `sensor_ibfk_1` (`model_reference`),
 FULLTEXT KEY `fulltext_index`(`label`,`description`,`state`,`region`), 
 CONSTRAINT `sensor_ibfk_1` FOREIGN KEY (`model_reference`) REFERENCES      `model` (`id`) ON DELETE SET NULL ON UPDATE NO ACTION
 ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4      COLLATE=utf8mb4_unicode_ci

其输出show create table是自动生成的（并且具有 latin1）

CREATE TABLE `sensor_history` (
 `id` int(11) NOT NULL AUTO_INCREMENT,
 `sensor_reference` int(20) DEFAULT NULL,
 `temperature` varchar(16) DEFAULT NULL,
 `pressure` varchar(16) DEFAULT NULL,
 `at` timestamp(6) NOT NULL DEFAULT CURRENT_TIMESTAMP(6),
 PRIMARY KEY (`id`),
 KEY `sensor_history_ibfk_1` (`sensor_reference`),
 CONSTRAINT `sensor_history_ibfk_1` FOREIGN KEY (`sensor_reference`)     REFERENCES `sensor` (`id`) ON DELETE CASCADE ON UPDATE NO ACTION
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=latin1

user123902

Asked: 2017-05-02 13:10:53 +0800 CST

Postgres 升级和将 latin1 转换为 utf8

0

我对 PostgreSQL 很陌生，但我的任务是进行升级。当前系统在 CentOS 5.11 上运行，是 Postgres 8.1.23，默认编码为 latin1。新服务器是 OpenSuSE 42.1 和 Postgres 9.4.9，默认编码为 utf8。

我一直在尝试使用 pg_dumpall 命令来让用户及其角色与数据库/表/数据一起移动。但是，由于编码不同，我无法恢复到新服务器。

我看到 pg_dump 命令有 -E 选项来指定编码，但它似乎没有给我一种获取用户和角色的方法。-E 选项甚至可以完成我所需要的——从 latin1 到 utf8 的转换吗？

我迁移/升级用户、角色、数据等并同时从 latin1 转换为 utf8 的最佳方式是什么？

谢谢！

Luan Huynh

Asked: 2017-02-18 00:23:35 +0800 CST

错误：请求的字符对于编码而言太大

3

我在 Linux 上使用 PostgreSQL 9.6。当我对chr()函数进行测试时出现错误。

postgres=# select chr(1199111);
ERROR:  requested character too large for encoding: 1199111
postgres=# select chr(55296);
ERROR:  requested character not valid for encoding: 55296
postgres=# select chr(100000);
 chr
-----
 ?
(1 row)

在这里，正如您所看到的 value100k它起作用（没有引发错误），但其他人没有。我对此很好奇。有人可以向我解释为什么吗？

我附上测试脚本

do
$$
declare 
str text ;
begin
for i in 1..1200000
loop
begin
select chr(i) into str;
exception when others then raise notice '=> i: %     => str: %', i , str ;
#exit; -- you can uncomment this star key
end ;
end loop;
end 
$$ ;

更新

postgres=# show server_encoding;
 server_encoding
-----------------
 UTF8
(1 row)

sznowicki

Asked: 2016-10-11 12:59:51 +0800 CST

Mysql - latin1（带有 latin2 内容）到 utf8

0

我有一个用 latin1 编码的数据库（ubbthreads），内容来自 latin2（波兰字符）。

由于 latin2 与 latin1 兼容，它在网站上看起来不错，但是我无法以任何方式将其转换为 utf8（想将数据导入 nodebb）。

它也不能在控制台 mysql 和 mysql 工作台中正确呈现字符。

我尝试了很多方法来进行转换，但都失败了。

我最后一次尝试是首先将 mysqldump 文件从 latin1 转换为 latin2，我计划进行下一次从 latin2 tu utf8 的转换。

然而，iconv 在第一次波兰字符尝试中中断了 illegal input sequence at position 11392

我需要一些提示如何以正确的方式进行操作。

ikegami

Asked: 2016-07-21 14:01:41 +0800 CST

修复双重编码数据

2

我有一个定义为的字段Question VARCHAR(1024) CHARACTER SET utf8 NOT NULL。我们的应用程序将双重编码数据存储到该字段中。例如，在 phpMyAdmin 中é显示，并在传递给.Ã©C383C2A9HEX

我添加了第二个字段 ( DoubleEncoded TINYINT NOT NULL DEFAULT 1)，用于标识哪些记录存在此问题。

我想修复剩余的字段。有没有办法使用 MySQL SQL 来做到这一点？换句话说，我需要替换decode_utf8以下内容：

UPDATE `MyTable`
   SET `Question` = decode_utf8(`Question`),
       `DoubleEncoded` = 0
 WHERE `DoubleEncoded` = 1

Cyrbil

Asked: 2015-12-17 02:57:17 +0800 CST

Postgres数据库编码问题

5

我正在努力从我的表中转换编码错误的数据。例如，我有一个字段NadÃ¨ge应该是Nadège.

我尝试使用 Postgres 的函数convert, convert_from，convert_to但没有取得多大成功。

db=# SHOW client_encoding;
 client_encoding 
-----------------
 UTF8
(1 row)

db=# SHOW server_encoding;
 server_encoding 
-----------------
 UTF8
(1 row)

db=# SELECT "firstName", encode("firstName"::bytea, 'hex') FROM contact;       
 firstName |       encode       
-----------+--------------------
 Nadège    | 4e6164c3a86765
 NadÃ¨ge   | 4e6164c383c2a86765
(2 rows)

db=# SELECT "firstName", convert_from("firstName"::bytea, 'latin1') FROM contact WHERE "lastName" ILIKE 'crochard';
 firstName |  convert_from  
-----------+----------------
 Nadège    | NadÃ¨ge
 NadÃ¨ge   | NadÃ\u0083Â¨ge
(2 rows)

db=# SELECT "firstName", convert("firstName"::bytea, 'utf8', 'latin1') FROM contact;                                                                                                                                                       
 firstName |     convert      
-----------+------------------
 Nadège    | \x4e6164e86765
 NadÃ¨ge   | \x4e6164c3a86765
(2 rows)

使用 python 我可以得到正确的编码：

data.encode('latin1').decode('utf8')

关于如何在 postgres 中转换这些错误编码的数据的任何提示？

如何在 MySQL 中转义特殊字符

Postgres - 编码、排序规则和 CType

NLS_LANG 和 NLS_CHARACTERSET

从 PostgreSQL 数据库中删除导致编码错误的字符

具有两个不同字符集的两个表

Postgres 升级和将 latin1 转换为 utf8

错误：请求的字符对于编码而言太大

Mysql - latin1（带有 latin2 内容）到 utf8

修复双重编码数据

Postgres数据库编码问题

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

问题[encoding](dba)