是否有任何 MySQL 基准测试工具？[关闭]

Question

blindsnowmobile

Asked: 2019-05-14 08:25:37 +0800 CST2019-05-14 08:25:37 +0800 CST 2019-05-14 08:25:37 +0800 CST

MySQL：具有混合字符编码的列，并查找具有多字节数据的列

772

我有一些相当大的 CSV 文件要加载到我的 MySQL 5.7 数据库中。这些文件有几 GB 大小，几百万行长，并且具有必须在连接中使用的大列宽（有时长达约 500 个字符）。

数据都是标准英文字符，大部分列都可以放入一个单字节字符集，如latin1. 但是，有几列需要 unicode 来表示商标/注册/版权符号、测量符号（英寸、英尺、半径等），因此我一直utf8mb4在所有表格上使用。

这样做的问题是双重的。它扩大了我们的索引大小，因此在某些情况下，我们无法在列上创建索引，因为宽度变得大于 3072。此外，它似乎对性能产生了重大影响，大概是因为数据大小是 4 倍。

我想做的是latin1在表中的所有列上使用，并且只utf8mb4在需要它的列上使用。这导致了我的问题-

确定哪些列实际存储多字节字符的最佳方法是什么？我可以在加载之前在我的 CSV 中（可能使用 python/pandas 吗？）或从数据库中以某种方式检测到这一点？文件存储为 utf8。它们当前被加载到一个utf8mb4表中。如果我可以轻松地扫描表格并说“此列不包含多字节数据”，我可以将其更改为latin1.

其次，如果我尝试使用不同编码的列创建复合索引，我会遇到问题吗？假设列A是 utf8mb4，列B是 latin1。在这两列上创建索引有什么问题吗？即：CREATE INDEX my_index ON my_table(A, B);。我假设这样做没有问题。

Rick James · Answer 1 · 2019-05-15T05:36:59+08:00

数据大小不是 4x。英文文本，即使是 utf8mb4，每个字符也只占用一个字节。商标（等）符号是多字节的。然后你提到的只有2个字节。表情符号和一些中文是需要 4 个字节的地方。

不要在大列上创建索引。在获得查询之前不要创建索引——从查询中得出最佳索引。

让一列是 latin1 而另一列是 utf8mb4 （等）是非常好的（至少在 MySQL 中）。并且它们都可以在同一个索引中。

我建议对数据进行几次传递。首先使用 utf8mb4 引入所有内容，没有索引，宽列（例如TEXT）。然后分析你得到了什么SELECT MAX(CHAR_LENGTH(col2)), ...—— 测试非 latin1 等。对于第二遍，重新执行架构以更接近 max len 等。

MySQL：具有混合字符编码的列，并查找具有多字节数据的列

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

MySQL：具有混合字符编码的列，并查找具有多字节数据的列

1 个回答

相关问题