AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 3213
Accepted
Incognito
Incognito
Asked: 2011-06-08 06:24:18 +0800 CST2011-06-08 06:24:18 +0800 CST 2011-06-08 06:24:18 +0800 CST

我应该如何优化此表的存储?

  • 772

我正在使用 MySql 来存储这种格式的基本表:

    id      int(11)          //Auto-Incrementing ID
    data    varchar(5120)    //Random input data, compressed by a program, not mysql.
    -----------------------
    Row size ø  916 B

这有点麻烦,因为现在我每个月大约有 5,000 条记录,我想优化它而不是最终平均为 1mb/1000 条记录。

我最初以这种方式设置它是因为我希望能够捕获更大的集合,但它们很少见,正如您在此图表中看到的那样:

在此处输入图像描述

链接到图形 API

count   n*128 bytes
+-------+----------
1       28
1       26
1       24
2       22
8       21
4       20
13      19
12      18
16      17
27      16
43      15
58      14
69      13
114     12
184     11
262     10
399     9
588     8
807     7
1224    6
1245    5
546     4
73      3
9       2
6       1
1       0

我在这里主要关心的是我浪费了多少空间来容纳该图表的尾端,以及当我最终得到更大的异常值时会发生什么?当大约 80% 的数据非常适合 varchar 1024 块时,我将不得不再次增加行大小,这是我现在使用的大小的 1/5。

那么我应该如何首先构建这个东西呢?

mysql optimization
  • 2 2 个回答
  • 296 Views

2 个回答

  • Voted
  1. Best Answer
    RolandoMySQLDBA
    2011-06-08T08:42:04+08:002011-06-08T08:42:04+08:00

    由于它已经构建,让我们看看你有什么。有一种有趣的方法可以为当前存在的数据规划列定义。如果表名是 mydata,请尝试运行此查询:

    从 mydata PROCEDURE ANALYZE () 中选择数据;

    这不会显示您的任何数据。这将检查列data本身,根据前 256 个不同的值计算统计信息(默认情况下,您可以指定不同的值计数)并推荐表应具有的正确列类型。

    只要表是 MyISAM,就不必太担心行的大小,因为默认的行格式是 DYNAMIC。如果表是 InnoDB(我当然希望不是),请确保数据不是 PRIMARY KEY 的一部分。您的聚集索引将像在您的后院倾倒未稀释的 MiracleGro 一样增长。

    您可能需要将数据列分成 128 个块并运行 MD5(32 个字符输出)或 SHA1(40 个字符输出)并连接这些 MD5 或 SHA1 输出并存储它们。这将节省 75% 的存储空间。尝试编写分手代码,玩得开心。这只是我脑海中的一个漫无边际的建议。

    您可能还想考虑使用 Sphinx 索引。

    • 4
  2. Rick James
    2011-06-09T16:24:40+08:002011-06-09T16:24:40+08:00

    对于 MyISAM,如果您从不更新或删除记录,则 blob 的 N 字节记录将在 .MYD 文件中占用 N+8 字节。

    MyISAM PK 将在 .MYI 文件中找到;它将非常小——大约 11 字节/行,加上一些开销,四舍五入为 1KB 块。

    如果您使用的是 InnoDB,布局会相当复杂。有 16KB 的数据块永远不会很满,有 blob 范围(即使是 VARCHAR),它在 767 字节后开始(可能更快,取决于版本),等等。范围以 1MB 的块分配。计划平均每行 2N 字节。

    InnoDB PK是和数据一起存储的,所以上面完全包含了。而且,作为 AUTO_INCREMENT,您的块往往会相对满。注意:块大小为 16KB,每个块至少允许 20 个。

    不要用自己的分块玩游戏;它会减慢速度,使您的代码复杂化等。磁盘很便宜。(是的,玩这样的游戏很有趣。)

    看起来你的一半记录不会超过 767 的截止值。

    旁白:如果 blob 是压缩数据,您应该真正使用 BLOB,而不是 VARCHAR。VARCHAR 假定 CHARACTER SET 属性,如果您切换到 utf8,这真的会让您感到头疼。如果必须使用 VAR-xx,请使用 VARBINARY。

    • 2

相关问题

  • 是否有任何 MySQL 基准测试工具?[关闭]

  • 我在哪里可以找到mysql慢日志?

  • 如何优化大型数据库的 mysqldump?

  • 什么时候是使用 MariaDB 而不是 MySQL 的合适时机,为什么?

  • 组如何跟踪数据库架构更改?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    您如何显示在 Oracle 数据库上执行的 SQL?

    • 2 个回答
  • Marko Smith

    如何选择每组的第一行?

    • 6 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    我可以查看在 SQL Server 数据库上运行的历史查询吗?

    • 6 个回答
  • Marko Smith

    如何在 PostgreSQL 中使用 currval() 来获取最后插入的 id?

    • 10 个回答
  • Marko Smith

    如何在 Mac OS X 上运行 psql?

    • 11 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Marko Smith

    将数组参数传递给存储过程

    • 12 个回答
  • Martin Hope
    Manuel Leduc PostgreSQL 多列唯一约束和 NULL 值 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler 什么时候应该将主键声明为非聚集的? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - 哪个更好作为主键? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k 什么时候应该使用唯一约束而不是唯一索引? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick 如何优化大型数据库的 mysqldump? 2011-01-04 13:13:48 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve