如果我在同一张表的同一列中有同一行,我每天写入 4 个字节(整数)100,000 次,那会磨损 SSD 吗?对于 SSD 来说,每天 400 kb 不算什么,但将它写入同一个存储单元就会弹出它。
- Postgres 数据库管理系统是否以某种方式在后台处理这些单元?
- 还是现代 SSD 芯片在硬件中做到这一点?
- 还是它们都被写入同一个存储单元,我们只是随着时间的推移交换死掉的 SSD?
如果我在同一张表的同一列中有同一行,我每天写入 4 个字节(整数)100,000 次,那会磨损 SSD 吗?对于 SSD 来说,每天 400 kb 不算什么,但将它写入同一个存储单元就会弹出它。
介绍:
必须赞赏的是 PostgreSQL对底层磁盘一无所知(无论它们是旋转 rust 还是 SSD、RAID 配置或其他任何东西)。PostgreSQL 将数据交给操作系统并信任操作系统来照顾它(有时不是一个好主意)!
对于 SSD,这里需要考虑两个因素:
重要的是要注意,这些都与系统上运行的应用程序(即 PostgreSQL、任何其他数据库服务器或任何应用程序)无关!前者严格来说是 SSD 本身的属性/能力,后者是 OS 和 SSD 之间的“合作方式”。
磨损均衡:
带回家的信息:SSD 将写入均匀地分配到不同的块,因为 SSD 块只能经历一个
limited number of erase cycles before becoming unreliable
!来自维基:
因此,SSD 决定将来自操作系统的数据实际放在哪里(注意:没有提及这些数据可能来自哪个应用程序)。简单的想法是,它将这些写入分布在驱动器周围,以平衡所有磁盘块的磨损,这样一些块就不会过早失效!
这可能会很快变得复杂 - 请参阅 wiki 了解更多详细信息:
修剪明:
重要信息:由于 SSD 的底层结构,只能写入空块 - 如果块中已有数据,则必须读取这些旧数据并将其与新数据一起重写回块 - 这有助于写放大。
如果操作系统告诉磁盘(删除后)块 x 中的数据不再需要,磁盘可以执行垃圾收集(可以调度)并且块将是空的,然后准备写入而无需写入放大. 与对 HDD 进行碎片整理并没有完全不同。
(再次来自维基- 为长引用道歉,但这是必要的):
存储的未来:
有很多有趣的研究正在进行中。存储,并且出于显而易见的原因,存储在数据库中。虽然这已经超出了我的专业水平,但如果您搜索诸如“字节寻址磁盘”之类的术语,您会遇到诸如这里的网站,它是持久内存(字节寻址)工具包的所在地( Intel Optane显然可以支持他的),那么按块读写数据的日子可能屈指可数了?
关于为什么我们首先有块的解释,请参阅软件工程上的这个线程,并在这里查看有关用户模式直接访问硬件的有趣讨论,“绕过”操作系统......所有有趣的东西!io_uring(和 eBPF)似乎是 Linux 领域的新手,但您可以在闲暇时仔细阅读。
回答问题:
我对上述内容的看法是,SSD 会将写入分散到许多块上——这会导致大量工作。具体如何完成将取决于 SSD 的磨损均衡算法。
绝对不是!PostgreSQL 只是将数据交给文件系统,并让 FS 和 OS 负责存储(尽管请参阅此处了解由于 Linux 中的缺陷而导致该过程中断的地方)。这是应该的——关注点分离。
我在这方面的阅读让我相信是 SSD 固件负责磨损均衡和 TRIM-ming。
SSD 上通常有一个小的高耐磨区域,用于保存块写入数据,其中一些可以为块开始失败时保留区域 - 显然,您的 SSD 越复杂,您支付的费用就越多它。
重申一下:PostgreSQL 不知道或控制一旦将数据交给操作系统后会发生什么——它是缓冲的、直接到磁盘的、所有人都丢失了吗?
这将取决于操作系统自己的调度算法和它所承受的负载——计算机科学的另一个完整领域!:-) ps +1 提出了一个有趣的问题,让我了解了这一点(在待办事项清单上!)。
Postgres 不会为每次更改写入数据文件。像大多数 RDBMS 一样,它使用Write-Ahead Logging,并且只是偶尔更新数据文件。
因此,即使没有 SSD 磨损均衡,您也不会看到对文件中同一位置的大量写入,因为日志是按顺序写入的,并且数据文件仅在计划的CHECKPOINT或其他后台进程期间更新。