AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 302221
Accepted
Arthur Tarasov
Arthur Tarasov
Asked: 2021-11-07 01:06:21 +0800 CST2021-11-07 01:06:21 +0800 CST 2021-11-07 01:06:21 +0800 CST

Postgres 是否保护硬盘驱动器免受重复写入相同的内存单元?

  • 772

如果我在同一张表的同一列中有同一行,我每天写入 4 个字节(整数)100,000 次,那会磨损 SSD 吗?对于 SSD 来说,每天 400 kb 不算什么,但将它写入同一个存储单元就会弹出它。

  • Postgres 数据库管理系统是否以某种方式在后台处理这些单元?
  • 还是现代 SSD 芯片在硬件中做到这一点?
  • 还是它们都被写入同一个存储单元,我们只是随着时间的推移交换死掉的 SSD?
postgresql disk-space
  • 2 2 个回答
  • 166 Views

2 个回答

  • Voted
  1. Best Answer
    Vérace
    2021-11-07T03:07:10+08:002021-11-07T03:07:10+08:00

    介绍:

    必须赞赏的是 PostgreSQL对底层磁盘一无所知(无论它们是旋转 rust 还是 SSD、RAID 配置或其他任何东西)。PostgreSQL 将数据交给操作系统并信任操作系统来照顾它(有时不是一个好主意)!

    对于 SSD,这里需要考虑两个因素:

    • 磨损均衡

    • 修明

    重要的是要注意,这些都与系统上运行的应用程序(即 PostgreSQL、任何其他数据库服务器或任何应用程序)无关!前者严格来说是 SSD 本身的属性/能力,后者是 OS 和 SSD 之间的“合作方式”。

    磨损均衡:

    带回家的信息:SSD 将写入均匀地分配到不同的块,因为 SSD 块只能经历一个limited number of erase cycles before becoming unreliable!

    来自维基:

    磨损均衡尝试通过排列数据来解决这些限制,以便擦除和重写在介质上均匀分布。以这种方式,不会因为写入周期的高度集中而导致单个擦除块过早失效。3在闪存中,芯片上的单个块被设计为比其他块更长的寿命,因此内存控制器可以存储操作数据而损坏的可能性更小。4

    因此,SSD 决定将来自操作系统的数据实际放在哪里(注意:没有提及这些数据可能来自哪个应用程序)。简单的想法是,它将这些写入分布在驱动器周围,以平衡所有磁盘块的磨损,这样一些块就不会过早失效!

    这可能会很快变得复杂 - 请参阅 wiki 了解更多详细信息:

    在此处输入图像描述

    修剪明:

    重要信息:由于 SSD 的底层结构,只能写入空块 - 如果块中已有数据,则必须读取这些旧数据并将其与新数据一起重写回块 - 这有助于写放大。

    如果操作系统告诉磁盘(删除后)块 x 中的数据不再需要,磁盘可以执行垃圾收集(可以调度)并且块将是空的,然后准备写入而无需写入放大. 与对 HDD 进行碎片整理并没有完全不同。

    (再次来自维基- 为长引用道歉,但这是必要的):

    SSD 将数据存储在闪存单元中,这些单元通常分为 4 到 16 kiB 的页面,一起分为通常 128 到 512 页的块。示例:512 kiB 块,将 128 页分组,每页 4 kiB。7个NAND闪存单元只有在它们为空时才能被直接写入。如果它们碰巧包含数据,则必须在写入操作之前擦除内容。SSD 写入操作可以对单个页面进行,但由于硬件限制,擦除命令总是会影响整个块;7因此,将数据写入 SSD 上的空页面非常快,但一旦需要覆盖先前写入的页面,速度就会大大降低。由于在再次写入之前需要擦除页面中的单元格,但只能擦除整个块,因此覆盖将启动读取-擦除-修改-写入周期:[7][12] 的内容整个块存储在缓存中,然后从SSD中擦除整个块,然后将覆盖的页面写入缓存块,然后才能将整个更新块写入闪存介质。这种现象称为写放大。[13][14]

    操作 TRIM 命令使操作系统能够通知 SSD 页面不再包含有效数据。对于文件删除操作,操作系统会将文件的扇区标记为可用于新数据,然后向 SSD 发送 TRIM 命令。修整后,SSD在将新数据写入闪存页面时不会保留块的任何内容,从而导致写入放大更少(写入更少),写入吞吐量更高(无需读取-擦除-修改序列),从而增加驱动器寿命。

    存储的未来:

    有很多有趣的研究正在进行中。存储,并且出于显而易见的原因,存储在数据库中。虽然这已经超出了我的专业水平,但如果您搜索诸如“字节寻址磁盘”之类的术语,您会遇到诸如这里的网站,它是持久内存(字节寻址)工具包的所在地( Intel Optane显然可以支持他的),那么按块读写数据的日子可能屈指可数了?

    关于为什么我们首先有块的解释,请参阅软件工程上的这个线程,并在这里查看有关用户模式直接访问硬件的有趣讨论,“绕过”操作系统......所有有趣的东西!io_uring(和 eBPF)似乎是 Linux 领域的新手,但您可以在闲暇时仔细阅读。

    回答问题:

    如果我在同一张表的同一列中有同一行,我每天写入 4 个字节(整数)100,000 次,那会磨损 SSD 吗?对于 SSD 来说,每天 400 kb 不算什么,但将它写入同一个存储单元就会弹出它。

    我对上述内容的看法是,SSD 会将写入分散到许多块上——这会导致大量工作。具体如何完成将取决于 SSD 的磨损均衡算法。

    Postgres 数据库管理系统是否以某种方式在后台处理这些单元?

    绝对不是!PostgreSQL 只是将数据交给文件系统,并让 FS 和 OS 负责存储(尽管请参阅此处了解由于 Linux 中的缺陷而导致该过程中断的地方)。这是应该的——关注点分离。

    还是现代 SSD 芯片在硬件中做到这一点?

    我在这方面的阅读让我相信是 SSD 固件负责磨损均衡和 TRIM-ming。

    还是它们都被写入同一个存储单元,我们只是随着时间的推移交换死掉的 SSD?

    SSD 上通常有一个小的高耐磨区域,用于保存块写入数据,其中一些可以为块开始失败时保留区域 - 显然,您的 SSD 越复杂,您支付的费用就越多它。

    重申一下:PostgreSQL 不知道或控制一旦将数据交给操作系统后会发生什么——它是缓冲的、直接到磁盘的、所有人都丢失了吗?

    这将取决于操作系统自己的调度算法和它所承受的负载——计算机科学的另一个完整领域!:-) ps +1 提出了一个有趣的问题,让我了解了这一点(在待办事项清单上!)。

    • 5
  2. David Browne - Microsoft
    2021-11-14T08:25:29+08:002021-11-14T08:25:29+08:00

    Postgres 不会为每次更改写入数据文件。像大多数 RDBMS 一样,它使用Write-Ahead Logging,并且只是偶尔更新数据文件。

    使用 WAL 会显着减少磁盘写入次数,因为只需要将日志文件刷新到磁盘以保证事务被提交,而不是事务更改的每个数据文件。

    因此,即使没有 SSD 磨损均衡,您也不会看到对文件中同一位置的大量写入,因为日志是按顺序写入的,并且数据文件仅在计划的CHECKPOINT或其他后台进程期间更新。

    • 2

相关问题

  • 我可以在使用数据库后激活 PITR 吗?

  • 运行时间偏移延迟复制的最佳实践

  • 存储过程可以防止 SQL 注入吗?

  • PostgreSQL 中 UniProt 的生物序列

  • PostgreSQL 9.0 Replication 和 Slony-I 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve