我目前正在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上使用 CUDA 执行数字运算。这些操作通常需要数月才能完成,在此期间,我的 PC 每天 24 小时不间断运行。
这样做安全吗?我是否冒着可能导致(最坏情况)房屋起火的显卡过热的风险?
请注意,PC 已正确通风,并且其气流没有受到阻碍。
我目前正在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上使用 CUDA 执行数字运算。这些操作通常需要数月才能完成,在此期间,我的 PC 每天 24 小时不间断运行。
这样做安全吗?我是否冒着可能导致(最坏情况)房屋起火的显卡过热的风险?
请注意,PC 已正确通风,并且其气流没有受到阻碍。
简短回答:这在设计良好的硬件上应该是安全的。
长答案:GPU(及其软件环境:驱动程序、操作系统、守护程序)旨在防止过热 - GPU 应首先将风扇调至更高的 RPM,如果不能保持安全温度,则 GPU 会节流工作量(通常通过降低时钟频率)。这将确保不会损坏 GPU 的热量配置文件,因此不会损坏 PC(或房间)。
警告:存在廉价的仿制显卡,其固件专门设计为牺牲安全性以换取性能。虽然我认为 1050 不存在这些,但我不是 100% 确定。您还应该更喜欢从他们的网站下载的 Nvidia 驱动程序,而不是“优化的”供应商驱动程序,后者可能会做同样的事情。
房屋着火的可能性极低,但卡的使用寿命可能会缩短。
GPU 芯片长期过热可能不会引起火灾。芯片可能会变质并开始出现异常或完全损坏,但硅芯片并不太易燃。当电解电容器发生故障和爆炸时,通常会发生坏事,但这些不会因为卡正在做大量的嘎吱嘎吱声而过热,你也希望有一个金属 PC 机箱来容纳此类故障导致的热弹片.
但是,消费级部件通常并非为长期 24/7 负载而设计。因此,与未承受此类负载相比,该卡很可能会更快失效。如果没有关于给定模型的更多统计数据,很难说要早多少。HPC 社区中的一些人提倡使用高端游戏 GPU 而不是特殊的 HPC 计算部件,这似乎有一些经济意义。尽管商品零件会在一年左右的时间内失效,但继续更换它们会更便宜,因为它们比替代品便宜很多倍
是的,如果卡处于恒定负载下,它可能会更快磨损。在小几何形状中,电迁移是器件故障的重要来源,并且器件通常在设计时会考虑特定的目标寿命。这对于典型的操作(例如 5 年连续操作)可能是慷慨的,但可能不会假设所有时间都处于 100% 的最大操作点。一旦开始超频,您就可以预期该目标会显着降低。(同样,由于这种故障机制,仅以 80% 的负载运行可能会使寿命翻倍)。
当然还有其他与运行组件热或热循环有关的故障,这只是为了指出现代电子产品(甚至 1980 年代设计不当的电子产品)可能容易“磨损”。
如果您的冷却系统工作正常,并且您的硬件是任何一种甚至是模糊的现代设计,包括片上温度监控和热节流/暂停/关闭,那么它是完全安全的。只要冷却器继续运行,它就不会过热,如果失败,芯片将节流,直到它们产生的热量不再超过被动消散的热量(这可能意味着必须完全暂停,看起来像挂起/碰撞)。
最坏的情况是,如果节流没有足够快和足够大地启动以补偿累积的热负载,芯片的某些部分可能最终熔化或烧毁,你最终会得到一块死板,但到那时节流电路应该已经完全紧急关闭,甚至可能使电源轨上的(临时或永久)保险丝跳闸,以防止整个输入电压在芯片上随机发生任何失控倾倒和实际火灾。
值得庆幸的是,PC 平台在 10 到 15 年前就解决了这种热保护系统中的大部分问题,此前一些中代 PIII 和 Athlon 的小丑闻证明完全能够完全自行吸烟(因此存在火灾风险)如果冷却器在 CPU 全速运行时出现故障或掉落。一代芯片之后,可以很容易地证明,如果您在重基准测试中撕下散热器和风扇,超频的高端处理器几乎不会超过散热器表面的最大额定温度……计算机慢到爬行甚至遭受“致命”(对软件而言;硬件只需要更换 HSF 并重新启动)崩溃,但芯片幸存下来并且没有出现风险。希望任何称职的 GPU 制造商都不是
然而,这并不能使这种处理对芯片上的晶体管完全“安全”。使用 GPU 的重量级“数字运算”(比特币?蛋白质折叠?)现在是一种相当臭名昭著的磨损硅的方式。高压和电流的结合,每秒数十亿次的连续开关,加上持续的高温,对元件造成了很大的压力,包括芯片和电容器等支撑部件,因此它们的使用寿命在某些情况下可能会缩短到仅仅两年。案件,至少在全速。如果降额(最大时钟速度限制等)并且用于要求不高的目的,例如去年的游戏,它们可以运行更长的时间,但是一旦它们开始以最大速度出错,它们就会借用时间。
所以它不会着火,但我不会相信这张卡在那次工作中过了三岁生日仍然可靠......
正如您所提到的,通风良好,因此无需担心这个风险因素。
说到 GPU,它会比日常办公室工作更坚固,每天工作 8-16 小时,因此在 100% 24/7/365 上使用时,它不太可能工作 5-10 年,并且更多的。但您还必须考虑到 GPU 可能有 GPU 本身(不是 PC 整体)的冷却系统设计不佳、整体设计不佳、软件和固件错误、生产质量不佳或严重程度不同的生产缺陷和缺陷率——从单一实例缺陷到大量缺陷。这些因素会使发热更严重,导致系统故障,寿命缩短,短路甚至可能引起火灾或使您触电。有些因素取决于型号和版本,有些会随着软件/固件更新逐渐修复,有些因单个项目而异。最好选择经过适当修订(通常是最新版本)且具有可靠声誉的模型。此外,它可能会产生不良影响并严重干扰其他组件,例如,通过产生额外的电气/电子信号噪声。另外,不要忘记这样一个事实,即导热膏会逐渐失去其品质并使冷却效果变差。
必须提一下,显卡并不是唯一要考虑的组件,因为 PC 是一个复杂的系统,它的成功工作取决于多个组件的状态。每一个小的,即使是不必要和未使用的坏组件,甚至是软盘驱动器或一些装饰灯都可能使 PC 崩溃或导致与 GPU 提到的问题类似的问题。例如,错误的开/关按钮可能会导致关机或重启。现在更深入地了解关键组件:
专业企业 24/7/365 系统和组件为此设计得更好,所有组件都有储备,甚至 CPU 和 BIOS,并具有组件或模块的热更换功能,但即使它们也没有 100% 的正常运行时间(关闭,但不相等),专业的 Nvidia 卡对于 CUDA(尤其是神经网络)更快,但我认为这不是您的用例。
组装系统的重要性不亚于组件本身。不要忘记任何单一的操作,不要犯错,不要让 PC 变得愚蠢,一切都必须很好。
确保没有软件会强行关闭、重启 PC 或终止进程。如果您是 Win10 用户,您可能会认为没有办法完全禁用更新,但网上有解决方法和软件(警告:它可能违反 EULA)。
外围设备也可能导致问题,例如 PC 的组件。例如,一个坏的或磨损的鼠标可以在没有按下时注册一个按钮按下。
关于主要外部情况:
总结:没有可靠的保证一切都会好起来(从字面上看,只有死亡是有保证的),无论如何你必须接受风险(它们永远不会等于零),但要选择好组件,正确组装而不是运气不好购买有缺陷的组件可以让您以较低的风险使用 PC,这是问题作者最初假设的,除非您打算年复一年地这样做,并期望 5 年、10 年或更长时间的可靠性。
是的。它实际上比将它用于预期目的更安全,即偶尔玩游戏。
(电子设备的)最大磨损来自温度变化引起的机械应力。组件以不同的速率升温,它们的热膨胀系数不同,因此每次升温、冷却循环都会产生试图撕裂卡的力,通常会导致微损坏累积并最终导致故障。不要惊慌,这应该需要几十年的时间。(与臭名昭著的 2006 年 nVidia 笔记本电脑 GPU 不同,后者使用了错误的焊料,因此故障发生得很快,足以在组件的使用寿命内引起注意)
如果您开始计算并保持恒定速率,它实际上对卡的压力较小,因为它预热然后停留在那里,没有热循环。
唯一会增加磨损的部件是风扇,它们通常很容易更换。
至于您对实际 100% 利用率的计划 - 100% 是低效的。从加密矿工教给我们的教训中吸取教训:当您降低卡的时钟频率和电压时,触发器下降,但消耗的功率下降得更多。您将获得更高的每瓦性能。甚至更好的使用寿命。