AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1433515
Accepted
Klangen
Klangen
Asked: 2019-05-07 01:04:45 +0800 CST2019-05-07 01:04:45 +0800 CST 2019-05-07 01:04:45 +0800 CST

将 GPU 长时间保持在 100% 利用率是否安全?

  • 772

我目前正在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上使用 CUDA 执行数字运算。这些操作通常需要数月才能完成,在此期间,我的 PC 每天 24 小时不间断运行。

这样做安全吗?我是否冒着可能导致(最坏情况)房屋起火的显卡过热的风险?


请注意,PC 已正确通风,并且其气流没有受到阻碍。

hardware-failure gpu
  • 6 6 个回答
  • 49417 Views

6 个回答

  • Voted
  1. Best Answer
    Eugen Rieck
    2019-05-07T01:14:26+08:002019-05-07T01:14:26+08:00

    简短回答:这在设计良好的硬件上应该是安全的。

    长答案:GPU(及其软件环境:驱动程序、操作系统、守护程序)旨在防止过热 - GPU 应首先将风扇调至更高的 RPM,如果不能保持安全温度,则 GPU 会节流工作量(通常通过降低时钟频率)。这将确保不会损坏 GPU 的热量配置文件,因此不会损坏 PC(或房间)。

    警告:存在廉价的仿制显卡,其固件专门设计为牺牲安全性以换取性能。虽然我认为 1050 不存在这些,但我不是 100% 确定。您还应该更喜欢从他们的网站下载的 Nvidia 驱动程序,而不是“优化的”供应商驱动程序,后者可能会做同样的事情。

    • 59
  2. TooTea
    2019-05-07T01:55:41+08:002019-05-07T01:55:41+08:00

    房屋着火的可能性极低,但卡的使用寿命可能会缩短。

    GPU 芯片长期过热可能不会引起火灾。芯片可能会变质并开始出现异常或完全损坏,但硅芯片并不太易燃。当电解电容器发生故障和爆炸时,通常会发生坏事,但这些不会因为卡正在做大量的嘎吱嘎吱声而过热,你也希望有一个金属 PC 机箱来容纳此类故障导致的热弹片.

    但是,消费级部件通常并非为长期 24/7 负载而设计。因此,与未承受此类负载相比,该卡很可能会更快失效。如果没有关于给定模型的更多统计数据,很难说要早多少。HPC 社区中的一些人提倡使用高端游戏 GPU 而不是特殊的 HPC 计算部件,这似乎有一些经济意义。尽管商品零件会在一年左右的时间内失效,但继续更换它们会更便宜,因为它们比替代品便宜很多倍

    • 11
  3. Sean Houlihane
    2019-05-08T00:35:43+08:002019-05-08T00:35:43+08:00

    是的,如果卡处于恒定负载下,它可能会更快磨损。在小几何形状中,电迁移是器件故障的重要来源,并且器件通常在设计时会考虑特定的目标寿命。这对于典型的操作(例如 5 年连续操作)可能是慷慨的,但可能不会假设所有时间都处于 100% 的最大操作点。一旦开始超频,您就可以预期该目标会显着降低。(同样,由于这种故障机制,仅以 80% 的负载运行可能会使寿命翻倍)。

    当然还有其他与运行组件热或热循环有关的故障,这只是为了指出现代电子产品(甚至 1980 年代设计不当的电子产品)可能容易“磨损”。

    • 7
  4. tahrey
    2019-05-08T10:57:05+08:002019-05-08T10:57:05+08:00

    如果您的冷却系统工作正常,并且您的硬件是任何一种甚至是模糊的现代设计,包括片上温度监控和热节流/暂停/关闭,那么它是完全安全的。只要冷却器继续运行,它就不会过热,如果失败,芯片将节流,直到它们产生的热量不再超过被动消散的热量(这可能意味着必须完全暂停,看起来像挂起/碰撞)。

    最坏的情况是,如果节流没有足够快和足够大地启动以补偿累积的热负载,芯片的某些部分可能最终熔化或烧毁,你最终会得到一块死板,但到那时节流电路应该已经完全紧急关闭,甚至可能使电源轨上的(临时或永久)保险丝跳闸,以防止整个输入电压在芯片上随机发生任何失控倾倒和实际火灾。

    值得庆幸的是,PC 平台在 10 到 15 年前就解决了这种热保护系统中的大部分问题,此前一些中代 PIII 和 Athlon 的小丑闻证明完全能够完全自行吸烟(因此存在火灾风险)如果冷却器在 CPU 全速运行时出现故障或掉落。一代芯片之后,可以很容易地证明,如果您在重基准测试中撕下散热器和风扇,超频的高端处理器几乎不会超过散热器表面的最大额定温度……计算机慢到爬行甚至遭受“致命”(对软件而言;硬件只需要更换 HSF 并重新启动)崩溃,但芯片幸存下来并且没有出现风险。希望任何称职的 GPU 制造商都不是

    然而,这并不能使这种处理对芯片上的晶体管完全“安全”。使用 GPU 的重量级“数字运算”(比特币?蛋白质折叠?)现在是一种相当臭名昭著的磨损硅的方式。高压和电流的结合,每秒数十亿次的连续开关,加上持续的高温,对元件造成了很大的压力,包括芯片和电容器等支撑部件,因此它们的使用寿命在某些情况下可能会缩短到仅仅两年。案件,至少在全速。如果降额(最大时钟速度限制等)并且用于要求不高的目的,例如去年的游戏,它们可以运行更长的时间,但是一旦它们开始以最大速度出错,它们就会借用时间。

    所以它不会着火,但我不会相信这张卡在那次工作中过了三岁生日仍然可靠......

    • 4
  5. bpalij
    2019-05-09T00:59:38+08:002019-05-09T00:59:38+08:00

    正如您所提到的,通风良好,因此无需担心这个风险因素。

    说到 GPU,它会比日常办公室工作更坚固,每天工作 8-16 小时,因此在 100% 24/7/365 上使用时,它不太可能工作 5-10 年,并且更多的。但您还必须考虑到 GPU 可能有 GPU 本身(不是 PC 整体)的冷却系统设计不佳、整体设计不佳、软件和固件错误、生产质量不佳或严重程度不同的生产缺陷和缺陷率——从单一实例缺陷到大量缺陷。这些因素会使发热更严重,导致系统故障,寿命缩短,短路甚至可能引起火灾或使您触电。有些因素取决于型号和版本,有些会随着软件/固件更新逐渐修复,有些因单个项目而异。最好选择经过适当修订(通常是最新版本)且具有可靠声誉的模型。此外,它可能会产生不良影响并严重干扰其他组件,例如,通过产生额外的电气/电子信号噪声。另外,不要忘记这样一个事实,即导热膏会逐渐失去其品质并使冷却效果变差。

    必须提一下,显卡并不是唯一要考虑的组件,因为 PC 是一个复杂的系统,它的成功工作取决于多个组件的状态。每一个小的,即使是不必要和未使用的坏组件,甚至是软盘驱动器或一些装饰灯都可能使 PC 崩溃或导致与 GPU 提到的问题类似的问题。例如,错误的开/关按钮可能会导致关机或重启。现在更深入地了解关键组件:

    • CPU:在您的用例中,它的使用可能不会比普通的日常使用更难,而且您很可能绝对不需要超频它。如今,CPU 具有所有防御机制,如节流和紧急关闭,并且被认为非常耐用。只是不要忘记冷却器和导热膏,它不太可能成为系统的最薄弱点。
    • 主板:和CPU差不多,但PCI-e使用率高,可能磁盘、网络和外设使用率高,但最好选择成熟的型号。
    • RAM:它极不可能坏掉,所以这个风险不值得担心。只用一个好的。
    • 磁盘:在依赖磁盘使用的任务中(如数据挖掘、数据处理、使用磁盘上的数据学习神经网络)HDD 可能成为可靠​​性的弱点——在服务器和数据中心,更换磁盘是很常见的磁盘在 1-3 年内很少“存活”5 年或更长时间。您可以使用 RAID 1 和备份系统来提高 24/7/365 使用的可靠性(RAID 0 牺牲了性能的可靠性,其他 RAID 可能需要很多时间来恢复数据。还有 RAID != 备份,所以不要忽略备份,如果需要)。使用 SSD 时,磁盘写入繁重的操作可能会耗尽 TB 写入限制并使磁盘无用 - 与其他功能相比,更喜欢 TBW。带有SSD的RAID 1可以保护系统免受一个磁盘的突然故障,但对TBW率没有帮助。HDD 或 SSD - 取决于您的需要,预算和选择。最好选择经过适当修订(通常是最新版本)且具有可靠声誉的模型。
    • 电源块:被显卡大量使用,因此磨损更频繁 - 所以最好选择具有经过验证的可靠性声誉并进行适当修订(通常是最新的)并且功率至少比整体系统消耗高 1.5 倍或至少比主要耗电设备(如 GPU 和 CPU)多 2 到 2.5 倍。一定要使用好的220V交流线,因为220V交流线不好容易造成短路、触电或燃烧(只会冒烟自毁或着火)!
    • 呼吸机:虽然看起来微不足道,但它们在此类用例中至关重要,它们的故障对于 24/7/365 系统来说是一个大问题。一般来说,能装多少就装多少,但也要考虑尺寸——越大的越安静,效果越好,而小的在某些情况下可以装的多,这样单台呼吸机的故障对患者的痛苦会小一些。系统 - 选择权在您手中。
    • 奇特的冷却系统:水冷被认为在高温超频系统中紧凑且有效,但漏水会对 PC 的组件造成严重损坏。冷冻氮系统非常有效,但可能不是必需的,但体积更大且更昂贵。

    专业企业 24/7/365 系统和组件为此设计得更好,所有组件都有储备,甚至 CPU 和 BIOS,并具有组件或模块的热更换功能,但即使它们也没有 100% 的正常运行时间(关闭,但不相等),专业的 Nvidia 卡对于 CUDA(尤其是神经网络)更快,但我认为这不是您的用例。

    组装系统的重要性不亚于组件本身。不要忘记任何单一的操作,不要犯错,不要让 PC 变得愚蠢,一切都必须很好。

    确保没有软件会强行关闭、重启 PC 或终止进程。如果您是 Win10 用户,您可能会认为没有办法完全禁用更新,但网上有解决方法和软件(警告:它可能违反 EULA)。

    外围设备也可能导致问题,例如 PC 的组件。例如,一个坏的或磨损的鼠标可以在没有按下时注册一个按钮按下。

    关于主要外部情况:

    • 电:我希望你家的电是非常可靠和稳定的,因为断电会让你失去工作成果。对于短时间的电力问题,UPS 可以帮助您,但对于更长时间的问题,它只能让您有时间让系统休眠或正确保存您的进度。
    • 网络:如果您的任务依赖于 Internet 或网络连接,请检查电线/调制解调器/路由器是否正常。

    总结:没有可靠的保证一切都会好起来(从字面上看,只有死亡是有保证的),无论如何你必须接受风险(它们永远不会等于零),但要选择好组件,正确组装而不是运气不好购买有缺陷的组件可以让您以较低的风险使用 PC,这是问题作者最初假设的,除非您打算年复一年地这样做,并期望 5 年、10 年或更长时间的可靠性。

    • 2
  6. Agent_L
    2019-05-09T10:26:21+08:002019-05-09T10:26:21+08:00

    将 GPU 长时间保持在 100% 利用率是否安全?

    是的。它实际上比将它用于预期目的更安全,即偶尔玩游戏。

    (电子设备的)最大磨损来自温度变化引起的机械应力。组件以不同的速率升温,它们的热膨胀系数不同,因此每次升温、冷却循环都会产生试图撕裂卡的力,通常会导致微损坏累积并最终导致故障。不要惊慌,这应该需要几十年的时间。(与臭名昭著的 2006 年 nVidia 笔记本电脑 GPU 不同,后者使用了错误的焊料,因此故障发生得很快,足以在组件的使用寿命内引起注意)

    如果您开始计算并保持恒定速率,它实际上对卡的压力较小,因为它预热然后停留在那里,没有热循环。

    唯一会增加磨损的部件是风扇,它们通常很容易更换。

    至于您对实际 100% 利用率的计划 - 100% 是低效的。从加密矿工教给我们的教训中吸取教训:当您降低卡的时钟频率和电压时,触发器下降,但消耗的功率下降得更多。您将获得更高的每瓦性能。甚至更好的使用寿命。

    • 0

相关问题

  • Ubuntu 控制多个 Nvidia GPU 上的风扇速度

  • PCIe 通道是否动态分配?

  • Windows 10 安装随机关闭,但 Ubuntu 运行良好,直到我使用 stress -c 8

  • 尝试在 CUDA 中运行代码时遇到总线错误

  • 使用 HP Recovery Manager 执行出厂映像恢复与完全干净格式一样吗?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    Windows 10 服务称为 AarSvc_70f961。它是什么,我该如何禁用它?

    • 2 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Marko Smith

    ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败:无法获取本地颁发者证书 (_ssl.c:1056)

    • 4 个回答
  • Marko Smith

    我如何知道 Windows 安装在哪个驱动器上?

    • 6 个回答
  • Martin Hope
    Albin 支持结束后如何激活 WindowsXP? 2019-11-18 03:50:17 +0800 CST
  • Martin Hope
    fixer1234 “HTTPS Everywhere”仍然相关吗? 2019-10-27 18:06:25 +0800 CST
  • Martin Hope
    Kagaratsch Windows 10 删除大量小文件的速度非常慢。有什么办法可以加快速度吗? 2019-09-23 06:05:43 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    Inter Sys Ctrl+C 和 Ctrl+V 是如何工作的? 2019-05-15 02:51:21 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve