AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1433515
Accepted
Klangen
Klangen
Asked: 2019-05-07 01:04:45 +0800 CST2019-05-07 01:04:45 +0800 CST 2019-05-07 01:04:45 +0800 CST

É seguro manter a GPU em 100% de utilização por muito tempo?

  • 772

No momento, estou processando números usando CUDA em minha GPU, uma NVIDIA GeForce GTX 1050 Ti. Essas operações geralmente levam meses para serem concluídas e, durante esse período, deixo meu PC ligado 24 horas por dia, 7 dias por semana.

Fazer isso é seguro? Estou arriscando um possível superaquecimento da minha placa de vídeo que pode resultar em (na pior das hipóteses) um incêndio em casa?


Observe que o PC está corretamente ventilado e não há obstrução ao seu fluxo de ar.

hardware-failure gpu
  • 6 6 respostas
  • 49417 Views

6 respostas

  • Voted
  1. Best Answer
    Eugen Rieck
    2019-05-07T01:14:26+08:002019-05-07T01:14:26+08:00

    Resposta curta: isso deve ser seguro em hardware bem projetado.

    Resposta longa: A GPU (e seu ambiente de software: drivers, sistema operacional, daemons) são projetados para proteger contra superaquecimento - a GPU deve primeiro girar os ventiladores para um RPM mais alto, se isso não puder manter uma temperatura segura, a GPU acelera o carga de trabalho (geralmente reduzindo a frequência do clock). Isso garantirá um perfil de calor que não danificará a GPU e, portanto, não danificará o PC (ou a sala).

    Advertência: existem placas gráficas falsificadas baratas, nas quais o firmware é projetado especificamente para sacrificar a segurança pelo desempenho. Embora eu não ache que existam para um 1050, não tenho 100% de certeza. Você também deve preferir os drivers Nvidia baixados de seu site em vez de drivers de fornecedores "otimizados", que podem fazer a mesma coisa.

    • 59
  2. TooTea
    2019-05-07T01:55:41+08:002019-05-07T01:55:41+08:00

    Um incêndio em casa é extremamente improvável, mas a vida útil do cartão pode ser reduzida.

    O superaquecimento de longo prazo do chip da GPU provavelmente não iniciará um incêndio. O chip pode se deteriorar e começar a se comportar mal ou morrer completamente, mas os chips de silício não são muito inflamáveis. Coisas ruins geralmente acontecem quando os capacitores eletrolíticos falham e explodem, mas eles não estarão sujeitos a superaquecimento apenas porque o cartão está sendo muito triturado e você também tem uma caixa de metal para conter os estilhaços quentes que resultam de tais falhas .

    No entanto, as peças de nível de consumo geralmente não são projetadas para cargas de longo prazo 24 horas por dia, 7 dias por semana. Portanto, é bastante provável que o cartão morra mais cedo do que se não estivesse sujeito a tais cargas. É difícil dizer quanto antes sem ter mais algumas estatísticas sobre um determinado modelo. Algumas pessoas na comunidade HPC defendem o uso de GPUs de jogos de ponta em vez de peças especiais de computação HPC, e parece haver algum sentido econômico nisso. Embora as peças de commodities morram em um ano ou mais, é mais barato continuar substituindo-as porque são muitas vezes mais baratas do que as alternativas

    • 11
  3. Sean Houlihane
    2019-05-08T00:35:43+08:002019-05-08T00:35:43+08:00

    Sim, é provável que o cartão se desgaste mais cedo se estiver sob carga constante. Em geometrias pequenas, a eletromigração é uma fonte significativa de falhas do dispositivo, e os dispositivos normalmente serão projetados com uma vida útil específica em mente. Isso pode ser generoso para operação típica (por exemplo, 5 anos de operação contínua), mas pode não assumir 100% do ponto máximo de operação durante todo esse tempo. Assim que você começar a fazer overclock, pode esperar que essa meta seja reduzida significativamente. (Da mesma forma, rodar com apenas 80% de carga talvez dobrasse a vida útil devido a esse mecanismo de falha).

    É claro que existem outras falhas relacionadas ao funcionamento de componentes quentes ou ciclos térmicos, isso é apenas para apontar que a eletrônica moderna (e mesmo a eletrônica dos anos 80 quando mal projetada) pode ser suscetível ao 'desgaste'.

    • 7
  4. tahrey
    2019-05-08T10:57:05+08:002019-05-08T10:57:05+08:00

    Se o seu sistema de resfriamento funcionar bem e seu hardware tiver qualquer tipo de design, mesmo que vagamente moderno, que inclua monitoramento de temperatura no chip e limitação/suspensão/desligamento térmico, então é totalmente seguro. Ele não pode superaquecer enquanto o cooler continuar funcionando e, se isso falhar, os chips serão desacelerados até que não produzam mais calor do que pode ser dissipado passivamente (o que pode significar ter que suspender completamente, parecendo um travamento /batida).

    Na pior das hipóteses, se o estrangulamento não for rápido e forte o suficiente para compensar a carga térmica acumulada, alguma parte do chip pode acabar derretendo ou queimando, e você acabará com uma placa morta, mas nesse ponto o circuito de estrangulamento deve ter entrado em desligamento de emergência completo, talvez até disparando um fusível (temporário ou permanente) no barramento de energia, evitando qualquer tipo de descarga descontrolada de toda a tensão de entrada aleatoriamente na matriz e um incêndio real.

    Felizmente, a plataforma de PC resolveu a maioria dos problemas desse tipo de sistema de proteção térmica 10 a 15 anos atrás, após o pequeno escândalo de alguns PIIIs e Athlons de geração intermediária se mostrando totalmente capazes de fumar completamente (e, portanto, um risco de incêndio) se o cooler falhou ou caiu enquanto a CPU estava funcionando a todo vapor. Uma geração de chips depois e poderia ser facilmente demonstrado que um processador de ponta com overclock mal excedia a temperatura máxima nominal na superfície do dissipador de calor se você rasgasse o dissipador de calor e o ventilador bem no meio de um benchmark pesado... o computador desacelerou ou até sofreu uma falha "fatal" (para o software; o hardware só precisava do HSF substituído e reinicializado), mas os chips sobreviveram e nenhum risco surgiu. Espero que qualquer fabricante de GPU que se preze não seja

    No entanto, isso não torna esse tipo de tratamento totalmente "seguro" para os transistores do chip. A "análise numérica" ​​pesada (Bitcoin? Dobragem de proteínas?) Usando GPUs é agora uma maneira bastante infame de literalmente desgastar o silício. A combinação de alta tensão e corrente, comutação contínua bilhões de vezes por segundo, além de altas temperaturas sustentadas, estressam bastante os componentes, tanto os chips quanto as peças de suporte como capacitores, de modo que sua vida operacional pode ser reduzida para apenas dois anos em alguns casos, pelo menos a toda velocidade. Eles podem então rodar um pouco mais se forem reduzidos (velocidade máxima do clock limitada etc.)

    Portanto, não vai pegar fogo, mas eu não apostaria que o cartão ainda seria confiável depois de seu terceiro aniversário naquele emprego...

    • 4
  5. bpalij
    2019-05-09T00:59:38+08:002019-05-09T00:59:38+08:00

    Como você mencionou, a ventilação é boa, então não precisa se preocupar com esse fator de risco.

    Falando sobre a GPU, ela será mais desgastada do que no trabalho normal de escritório por 8 a 16 horas por dia ; mais. Mas você também deve considerar que a GPU pode ter um design ruim do sistema de refrigeração da própria GPU (não um PC em geral), um design geral ruim, bugs de software e firmware, qualidade de produção ruim ou defeito(s) de produção com gravidade diferente e taxa de defeitos - de defeitos de instância única a defeitos maciços. Esses fatores podem piorar o aquecimento, causar falha no sistema, redução da vida útil, curto-circuito ou até mesmocausar um incêndio ou causar um choque elétrico. Alguns fatores dependem do modelo e da revisão, alguns vão sendo gradativamente corrigidos com as atualizações de software/firmware, alguns variam de um item para outro. Melhor escolher modelos com reputação de confiabilidade comprovada com uma revisão adequada (geralmente a mais recente possível). Além disso, pode ter uma má influência e interferir mal nos outros componentes, por exemplo, gerando ruído extra de sinal elétrico/eletrônico. Além disso, não se esqueça do fato de que a pasta térmica pode gradualmente perder suas qualidades e piorar o resfriamento.

    Devo mencionar que a placa gráfica não é o único componente a ser considerado, porque um PC é um sistema complexo e seu bom funcionamento depende do estado de vários componentes. Cada pequeno componente ruim, mesmo que desnecessário e sem uso, até mesmo a unidade de disquete ou algumas luzes decorativas podem quebrar o PC ou causar problemas próximos aos mencionados sobre a GPU. Por exemplo, um botão liga/desliga ruim pode causar desligamento ou reinicialização. E agora mais aprofundados sobre os principais componentes:

    • CPU: no seu caso de uso, é provável que não seja usado com mais força do que durante o uso diário normal e é provável que você absolutamente não precise fazer overclock. Atualmente, as CPUs apresentam todos os mecanismos de defesa, como limitação e desligamento de emergência, e são consideradas bastante duráveis. Só não se esqueça do cooler e da pasta térmica e é muito improvável que seja o ponto mais fraco do sistema.
    • Motherboard: quase a mesma da CPU, mas há uso pesado de PCI-e e talvez uso pesado de discos, rede e periféricos, mas é melhor escolher modelos comprovados.
    • RAM: É extremamente improvável que quebre, então não vale a pena se preocupar com esse risco. Basta usar um bom.
    • Discos: nas tarefas que dependem do uso do disco (como mineração de dados, processamento de dados, aprendizado de uma rede neural com os dados no disco) o HDD pode se tornar um ponto fraco na confiabilidade - em servidores e data centers é bastante comum alterar um disco em 1-3 anos e muito raramente "vivem" 5 anos ou mais. Você pode usar RAID 1 e sistemas de backup para aumentar a confiabilidade no uso 24 horas por dia, 7 dias por semana, 365 dias por ano (o RAID 0 sacrifica a confiabilidade pelo desempenho, outros RAIDs podem levar muito tempo para restaurar os dados. backups, se necessário). Ao usar o SSD, as operações pesadas na gravação do disco podem drenar o limite de terabytes gravados e tornar o disco inútil - prefira o TBW a outros recursos. O RAID 1 com SSDs pode defender o sistema contra falhas repentinas de um disco, mas não ajuda na taxa de TBW. HDD ou SSD - depende de suas necessidades, orçamento e escolha. Melhor escolher modelos com reputação de confiabilidade comprovada com uma revisão adequada (geralmente a mais recente possível).
    • Bloco de energia: é muito usado por uma placa gráfica e, portanto, usado com mais intensidade - então é melhor escolher modelos com reputação de confiabilidade comprovada com uma revisão adequada (geralmente a mais recente possível) e a energia pelo menos 1,5x mais que o consumo geral do sistema ou pelo menos 2x-2,5x mais, do que os principais consumidores de energia (como GPU e CPU). Certifique-se de usar um bom cabo de 220 V CA, porque os cabos de 220 V CA ruins podem causar curto-circuito, choque elétrico ou queimadura (pode apenas fazer fumaça e se autodestruir ou iniciar um incêndio real)!
    • Ventiladores: embora possam parecer insignificantes, eles são cruciais nesses casos de uso e sua falha é um grande problema para sistemas 24/7/365. Geralmente, instale o máximo que puder, mas também considere o tamanho - os maiores são mais silenciosos e eficazes, enquanto os menores em alguns casos podem ser instalados em uma quantidade maior, portanto, a falha de um único ventilador será menos dolorosa para o sistema - a escolha é sua.
    • Sistemas de resfriamento exóticos: o resfriamento a água é considerado compacto e eficaz em sistemas com overclock de alto aquecimento, mas o vazamento de água pode causar sérios danos aos componentes do PC. Os sistemas de nitrogênio congelado são extremamente eficazes, mas provavelmente não são necessários, mas são mais volumosos e caros.

    Os sistemas e componentes empresariais profissionais 24 horas por dia, 7 dias por semana, 365 dias por ano são mais bem projetados para isso e têm uma reserva em todos os componentes, até mesmo CPUs e BIOS, e apresentam substituição a quente de componentes ou módulos, mas mesmo eles não apresentam 100% de tempo de atividade (fechar , mas não iguais), as placas Nvidia profissionais são mais rápidas para CUDA (especialmente redes neurais), mas não acho que seja o seu caso de uso.

    A montagem do sistema não é menos importante do que os próprios componentes. Não se esqueça de nenhuma ação, não faça algo errado, não faça um PC como um estúpido e tudo deve ficar bem.

    Certifique-se de que nenhum software será forçado a desligar, reiniciar o PC ou encerrar o processo. Se você é um usuário do Win10, pode pensar que não há como desabilitar totalmente as atualizações, mas existem soluções alternativas e softwares na Web para isso (Aviso: pode violar o EULA).

    Os periféricos também podem causar problemas, como os componentes do PC. Por exemplo, um mouse ruim ou gasto pode registrar o pressionamento de um botão quando não há pressionamento.

    Sobre as principais circunstâncias externas:

    • Eletricidade: Espero que a eletricidade da sua casa seja muito confiável e estável, porque desligar a eletricidade pode fazer você perder os resultados do seu trabalho. Com problemas elétricos de curta duração, o UPS pode ajudá-lo, mas com problemas mais prolongados, ele pode lhe dar apenas tempo para hibernar o sistema ou salvar seu progresso corretamente.
    • Rede: se sua tarefa depende da Internet ou conexão de rede, verifique se os fios/modem/roteador estão ok.

    Resumindo: Não há garantia sólida de que tudo ficará bem (literalmente, só a morte é garantida) e de qualquer forma você deve aceitar os riscos (eles nunca serão iguais a zero), mas tendo uma boa escolha de componentes, montagem adequada e não ter má sorte na compra de componentes defeituosos permite que você use o PC dessa forma com menor risco, então o autor da pergunta assumiu inicialmente, a menos que você vá fazer isso por anos e anos e espere confiabilidade por 5, 10 e mais anos.

    • 2
  6. Agent_L
    2019-05-09T10:26:21+08:002019-05-09T10:26:21+08:00

    É seguro manter a GPU em 100% de utilização por muito tempo?

    Sim. Na verdade, é mais seguro do que usá-lo para o propósito pretendido, ou seja, jogar um jogo de vez em quando.

    O maior desgaste (dos componentes eletrônicos) vem do estresse mecânico causado pela mudança de temperatura. Os componentes aquecem em taxas diferentes, seus coeficientes de expansão térmica são diferentes, portanto, cada ciclo de aquecimento e resfriamento resulta em forças que tentam rasgar o cartão, geralmente resultando em microdanos que se acumulam e podem levar à falha. Não se assuste, é suposto levar décadas. (Ao contrário das infames GPUs de laptop nVidia de 2006 que usavam solda errada, então as falhas ocorreram em breve para serem perceptíveis durante a vida útil do componente)

    Se você iniciar sua computação e mantê-los em taxa constante, é realmente menos estressante para o cartão, pois ele aquece e permanece lá, sem os ciclos térmicos.

    As únicas peças que terão maior desgaste são os ventiladores, que geralmente são fáceis de substituir.

    Quanto ao seu plano de utilização real de 100% - 100% é ineficiente. Aprenda com a lição que os criptomineradores nos ensinaram: conforme você faz underclock e undervolt da placa, os flops diminuem, mas a energia consumida diminui ainda mais. Você obterá mais desempenho por watt. E vida útil ainda melhor.

    • 0

relate perguntas

  • Ubuntu controla a velocidade do ventilador em várias GPUs Nvidia

  • As pistas PCIe são atribuídas dinamicamente?

  • A instalação do Windows 10 é desativada aleatoriamente, mas o Ubuntu funciona bem até eu usar stress -c 8

  • Erro de barramento encontrado ao tentar executar o código em CUDA

  • Usar o gerenciador de recuperação HP para executar uma recuperação de imagem de fábrica é o mesmo que uma formatação totalmente limpa?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    Serviço do Windows 10 chamado AarSvc_70f961. O que é e como posso desativá-lo?

    • 2 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Marko Smith

    ssl.SSLCertVerificationError: falha na verificação do certificado [SSL: CERTIFICATE_VERIFY_FAILED]: não foi possível obter o certificado do emissor local (_ssl.c:1056)

    • 4 respostas
  • Marko Smith

    Como posso saber em qual unidade o Windows está instalado?

    • 6 respostas
  • Martin Hope
    Albin Como faço para ativar o WindowsXP agora que o suporte acabou? 2019-11-18 03:50:17 +0800 CST
  • Martin Hope
    fixer1234 O "HTTPS Everywhere" ainda é relevante? 2019-10-27 18:06:25 +0800 CST
  • Martin Hope
    Kagaratsch O Windows 10 exclui muitos arquivos minúsculos muito lentamente. Algo pode ser feito para agilizar? 2019-09-23 06:05:43 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    Inter Sys Como Ctrl+C e Ctrl+V funcionam? 2019-05-15 02:51:21 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve