No momento, estou processando números usando CUDA em minha GPU, uma NVIDIA GeForce GTX 1050 Ti. Essas operações geralmente levam meses para serem concluídas e, durante esse período, deixo meu PC ligado 24 horas por dia, 7 dias por semana.
Fazer isso é seguro? Estou arriscando um possível superaquecimento da minha placa de vídeo que pode resultar em (na pior das hipóteses) um incêndio em casa?
Observe que o PC está corretamente ventilado e não há obstrução ao seu fluxo de ar.
Resposta curta: isso deve ser seguro em hardware bem projetado.
Resposta longa: A GPU (e seu ambiente de software: drivers, sistema operacional, daemons) são projetados para proteger contra superaquecimento - a GPU deve primeiro girar os ventiladores para um RPM mais alto, se isso não puder manter uma temperatura segura, a GPU acelera o carga de trabalho (geralmente reduzindo a frequência do clock). Isso garantirá um perfil de calor que não danificará a GPU e, portanto, não danificará o PC (ou a sala).
Advertência: existem placas gráficas falsificadas baratas, nas quais o firmware é projetado especificamente para sacrificar a segurança pelo desempenho. Embora eu não ache que existam para um 1050, não tenho 100% de certeza. Você também deve preferir os drivers Nvidia baixados de seu site em vez de drivers de fornecedores "otimizados", que podem fazer a mesma coisa.
Um incêndio em casa é extremamente improvável, mas a vida útil do cartão pode ser reduzida.
O superaquecimento de longo prazo do chip da GPU provavelmente não iniciará um incêndio. O chip pode se deteriorar e começar a se comportar mal ou morrer completamente, mas os chips de silício não são muito inflamáveis. Coisas ruins geralmente acontecem quando os capacitores eletrolíticos falham e explodem, mas eles não estarão sujeitos a superaquecimento apenas porque o cartão está sendo muito triturado e você também tem uma caixa de metal para conter os estilhaços quentes que resultam de tais falhas .
No entanto, as peças de nível de consumo geralmente não são projetadas para cargas de longo prazo 24 horas por dia, 7 dias por semana. Portanto, é bastante provável que o cartão morra mais cedo do que se não estivesse sujeito a tais cargas. É difícil dizer quanto antes sem ter mais algumas estatísticas sobre um determinado modelo. Algumas pessoas na comunidade HPC defendem o uso de GPUs de jogos de ponta em vez de peças especiais de computação HPC, e parece haver algum sentido econômico nisso. Embora as peças de commodities morram em um ano ou mais, é mais barato continuar substituindo-as porque são muitas vezes mais baratas do que as alternativas
Sim, é provável que o cartão se desgaste mais cedo se estiver sob carga constante. Em geometrias pequenas, a eletromigração é uma fonte significativa de falhas do dispositivo, e os dispositivos normalmente serão projetados com uma vida útil específica em mente. Isso pode ser generoso para operação típica (por exemplo, 5 anos de operação contínua), mas pode não assumir 100% do ponto máximo de operação durante todo esse tempo. Assim que você começar a fazer overclock, pode esperar que essa meta seja reduzida significativamente. (Da mesma forma, rodar com apenas 80% de carga talvez dobrasse a vida útil devido a esse mecanismo de falha).
É claro que existem outras falhas relacionadas ao funcionamento de componentes quentes ou ciclos térmicos, isso é apenas para apontar que a eletrônica moderna (e mesmo a eletrônica dos anos 80 quando mal projetada) pode ser suscetível ao 'desgaste'.
Se o seu sistema de resfriamento funcionar bem e seu hardware tiver qualquer tipo de design, mesmo que vagamente moderno, que inclua monitoramento de temperatura no chip e limitação/suspensão/desligamento térmico, então é totalmente seguro. Ele não pode superaquecer enquanto o cooler continuar funcionando e, se isso falhar, os chips serão desacelerados até que não produzam mais calor do que pode ser dissipado passivamente (o que pode significar ter que suspender completamente, parecendo um travamento /batida).
Na pior das hipóteses, se o estrangulamento não for rápido e forte o suficiente para compensar a carga térmica acumulada, alguma parte do chip pode acabar derretendo ou queimando, e você acabará com uma placa morta, mas nesse ponto o circuito de estrangulamento deve ter entrado em desligamento de emergência completo, talvez até disparando um fusível (temporário ou permanente) no barramento de energia, evitando qualquer tipo de descarga descontrolada de toda a tensão de entrada aleatoriamente na matriz e um incêndio real.
Felizmente, a plataforma de PC resolveu a maioria dos problemas desse tipo de sistema de proteção térmica 10 a 15 anos atrás, após o pequeno escândalo de alguns PIIIs e Athlons de geração intermediária se mostrando totalmente capazes de fumar completamente (e, portanto, um risco de incêndio) se o cooler falhou ou caiu enquanto a CPU estava funcionando a todo vapor. Uma geração de chips depois e poderia ser facilmente demonstrado que um processador de ponta com overclock mal excedia a temperatura máxima nominal na superfície do dissipador de calor se você rasgasse o dissipador de calor e o ventilador bem no meio de um benchmark pesado... o computador desacelerou ou até sofreu uma falha "fatal" (para o software; o hardware só precisava do HSF substituído e reinicializado), mas os chips sobreviveram e nenhum risco surgiu. Espero que qualquer fabricante de GPU que se preze não seja
No entanto, isso não torna esse tipo de tratamento totalmente "seguro" para os transistores do chip. A "análise numérica" pesada (Bitcoin? Dobragem de proteínas?) Usando GPUs é agora uma maneira bastante infame de literalmente desgastar o silício. A combinação de alta tensão e corrente, comutação contínua bilhões de vezes por segundo, além de altas temperaturas sustentadas, estressam bastante os componentes, tanto os chips quanto as peças de suporte como capacitores, de modo que sua vida operacional pode ser reduzida para apenas dois anos em alguns casos, pelo menos a toda velocidade. Eles podem então rodar um pouco mais se forem reduzidos (velocidade máxima do clock limitada etc.)
Portanto, não vai pegar fogo, mas eu não apostaria que o cartão ainda seria confiável depois de seu terceiro aniversário naquele emprego...
Como você mencionou, a ventilação é boa, então não precisa se preocupar com esse fator de risco.
Falando sobre a GPU, ela será mais desgastada do que no trabalho normal de escritório por 8 a 16 horas por dia ; mais. Mas você também deve considerar que a GPU pode ter um design ruim do sistema de refrigeração da própria GPU (não um PC em geral), um design geral ruim, bugs de software e firmware, qualidade de produção ruim ou defeito(s) de produção com gravidade diferente e taxa de defeitos - de defeitos de instância única a defeitos maciços. Esses fatores podem piorar o aquecimento, causar falha no sistema, redução da vida útil, curto-circuito ou até mesmocausar um incêndio ou causar um choque elétrico. Alguns fatores dependem do modelo e da revisão, alguns vão sendo gradativamente corrigidos com as atualizações de software/firmware, alguns variam de um item para outro. Melhor escolher modelos com reputação de confiabilidade comprovada com uma revisão adequada (geralmente a mais recente possível). Além disso, pode ter uma má influência e interferir mal nos outros componentes, por exemplo, gerando ruído extra de sinal elétrico/eletrônico. Além disso, não se esqueça do fato de que a pasta térmica pode gradualmente perder suas qualidades e piorar o resfriamento.
Devo mencionar que a placa gráfica não é o único componente a ser considerado, porque um PC é um sistema complexo e seu bom funcionamento depende do estado de vários componentes. Cada pequeno componente ruim, mesmo que desnecessário e sem uso, até mesmo a unidade de disquete ou algumas luzes decorativas podem quebrar o PC ou causar problemas próximos aos mencionados sobre a GPU. Por exemplo, um botão liga/desliga ruim pode causar desligamento ou reinicialização. E agora mais aprofundados sobre os principais componentes:
Os sistemas e componentes empresariais profissionais 24 horas por dia, 7 dias por semana, 365 dias por ano são mais bem projetados para isso e têm uma reserva em todos os componentes, até mesmo CPUs e BIOS, e apresentam substituição a quente de componentes ou módulos, mas mesmo eles não apresentam 100% de tempo de atividade (fechar , mas não iguais), as placas Nvidia profissionais são mais rápidas para CUDA (especialmente redes neurais), mas não acho que seja o seu caso de uso.
A montagem do sistema não é menos importante do que os próprios componentes. Não se esqueça de nenhuma ação, não faça algo errado, não faça um PC como um estúpido e tudo deve ficar bem.
Certifique-se de que nenhum software será forçado a desligar, reiniciar o PC ou encerrar o processo. Se você é um usuário do Win10, pode pensar que não há como desabilitar totalmente as atualizações, mas existem soluções alternativas e softwares na Web para isso (Aviso: pode violar o EULA).
Os periféricos também podem causar problemas, como os componentes do PC. Por exemplo, um mouse ruim ou gasto pode registrar o pressionamento de um botão quando não há pressionamento.
Sobre as principais circunstâncias externas:
Resumindo: Não há garantia sólida de que tudo ficará bem (literalmente, só a morte é garantida) e de qualquer forma você deve aceitar os riscos (eles nunca serão iguais a zero), mas tendo uma boa escolha de componentes, montagem adequada e não ter má sorte na compra de componentes defeituosos permite que você use o PC dessa forma com menor risco, então o autor da pergunta assumiu inicialmente, a menos que você vá fazer isso por anos e anos e espere confiabilidade por 5, 10 e mais anos.
Sim. Na verdade, é mais seguro do que usá-lo para o propósito pretendido, ou seja, jogar um jogo de vez em quando.
O maior desgaste (dos componentes eletrônicos) vem do estresse mecânico causado pela mudança de temperatura. Os componentes aquecem em taxas diferentes, seus coeficientes de expansão térmica são diferentes, portanto, cada ciclo de aquecimento e resfriamento resulta em forças que tentam rasgar o cartão, geralmente resultando em microdanos que se acumulam e podem levar à falha. Não se assuste, é suposto levar décadas. (Ao contrário das infames GPUs de laptop nVidia de 2006 que usavam solda errada, então as falhas ocorreram em breve para serem perceptíveis durante a vida útil do componente)
Se você iniciar sua computação e mantê-los em taxa constante, é realmente menos estressante para o cartão, pois ele aquece e permanece lá, sem os ciclos térmicos.
As únicas peças que terão maior desgaste são os ventiladores, que geralmente são fáceis de substituir.
Quanto ao seu plano de utilização real de 100% - 100% é ineficiente. Aprenda com a lição que os criptomineradores nos ensinaram: conforme você faz underclock e undervolt da placa, os flops diminuem, mas a energia consumida diminui ainda mais. Você obterá mais desempenho por watt. E vida útil ainda melhor.