valc

Asked: 2021-11-03 21:24:01 +0800 CST

DELL R320、Xeon E5-2450 v1、Oracle Linux 8 将时钟源“tsc”标记为不稳定、负载下随机崩溃

1

我最近获得使用Dell R320，Xeon E5-2450 v1所有固件都使用 . 更新到最新版本Lifecycle controller。在启动 dmesg 报告时：

microcode: microcode updated early to revision 0x71a, date = 2020-03-24 [   12.384040] clocksource: timekeeping watchdog on CPU9: Marking clocksource 'tsc' as unstable because the skew is too large: [  
12.395572] clocksource:                       'hpet' wd_now: 3b1bb82 wd_last: 2e247ff mask: ffffffff [   12.413476] clocksource:            'tsc' cs_now: 1c62267fd4b cs_last: 1c30b8dcf7f mask: ffffffffffffffff [   12.425567] tsc: Marking TSC unstable due to clocksource watchdog [
12.431666] TSC found unstable after boot, most likely due to broken BIOS. Use 'tsc=unstable'.

然后，如果我phoronix-test-suite stress-run stress-ng在 aprox 之后运行系统。一分钟变得没有反应。

在测试期间，我看到来自网络适配器的看门狗事件：

[  705.412997] NETDEV WATCHDOG: eno1 (tg3): transmit queue 0 timed out
[  705.412997] WARNING: CPU: 9 PID: 6812 at net/sched/sch_generic.c:473 dev_watchdog+0x27d/0x281
[  705.412997] Modules linked in: xt_CHECKSUM ipt_REJECT nf_nat_tftp nft_objref nf_conntrack_tftp nft_fib_inet nft_fib_ipv4 nft_fib_ipv6 nft_fib nft_reject_inet nf_reject_ipv4 nf_reject_ipv6 nft_reject nft_ct nf_tables_set tun rfkill scsi_transport_iscsi ip_set xt_conntrack xt_multiport xt_nat xt_addrtype xt_mark xt_MASQUERADE nft_counter xt_comment nft_compat nft_chain_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 veth sunrpc iTCO_wdt intel_rapl_msr iTCO_vendor_support dcdbas intel_rapl_common sb_edac x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel vfat fat kvm irqbypass crct10dif_pclmul crc32_pclmul mgag200 ghash_clmulni_intel drm_vram_helper aesni_intel ttm crypto_simd cryptd glue_helper drm_kms_helper pcspkr drm syscopyarea sysfillrect sysimgblt fb_sys_fops lpc_ich i2c_algo_bit zfs(POE) joydev zunicode(POE) zzstd(OE) zlua(OE) mei_me zavl(POE) mei icp(POE) zcommon(POE) znvpair(POE) ipmi_ssif spl(OE) ioatdma dca ipmi_si ipmi_devintf ipmi_msghandler acpi_power_meter
[  705.412997]  sch_fq_codel ip_tables xfs libcrc32c sd_mod sg ahci libahci libata mpt3sas tg3 raid_class scsi_transport_sas wmi fuse
[  705.412997] CPU: 9 PID: 6812 Comm: stress-ng Kdump: loaded Tainted: P           OE     5.4.17-2136.300.7.el8uek.x86_64 #2
[  705.412997] Hardware name: Dell Inc. PowerEdge R320/0KM5PX, BIOS 2.4.2 01/29/2015
[  705.412997] RIP: 0010:dev_watchdog+0x27d/0x281
[  705.412997] Code: 48 85 c0 75 e6 eb a0 4c 89 e7 c6 05 9b 59 17 01 01 e8 c7 a9 fa ff 89 d9 4c 89 e6 48 c7 c7 68 3b 53 ac 48 89 c2 e8 be f1 82 ff <0f> 0b eb 82 0f 1f 44 00 00 66 2e 0f 1f 84 00 00 00 00 00 66 66 66
[  705.412997] RSP: 0000:ffffac6d003d0e50 EFLAGS: 00010282
[  705.412997] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000006
[  705.412997] RDX: 0000000000000007 RSI: 0000000000000092 RDI: ffff9e853f457d00
[  705.412997] RBP: ffffac6d003d0e80 R08: 0000000000000514 R09: 00000000ffffffff
[  705.412997] R10: 0000000000000000 R11: ffff9e851d84f3d0 R12: ffff9e850d8e4000
[  705.412997] R13: 0000000000000005 R14: ffff9e850d8e4480 R15: ffff9e8537d377c0
[  705.412997] FS:  00007fa4baba5740(0000) GS:ffff9e853f440000(0000) knlGS:0000000000000000
[  705.412997] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  705.412997] CR2: 00007f54983fad0c CR3: 0000000b99992006 CR4: 00000000000606e0
[  705.412997] Call Trace:
[  705.412997]  <IRQ>
[  705.412997]  ? pfifo_fast_enqueue+0x160/0x151
[  705.412997]  call_timer_fn+0x32/0x12c
[  705.412997]  run_timer_softirq+0x1a5/0x42e
[  705.412997]  __do_softirq+0xe1/0x2e7
[  705.412997]  ? hrtimer_interrupt+0x12a/0x222
[  705.412997]  irq_exit+0xf3/0xf8
[  705.412997]  smp_apic_timer_interrupt+0x79/0x130
[  705.412997]  apic_timer_interrupt+0xf/0x14
[  705.412997]  </IRQ>

如果我mitigations = off在启动时添加到内核命令行参数，phoronix持续 4 到 7 分钟，系统再次变得无响应。同样的事情发生在 KVM 客人身上，尝试安装Debian 115 次，在初始包安装或内核解包期间安装冻结。

冻结消息屏幕： https ://ibb.co/k2Jk4QG

有没有人有类似的问题？谢谢！

PS：当前内核5.4.17-2136.300.7.el8uek.x86_64，也尝试过4.18.0-305.19.1.el8_4.x86_64没有任何区别

Felix Jen

Asked: 2020-05-04 23:09:54 +0800 CST

Supermicro X10DRL-i 运行 GPU 压力测试时发出 4 声哔哔声

0

作为部署前的一个测试平台，我正在运行带有双 Xeon E5-2620v4 和 64GB RAM 的 Supermicro X10DRL-i。我在 16x 插槽中有一个蓝宝石 AMD Vega56。

我今天运行了一些压力测试来检查系统稳定性，我在 Win10 上遇到了 Furmark 的问题，GPU 通过并应用了轻微的超频。系统似乎运行良好，但偶尔，主板会快速连续发出 4 声哔哔声，类似于进行基于 IPMI 的重置时的哔哔声模式。

我似乎在 Windows 或 IPMI 事件日志中找不到任何错误，而且系统看起来很稳定，即使是那些哔哔声。关闭 Furmark 压力测试阻止了那些哔哔声的发生，但它甚至可能导致类似的事情似乎很奇怪。

任何人有任何见解？

B.J.Goodman

Asked: 2017-06-16 07:33:33 +0800 CST

VMFleet Diskspd 脚本在输出中显示零。

7

简短地说，我决定对我全新的 4 节点 S2D 集群进行压力测试。

我从 IOMeter 开始并得到了初步结果（不同模式下的最大 IOPS/吞吐量）。然后我认为找到可以模拟实际生产工作负载的 IOmeter 配置是个好主意。遗憾的是，我没有发现任何对 IOmeter 有用的东西，但发现了名为VMFleet的精美 Powershell 脚本，它使用 MS Diskspd 来强调存储并模拟“引导风暴”。

我在配置过程中按照这篇博客文章来准备和配置实验室。

set-vmfleet.ps1脚本向我显示了一些错误，因此我手动复制了所有步骤。

接下来我运行start-vmfleet.ps1但似乎输出只显示零而不是实际结果。

我应该运行watch-cluster.ps1多长时间才能看到结果？有人用过 VMFleet 吗？这看起来不像预期的行为。

提前致谢！

jlb

Asked: 2017-01-21 18:30:56 +0800 CST

当您使用单台机器产生负载/压力时，会发生什么样的“精简”？

1

这个问题的标题代表了我主要关心的问题，但是如果您继续阅读问题部分之外的内容，您会发现一些关于我们设置的背景......这可能相关/有用，也可能不相关。

问题

我们正在使用Gatling对我们的应用程序进行压力测试，并在单台机器上运行 Gatling 场景。我们发现我们的应用程序能够应对压力工具产生的高负载；但是，它无法应对来自真实用户的相对较低的负载。

我的问题是：当从单台机器/操作系统向应用程序发出并发请求时，与来自多台机器的并发请求（即使用他们的网络浏览器的普通用户）相比，会发生什么样的操作系统/网络级别优化或简化？

背景

我们有一个通过 AJP 位于 Apache 后面的 Tomcat 应用程序，它本身通过端口 80 位于 Citrix Netscaler 后面（我们还计划将 Apache 排除在外，但这是另一回事..）。

我们的应用程序在相对较低的负载下（在 apache 和 tomcat 之间建立了 CLOSE_WAIT 连接）一直处于停止状态，我们正在对其进行负载测试以解决问题。在我们的 SQLServer 实例中发生的死锁非常频繁地出现，因此我们决定从那里开始。为了复制问题并随后测试我们的修复，我们使用单台机器使用 Gatling 生成负载。

刚开始时，我们能够通过使用该工具可靠地复制死锁。在我们进行一些优化之后，死锁消失了，CLOSE_WAIT 连接也消失了。然后，我们将应用程序推到我们非常满意的负载，并且它运行时没有任何重大故障。

不幸的是，当修复应用到生产系统时，我们仍然看到相同的原始行为。这让我想知道压力工具生成的负载是否不能很好地代表现实世界中实际发生的情况，因为它源自单一来源，而不是分布在互联网上的许多不同客户端。

cbll

Asked: 2017-01-21 04:12:58 +0800 CST

如何使用 stress-ng 来模拟内存使用情况？

2

我发现这个命令stress-ng -c 0 -l 60占用了 60% 的 CPU。是否有类似的命令来获取可用总内存的一定百分比？

czioutas

Asked: 2016-08-19 23:32:31 +0800 CST

如何测试 HA MySQL 数据库

-6

最近，我们一直在测试来自第 3 方提供商的 HA 数据库解决方案。我已经进行了一些压力测试以查看主从状态等的一些指标，但是我想测试实际的故障转移。

我需要一种方法来测试故障转移或其他方法来禁用主数据库，但不是从第 3 方的界面，因为我不能保证当你禁用主数据库时他们没有检查。顺便说一句，数据库 HA 解决方案在云上，因此无法访问服务器。

有什么建议么？

PS dba stackexchange 是一个更好的地方问吗？

AJN

Asked: 2016-08-12 04:13:39 +0800 CST

stress-ng：模拟特定的 cpu 百分比

11

Linux环境：Debian、Ubuntu、Centos

目标：
测试设置警报并以不同cpu百分比触发不同警报的监控程序。
例如：(30-50%)、(51-70%) 和 >90%

所以我需要一个可以模拟每个核心的特定 cpu 百分比的 cpu 压力器。
stress-mg看起来是最先进的。

根据其文档http://kernel.ubuntu.com/~cking/stress-ng/可以将负载值设置在 0 到 100% 之间：

-l P --cpu-load P 以 P % 加载 CPU，0=sleep，100=full load（见 -c）

stress-ng -c 1 -p 30

压力-ng：信息：[12650]调度猪：0 I/O-Sync，1 CPU，0 VM-mmap，0 HDD-Write，0 Fork，0 Context-switch，30 Pipe，0 Cache，0 Socket，0 Yield, 0 Fallocate, 0 Flock, 0 Affinity, 0 Timer, 0 Dentry, 0 Urandom, 0 Float, 0 Int, 0 Semaphore, 0 Open, 0 SigQueue, 0 Poll

不希望的结果：
但它似乎不起作用，所有核心都被占用 100%

任何想法如何实现这一目标？

CMPSoares

Asked: 2016-05-21 11:13:56 +0800 CST

在给定时间段之间记录和重放 HTTP 请求/帖子 (Apache)

-1

免责声明：我知道我要问的甚至不接近最佳实践，但由于非常具体的要求，我认为这可能是极少数解决方案之一。

语境：

我们希望完全复制生产环境以进行压力、负载、功能和集成测试。我们已经在生产环境 VM (RHEL6)、Apache 2.4、Tomcat 6、Java 1.6 和 MySQL 5.1 的类似版本中完成了开发所需的部署；还为基础设施的每台服务器构建和复制数据库以进行开发。现在我们希望能够复制 Apache 全天接收的请求流。为了保持请求类型的复杂分布，我们认为可以在生产环境中记录 Apache 在特定时间范围内收到的请求，并在我们的测试环境中重放它。如果可能的话，扩展该分布（例如 100 倍）或循环它。

问题是：

有什么方法可以做到这一点，最好是在 Apache 级别甚至应用程序上，知道每个环境只能与 SSH 通信（这可能不是永久性的）并且防火墙阻止它们通信，因为它们属于不同的组织（官僚是****)。但如果绝对必要，可以对最后两个进行例外处理。此外，该过程是否具有最新的复制或具有超快的过程并不重要。

那么，满足这些要求的最佳解决方案是什么？

arne.z

Asked: 2016-04-14 05:37:50 +0800 CST

衡量覆盖网络性能的正确方法

7

我目前正在检查不同 Docker 覆盖网络的性能（尤其是 UDP 吞吐量）。我通过在与 Docker 覆盖网络连接的两台主机之间创建点对点连接来做到这一点，然后iperf在 Docker 容器内运行以检查吞吐量。我注意到每次我iperf作为客户端运行以将数据发送到iperf作为服务器运行的另一个容器时，客户端主机的 CPU 使用率达到 100%。我通过运行在此处找到的以下命令得到了该结果：

top -bn1 | grep "Cpu(s)" | \
       sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | \
       awk '{print 100 - $1"%"}'

所以，在我看来，我的吞吐量测试的限制因素似乎是我的主机的 CPU 容量，因为它以 100% 的速度运行并且无法产生更多的流量来使网络连接饱和。我想知道这是否是一个iperf特定问题，所以我想使用不同的工具运行相同的测试，但不确定哪种替代方案是最好的。主机正在运行 Ubuntu。例如，我发现qperf和。uperfnetpipe

此外，更一般地说，我开始想知道吞吐量性能的瓶颈通常是什么。不总是CPU容量或链路的带宽吗？哪些是与覆盖网络没有直接关系的因素。

这是否意味着应用程序（或覆盖网络）的吞吐量仅取决于传输一定数量的数据需要多少 CPU 周期，以及它如何压缩数据以适应网络（如果这将成为瓶颈）。

pepoluan

Asked: 2012-07-01 10:12:07 +0800 CST

如何在 HP Smartarray 控制器上执行诊断（压力测试）

1

在我的办公室，我们有一台服务器，我们怀疑它的 RAID 控制器 (HP Smartarray) 出现故障。然而，冷启动并不代表任何东西。

谁能推荐一种对控制器进行压力测试的方法？

让我怀疑控制器出现故障的症状：

磁盘访问变慢，队列变长
在 XenServer 控制台上运行dmesg时，我看到许多与此类似的消息：
```
end_request: I/O error, dev tda, sector 253655584
```
（扇区号永远不会相同）
当我们将虚拟机移动到另一台物理主机时，我们不再看到上面的消息
运行空闲（没有任何正在运行的虚拟机），dmesg不再发出上述消息

在 Google 上进行的搜索表明，上述消息最常与失败的 SmartArray 控制器相关联。

我如何确定 SmartArray 控制器出现故障？

DELL R320、Xeon E5-2450 v1、Oracle Linux 8 将时钟源“tsc”标记为不稳定、负载下随机崩溃

Supermicro X10DRL-i 运行 GPU 压力测试时发出 4 声哔哔声

VMFleet Diskspd 脚本在输出中显示零。

当您使用单台机器产生负载/压力时，会发生什么样的“精简”？

问题

背景

如何使用 stress-ng 来模拟内存使用情况？

如何测试 HA MySQL 数据库

stress-ng：模拟特定的 cpu 百分比

在给定时间段之间记录和重放 HTTP 请求/帖子 (Apache)

语境：

问题是：

衡量覆盖网络性能的正确方法

如何在 HP Smartarray 控制器上执行诊断（压力测试）

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[stress-testing](server)

问题

背景

语境：

问题是：