Halfgaar提出的问题 -server

Halfgaar

Asked: 2021-01-23 06:11:51 +0800 CST

不接受来自 Linux 中路由器公告的 RDNSS

2

我有一个 Ubuntu 20.04 路由器，它使用自己的 IP 作为从路由器公告获得的 DNS 服务器，创建 DNS 循环。我不知道如何从路由器公告中忽略 RDNSS（递归 DNS 服务器）。

环形：

Jan 19 17:26:28 myrouter dnsmasq[1074014]: query[AAAA] mobile.events.data.trafficmanager.net from fe80::21b:21ff:fee0:a6b3
Jan 19 17:26:28 myrouter dnsmasq[1074014]: forwarded mobile.events.data.trafficmanager.net to 127.0.0.53
Jan 19 17:26:28 myrouter dnsmasq[1074014]: query[AAAA] mobile.events.data.trafficmanager.net from fe80::21b:21ff:fee0:a6b3
Jan 19 17:26:28 myrouter dnsmasq[1074014]: forwarded mobile.events.data.trafficmanager.net to 127.0.0.53

网络设置：

eth0 = 未使用。
eth1 = 广域网。99.99.99.162/24,2a01:xx:xx:xx::2/126
eth2 = LAN1。10.50.0.1/16,2a01:xx:xx:1337:10:50:0:1/64
更多局域网，不相关

network:
  version: 2
  renderer: networkd
  ethernets:
    eth1:
      match:
        macaddress: "00:1b:21:e0:a6:b2" <-- non-obfuscated
      set-name: eth1
      addresses:
        - 99.99.99.162/24
        - 2a01:xx:xx:xx::2/126
      gateway4: 99.99.99.161
      gateway6: 2a01:xx:xx:xx::1
      nameservers:
        addresses:
          - 33.33.33.10
          - 44.44.44.10
        search: [ company, company.nl ]
    eth2:
      match:
        macaddress: "00:1b:21:e0:a6:b3" <-- non-obfuscated; will appear as IPv6 fe80
      set-name: eth2
      addresses:
        - 10.50.0.1/16
        - 2a01:xx:xx:1337:10:50:0:1/64
      nameservers:
        addresses:
          - 33.33.33.10
          - 44.44.44.10

Dnsmasq 绑定除eth1and之外的所有内容lo。Radvdump显示重启后dnsmasq，它会发出一个路由器通告，其fe80::21b:21ff:fee0:a6b3名称为 RDNSS（递归 DNS 服务器）。我们的客户似乎没有接受它，只使用 IPv4 的。但是，路由器本身会：

Link 5 (eth2)
      Current Scopes: DNS                     
DefaultRoute setting: yes                     
       LLMNR setting: yes                     
MulticastDNS setting: no                      
  DNSOverTLS setting: no                      
      DNSSEC setting: no                      
    DNSSEC supported: no                      
  Current DNS Server: 33.33.33.10           
         DNS Servers: 44.44.44.10             
                      33.33.33.10           
                      fe80::21b:21ff:fee0:a6b3 <- appears a short while after 'netplan try'

我尝试禁用它：

net.ipv6.conf.all.accept_ra = 0
net.ipv6.conf.lo.accept_ra = 0
net.ipv6.conf.default.accept_ra = 0

但没有运气。有任何想法吗？

Halfgaar

Asked: 2020-07-22 04:38:31 +0800 CST

RAID 状态监控 HPE Smart Array E208i-p SR Gen10

2

应该不难，但我不知道如何在 Linux 中的 HP ProLiant DL360 Gen10 中使用 HPE Smart Array E208i-p SR Gen10 监控 RAID 状态。

/proc我在或中找不到文件/sys。
arcconf说：Controllers found: 0。
ssacli controller all show说：Error: No controllers detected.
与HP SSA CLI相同：Error: No controllers detected.

编辑：这有点令人困惑，因为这台服务器有两个 RAID 控制器，但到目前为止都没有工作，所以问题是一样的。

这是lspci -vE208i-p 的输出：

  11:00.0 Serial Attached SCSI controller: Adaptec Smart Storage PQI 12G SAS/PCIe 3 (rev 01)
  Subsystem: Hewlett-Packard Company Smart Array E208i-p SR Gen10
  Physical Slot: 1
  Flags: bus master, fast devsel, latency 0, IRQ 26, NUMA node 0
  Memory at e2800000 (64-bit, non-prefetchable) [size=32K]
  I/O ports at 4000 [size=256]
  Capabilities: [80] Power Management version 3
  Capabilities: [b0] MSI-X: Enable+ Count=64 Masked-
  Capabilities: [c0] Express Endpoint, MSI 00
  Capabilities: [100] Advanced Error Reporting
  Capabilities: [300] #19
  Kernel driver in use: smartpqi
  Kernel modules: smartpqi

P408i-a 的这个：

    b1:00.0 Serial Attached SCSI controller: Adaptec Smart Storage PQI 12G SAS/PCIe 3 (rev 01)
    Subsystem: Hewlett-Packard Company Smart Array P408i-a SR Gen10
    Flags: bus master, fast devsel, latency 0, IRQ 32, NUMA node 0
    Memory at f3800000 (64-bit, non-prefetchable) [size=32K]
    I/O ports at c000 [size=256]
    Capabilities: [80] Power Management version 3
    Capabilities: [b0] MSI-X: Enable+ Count=64 Masked-
    Capabilities: [c0] Express Endpoint, MSI 00
    Capabilities: [100] Advanced Error Reporting
    Capabilities: [300] #19
    Kernel driver in use: smartpqi
    Kernel modules: smartpqi

Linux 版本：

cat /etc/lsb-release 
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=18.04
DISTRIB_CODENAME=bionic
DISTRIB_DESCRIPTION="Ubuntu 18.04.4 LTS"

编辑：在稍微订购的服务器上，使用“Hewlett-Packard Company Smart Array Gen9 Controllers (rev 01) / Hewlett-Packard Company P440”，该hpssacli工具确实可以工作。

Halfgaar

Asked: 2019-12-12 10:14:34 +0800 CST

重启后服务器突然有很高的softirq cpu使用率

3

一个 48 GB RAM 的虚拟服务器维持大约 25k 的 TCP 连接（现场设备登录以建立 SSH 隧道）用完 RAM 并开始交换，速度变慢等。我们升级并重新启动。即使在 25k 连接恢复并处理了最初的 DDOS 风暴之后，服务器现在也显示出大量的软中断使用。我如何找到原因？

在这里你可以看到事件：

令人惊讶的是，过去没有很多软中断。现在，有 8 个内核线程在处理大约 60% 的 CPU（ksoftirqd线程）。

查看 Munin 图表，我看到的中断PCI-MSI 49153-edge virtio0-input.0增加了很多（注意 log y 标度）：

机器必须处理的网络流量并没有真正改变。

我写了一个快速的 python 脚本，它显示每秒的中断，从/proc/interruptsfrom 开始PCI-MSI 49153-edge virtio0-input.0，它主要是每秒 50-100 次，但每隔一段时间，就会有 5000 到 10000 次爆发。

因为在升级过程中，VM主机的控制面板提示需要将VM迁移到另一台服务器。我推测该服务器具有不同的以太网控制器，不同的模拟中断控制器或其他任何东西，但他们甚至将虚拟机迁移回来，并且没有区别。

另一个区别是 VM 从vmlinuz-4.15.0-45-generic到/boot/vmlinuz-4.15.0-72-generic. 随着最近所有的英特尔 CPU 补丁，我可以想象有什么东西偷偷溜进去了。

最大的问题是，我如何找到根本原因，或者获取更多信息这些中断来自何处？将服务器重新启动到旧内核是可能的，但不可取。

Halfgaar

Asked: 2018-12-03 03:24:54 +0800 CST

SPF 和 DMARC - 是否使用了 spf 政策？

2

我了解 SPF 如何与 DMARC 对齐有关，但有一件事我不清楚： DMARC 中是否使用了 SPF 策略（-all或~all）？还是 DMARC 仅使用 IP 范围？

问题是，众所周知，SPF 会中断转发。DKIM 在转发方面要好得多。那么，既然我已经实施了 DKIM+DMARC，我可以放宽我的 SPF 政策，因为 DMARC 会负责检查 SPF 对齐吗？

Halfgaar

Asked: 2017-10-17 05:40:29 +0800 CST

服务器腐蚀、空调和气候控制

10

我们不幸地发现我们办公室服务器机房中的服务器正在生锈。这在第一个失败后才曝光。

一个明显的候选者是交流单元，它的湿度调节有问题。所以，我绘制了温度和湿度。很多话要说，但这很好地说明了我的问题：

在相对密封的房间（1.5 x 2.5 米左右）中，我怀疑每次恒温循环后湿度保持如此高的事实。此外，关闭交流电也明显抑制了湿度峰值。

这是正常的交流行为吗？我没想到湿度总是会回到如此高的水平。即使在图表的右侧，它不仅保持在低位，而且“希望”稳定在相当高的水平。

我还研究了其他问题，例如含硫的细颗粒物会导致腐蚀，但事实上，这更像是一个抽象的想法。我不知道如何衡量和/或测试它。

我也有一家空调维护/空气质量公司对其进行了研究，但他们似乎从办公室空气质量的角度来考虑，并且不能完全按照我的说法认为服务器与人们的要求不同。一方面，他们的建议是不断地将新鲜空气泵入房间。对我来说似乎不合逻辑。

编辑：更高的缩放级别，也可以看到温度上升/下降和湿度上升/下降之间的相关性：

Halfgaar

Asked: 2016-10-27 09:53:48 +0800 CST

后缀reject_rbl_client：客户端或收件人限制？

0

这和这说的reject_rbl_client是一个smtpd_recipient_restriction。但是，Postfix 文档显示它只是一个smtpd_client_restriction，这对我来说很有意义。那么，它是什么？

另外，为什么当我配置废话，postfix check就service postfix reload接受它？

smtpd_client_restrictions = permit_mynetworks, permit_sasl_authenticated, reject_unknown_client_hostname, reject_rbl_cliena bl.spamcop.net

和：

root@server: /etc/postfix # postfix check
root@server: /etc/postfix # echo $?
0
root@server: /etc/postfix #

和：

# service postfix reload
Reloading Postfix configuration...done.

版本：2.9.6-2 Debian 7 (Wheezy)

Halfgaar

Asked: 2016-01-23 03:29:38 +0800 CST

一些 IPv6 主机将所有流量（即使在同一子网中）发送到路由器

1

我注意到我们 LAN 的 IPv6 路由问题。大多数客户端 PC 都是 LTSP 瘦客户端。他们通过 SLAAC 获得一个地址。Tracepath6到同一子网上的主机显示所有流量都是直接的。但是，我正在使用的笔记本电脑（Linux Mint 17，标准网络管理器）为自己提供了两个 IPv6 地址，并设置了所有流量首先进入路由器的路由，包括同一子网中的流量：

tracepath6 xxxx:1b0:5256:1337:10:50:0:8
 1?: [LOCALHOST]                        0.183ms pmtu 1500
 1:  xxxx:1b0:5256:1337:10:50:0:1                          1.217ms

问题：

1) 为什么有些主机得到一个地址而有些主机得到更多地址？我经常看到这种情况发生。

2）为什么这台机器选择通过路由器路由所有流量？

路由器是dnsmasq，确实只有SLAAC：

Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: IPv6 router advertisement enabled
Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: DHCP, IP range 10.102.20.1 -- 10.102.20.254, lease time 12h
Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: DHCP, IP range 10.101.20.1 -- 10.101.20.254, lease time 12h
Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: DHCP, IP range 10.100.0.100 -- 10.100.0.254, lease time 12h
Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: DHCP, IP range 10.50.20.1 -- 10.50.20.254, lease time 12h
Jan 22 11:34:36 gatekeeper dnsmasq-dhcp[9796]: SLAAC on xxxx:1b0:5256:1337:: prefix valid 2h

这是我的 eth0：

eth0      Link encap:Ethernet  HWaddr 18:67:b0:34:2d:dd
          inet addr:10.50.20.158  Bcast:10.50.255.255  Mask:255.255.0.0
          inet6 addr: fe80::1a67:b0ff:fe34:2ddd/64 Scope:Link
          inet6 addr: xxxx:1b0:5256:1337:2532:eb1a:1151:d2f0/64 Scope:Global
          inet6 addr: xxxx:1b0:5256:1337:1a67:b0ff:fe34:2ddd/64 Scope:Global
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:12094 errors:0 dropped:0 overruns:0 frame:0
          TX packets:17250 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:2848542 (2.8 MB)  TX bytes:3002689 (3.0 MB)

这些是 IPv4 路由：

> route -n 
Kernel IP routing table Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         10.50.0.1       0.0.0.0         UG    0      0        0 eth0
10.50.0.0       0.0.0.0         255.255.0.0     U     1      0        0 eth0

这些是 IPv6 路由：

Kernel IPv6 routing table
Destination                    Next Hop                   Flag Met Ref Use If
fe80::/64                      ::                         U    256 1     0 eth0
::/0                           fe80::213:3bff:fe0f:c02c   UG   1   0     0 eth0
::/0                           fe80::213:3bff:fe0f:c02c   UGDAe 1024 0     0 eth0
::/0                           ::                         !n   -1  1   261 lo
::1/128                        ::                         Un   0   3   243 lo
xxxx:1b0:5256:1337:1a67:b0ff:fe34:2ddd/128 ::                         Un   0   1     0 lo
xxxx:1b0:5256:1337:2532:eb1a:1151:d2f0/128 ::                         Un   0   1    86 lo
fe80::1a67:b0ff:fe34:2ddd/128  ::                         Un   0   1   178 lo
ff00::/8                       ::                         U    256 1     0 eth0
::/0                           ::                         !n   -1  1   261 lo

直接到达其他主机的主机上不存在以下行：

::/0                           fe80::213:3bff:fe0f:c02c   UG   1   2     0 eth0

fe80::213:3bff:fe0f:c02c确实是 LAN 端路由器的链路本地地址。

编辑：我看到的行为可能是随机的。我多次重新启动其中一个瘦客户端，tracepath6 有时会显示通过路由器的流量，有时会直接流向主机。似乎每次重新启动都不同。路由表每次都完全相同，如果我启用/禁用 dnsmasqoff-link选项也是如此。

Edit2：例如，IPv4 始终有一条路由表明，对于您自己的子网，它应该只通过 eth0 发送。因此，当我在 IPv6 中添加此路由时，流量不再通过路由器：

/sbin/route -A inet6 add xxxx:1b0:5256:1337::/64 dev eth0

那么，为什么xxxx:1b0:5256:1337::/64默认不包括在内（在此处的任何机器上）？不应该存在一条告诉内核对于当前子网，只需通过以太网（或 wlan，等等）发送出去的路由吗？

Edit3：我刚刚查看了 tcpdump+wireshark，发现L路由器广告中未设置标志 On-Link，尽管未设置离线链接：

dhcp-range=xxxx:1b0:5256:1337::, ra-only, inifite

Halfgaar

Asked: 2015-09-15 23:29:33 +0800 CST

Debian 服务器在每次启动时都会降级 mdadm 阵列

4

我有一个带有 MD raid 的 Debian 服务器（2 个活动，一个备用）：

Personalities : [raid1] 
md1 : active raid1 sdc2[0] sdb2[1] sda2[2](S)
      1068224 blocks [2/2] [UU]

md0 : active raid1 sdc1[2](S) sdb1[1] sda1[0]
      487315584 blocks [2/2] [UU]
      bitmap: 5/233 pages [20KB], 1024KB chunk

unused devices: <none>

每当我启动此服务器时，阵列就会降级并开始同步备用磁盘。问题是，这似乎是因为它连接了一个 U 盘，目前是/dev/sdd. 当此磁盘不存在时，它可以正常启动。/dev/sdd1，唯一的分区，上面没有md superblock，分区类型是Linux，不是raid autodetect。

这是镜像设备的详细信息md0：

mdadm --detail /dev/md0
/dev/md0:
        Version : 0.90
  Creation Time : Sun Jun  8 04:10:39 2008
     Raid Level : raid1
     Array Size : 487315584 (464.74 GiB 499.01 GB)
  Used Dev Size : 487315584 (464.74 GiB 499.01 GB)
   Raid Devices : 2
  Total Devices : 3
Preferred Minor : 0
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Tue Sep 15 09:23:33 2015
          State : active 
 Active Devices : 2
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 1

           UUID : 9e408fbb:563a5459:f999b789:24d3b44e
         Events : 0.83145

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1

       2       8       33        -      spare   /dev/sdc1

的细节/dev/sdc1确实表明它是备用的：

mdadm --examine /dev/sdc1
/dev/sdc1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 9e408fbb:563a5459:f999b789:24d3b44e
  Creation Time : Sun Jun  8 04:10:39 2008
     Raid Level : raid1
  Used Dev Size : 487315584 (464.74 GiB 499.01 GB)
     Array Size : 487315584 (464.74 GiB 499.01 GB)
   Raid Devices : 2
  Total Devices : 3
Preferred Minor : 0

    Update Time : Sat Sep 12 21:09:59 2015
          State : clean
Internal Bitmap : present
 Active Devices : 2
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 1
       Checksum : 7761bb13 - correct
         Events : 83145


      Number   Major   Minor   RaidDevice State
this     2       8       33        2      spare   /dev/sdc1

   0     0       8        1        0      active sync   /dev/sda1
   1     1       8       17        1      active sync   /dev/sdb1
   2     2       8       33        2      spare   /dev/sdc1

真的没有什么异常。

任何想法？

编辑：

的相关内容/etc/mdadm/mdadm.conf：

ARRAY /dev/md0 level=raid1 num-devices=2 UUID=9e408fbb:563a5459:f999b789:24d3b44e
   spares=1
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=e4578e57:9e0fd9e9:c7736f30:0e251564
   spares=1

这种匹配的输出mdadm --detail --scan：

ARRAY /dev/md0 metadata=0.90 spares=1 UUID=9e408fbb:563a5459:f999b789:24d3b44e
ARRAY /dev/md1 metadata=0.90 spares=1 UUID=e4578e57:9e0fd9e9:c7736f30:0e251564

也许是换行符？

内核 3.2.0-4-686-pae。
Debian 7.8
mdadm - v3.2.5 - 2012 年 5 月 18 日

Halfgaar

Asked: 2015-01-20 01:52:01 +0800 CST

在 LVM 上更改哪个调度程序以使虚拟机受益

5

/sys/block当您拥有 LVM 时，您的物理卷、每个单独的逻辑卷和原始设备都有一个调度程序条目。

我们有一个运行 Xen 管理程序 4.0（3Ware 9650 SE 硬件 RAID1）的 Debian 6 LTS x64、内核 2.6.32 系统。在每个逻辑卷上运行虚拟机时，如果您想影响操作系统如何调度虚拟机，您需要在哪个逻辑卷上设置调度程序？如果将逻辑卷设置为deadline，那么当物理卷设置为时，它还会做任何事情cfq吗？如果您确实在逻辑卷上设置了截止日期，即使磁盘由于其他 LV 上的 IO 设置为而变慢，这些截止日期也会得到遵守cfq吗？

问题与虚拟机上的 IO 相关，导致其他虚拟机的速度过慢。所有客人都在内部使用 noop 作为调度程序。

编辑：据此，在多路径环境中，只有 DM 的调度器才会生效。因此，如果我想以某种deadline方式处理虚拟机之间的 IO，我必须将物理卷（在我的情况下为 dm-1）的 DM 路径设置为deadline. 那正确吗？还有一个sdc的调度器，就是我的dm-1原来的块设备。为什么不应该这样做呢？

edit2：但是后来有人在评论中说 dm-0/1 在较新的内核中没有调度程序：

famzah@VBox:~$ cat /sys/block/dm-0/queue/scheduler
none

在我的系统（Debian 6，内核 2.6.32）上，我有：

cat /sys/block/dm-1/queue/scheduler 
noop anticipatory [deadline] cfq

还有一个问题，我有多路径设置吗？pvs显示：

# pvs
PV         VG                 Fmt  Attr PSize PFree
/dev/dm-0  universe           lvm2 a-   5,41t 3,98t
/dev/dm-1  alternate-universe lvm2 a-   1,82t 1,18t

但它们是用 /dev/sd[bc] 创建的。这是否意味着我有多路径，即使它是标准的 LVM 设置？

我想，主要问题是我必须在 sdc 或 dm-1 上设置调度程序吗？如果我执行 iostat，我会看到两者都有很多访问权限：

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdc               0,00     0,00   13,02   25,36   902,71   735,56    42,68     0,08    2,17   0,73   2,79
dm-1             82,25    57,26   12,97   25,36   902,31   735,56    42,72     0,18    4,73   0,84   3,23

那么，什么是什么，谁是老板？如果是 sdc，我可以告诉你，将其设置为截止日期对我的虚拟机的性能没有任何影响。查看“请求合并”列（前两个）的差异，我会说控制调度的是 dm-1。

Halfgaar

Asked: 2015-01-14 16:28:32 +0800 CST

IO 任务在 3Ware 9650SE 上很容易互相饿死

0

我有一台带有 3Ware 9650 SE RAID 控制器的服务器（Debian 6 LTS）。有两个阵列，一个RAID1，一个RAID6。它运行 Xen 4.0，大约有 18 个 DomU。问题是我体验到 IO 任务很容易互相饿死。当一个 DomU 生成大量 IO 时会发生这种情况，一次阻塞其他人几分钟，但它也只是在dd'ing 时发生。

要将 DomU 从繁忙的 RAID 阵列中移出，我使用了 dd。这样做时，我的 Nagios 不仅报告其他 VM 没有响应，而且我在 Dom0 上收到了以下通知：

[2015-01-14 00:38:07]  INFO: task kdmflush:1683 blocked for more than 120 seconds.
[2015-01-14 00:38:07]  "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[2015-01-14 00:38:07]  kdmflush      D 0000000000000002     0  1683      2 0x00000000
[2015-01-14 00:38:07]   ffff88001fd37810 0000000000000246 ffff88001f742a00 ffff8800126c4680
[2015-01-14 00:38:07]   ffff88000217e400 00000000aae72d72 000000000000f9e0 ffff88000e65bfd8
[2015-01-14 00:38:07]   00000000000157c0 00000000000157c0 ffff880002291530 ffff880002291828
[2015-01-14 00:38:07]  Call Trace:
[2015-01-14 00:38:07]   [<ffffffff8106ce4e>] ? timekeeping_get_ns+0xe/0x2e
[2015-01-14 00:38:07]   [<ffffffff8130deb2>] ? io_schedule+0x73/0xb7
[2015-01-14 00:38:07]   [<ffffffffa0175bd6>] ? dm_wait_for_completion+0xf5/0x12a [dm_mod]
[2015-01-14 00:38:07]   [<ffffffff8104b52e>] ? default_wake_function+0x0/0x9
[2015-01-14 00:38:07]   [<ffffffffa01768c3>] ? dm_flush+0x1b/0x59 [dm_mod]
[2015-01-14 00:38:07]   [<ffffffffa01769b9>] ? dm_wq_work+0xb8/0x167 [dm_mod]
[2015-01-14 00:38:07]   [<ffffffff81062cfb>] ? worker_thread+0x188/0x21d
[2015-01-14 00:38:07]   [<ffffffffa0176901>] ? dm_wq_work+0x0/0x167 [dm_mod]
[2015-01-14 00:38:07]   [<ffffffff81066336>] ? autoremove_wake_function+0x0/0x2e
[2015-01-14 00:38:07]   [<ffffffff81062b73>] ? worker_thread+0x0/0x21d
[2015-01-14 00:38:07]   [<ffffffff81066069>] ? kthread+0x79/0x81
[2015-01-14 00:38:07]   [<ffffffff81012baa>] ? child_rip+0xa/0x20
[2015-01-14 00:38:07]   [<ffffffff81011d61>] ? int_ret_from_sys_call+0x7/0x1b
[2015-01-14 00:38:07]   [<ffffffff8101251d>] ? retint_restore_args+0x5/0x6
[2015-01-14 00:38:07]   [<ffffffff81012ba0>] ? child_rip+0x0/0x20

我尝试了截止日期和 cfq 调度程序。blkback使用 CFQ，如果我将后端进程设置为实时 IO 优先级，它不会使 DomU 响应更快。

我给 Dom0 一个 10000 的 sched-cred，因为它需要更高的权重来为 DomU 的所有 IO 提供服务（在我的情况下并没有做太多其他事情）。但无论我设置什么，它都不应该影响dd命令并且kdmflush它被阻止，因为这都是 Dom0。

这是tw_cli输出（只是有一个损坏的磁盘，因此正在初始化。它是不相关的，因为问题已经存在很长时间了）：

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    INITIALIZING   -       89%(A)  256K    5587.9    RiW    ON     
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p1    OK             u0   1.82 TB   SATA  1   -            WDC WD2000FYYZ-01UL 
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            WDC WD2002FYPS-02W3 
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u0   1.82 TB   SATA  5   -            WDC WD2003FYYS-02W0 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

我真的觉得这很奇怪和烦人。我有一种感觉，这是 RAID 控制器的一个怪癖。其他具有软件 RAID 的机器性能要好得多。

我希望任何人都可以启发我。

Halfgaar

Asked: 2015-01-08 17:14:07 +0800 CST

如何让 resolvconf -u 不将 127.0.01 放入 resolv.conf

1

我有一个运行 Bind9 的 Ubuntu 服务器，它不进行递归。我也不想将它用于任何类型的本地 DNS，因为它可能无法反映外界看到的内容（例如，获取过时的记录）。因此，服务器本身应始终使用外部 DNS 服务器。

但是，resolvconf -u似乎总是放在127.0.0.1那里，我似乎无法将其关闭。

127.0.0.1不会出现在/etc/resolvconf.

可以预防吗？

Halfgaar

Asked: 2014-11-27 05:38:05 +0800 CST

4TB USB3 磁盘兼容性

1

我们最近购买了 USB3 Verbatim Store 'n' Save 4 TB 硬盘，用于离线备份我们的备份。它不能在我想使用它的（Linux）服务器上运行，也不能在 Windows Server 2008 机器上运行；Linux 机器只是产生了无法描述的 USB 错误（无法枚举设备、错误 -71 或其他东西），而 Windows 机器什么也没做（甚至没有出现在存储管理中）。在我的 Linux PC 上它确实有效。就在那时我注意到它被分成两个驱动器（不是分区），以与 MBR 分区表兼容。我怀疑这是该磁盘在该 Linux 服务器中无法工作的原因，但即使使用 Windows 工具配置其模式并将其设置为连续也无济于事。

我怀疑这种特殊的 USB-to-SATA 控制器具有这种额外的拆分功能是不兼容的原因。但是，现在一家商店说“某些主板不支持大于 2 TB 的磁盘”。

后一种说法准确吗？我认为这取决于Linux内核是否支持它。

Halfgaar

Asked: 2014-07-25 23:12:30 +0800 CST

MD RAID扇区修复

6

本文指出 RAID 控制器对不可恢复的读取错误很聪明，并尝试使用组件驱动器的冗余重写此类扇区。如果扇区坏了，磁盘的固件会透明地重新分配扇区。

Linux MD RAID 做类似的事情吗？也许我的 Google-Fu 不好，但我找不到任何关于它的信息。

Halfgaar

Asked: 2013-11-12 12:10:28 +0800 CST

删除 MySQL ibdata1 而不转储和恢复现有的正确数据库

6

我的 MySQL 服务器包含两个 100+ GB 的大数据库。一个是用创建的innodb_file_per_table，一个不是。那个不是，已经被倾倒，准备重新加载。但是，ibdata1 文件仍然很大，我没有足够的可用空间。在这种情况下，通常的建议是转储并删除每个数据库，停止 MySQL，然后删除 ibdata1 和事务日志，然后重新加载数据库。

我的具体问题是：我可以留下innodb_file_per_table单独创建的数据库吗？或者当我删除 ibdata1 时它们会被销毁，即使它们的所有文件都是分开的？

我不能让这个数据库离线转储和重新加载它。而且因为它已经正确地为每个表使用了单独的文件，所以它会感觉非常无用。

Halfgaar

Asked: 2013-09-10 11:53:12 +0800 CST

带有 nginx 代理的 Apache+mod_wsgi 上的 Python Django 站点：性能波动很大

3

我有一个 Ubuntu 10.04 机器，使用 mod_wsgi 运行几十个 Python Django 站点（嵌入式模式；如果配置正确，则为更快的模式）。性能波动很大。有时很快，有时延迟几秒钟。吸烟图到处都是。

最近，我还为静态内容添加了一个 nginx 代理，希望它可以解决性能波动很大的问题。但是，即使它显着减少了 Apache 必须处理的请求数量，它也无助于解决主要问题。

在运行 htop 的同时点击网站时，可以看到有时请求几乎是即时的，而有时它会导致 Apache 在几秒钟内消耗 100% CPU。我真不明白这种波动是从哪里来的。

我已经为 Apache 配置了 mpm_worker，如下所示：

StartServers          1
MinSpareThreads      50
MaxSpareThreads      50
ThreadLimit          64
ThreadsPerChild      50
MaxClients           50
ServerLimit          1
MaxRequestsPerChild  0
MaxMemFree           2048

1 台服务器，50 个线程，最多 50 个客户端。穆宁和apache2ctl -t两者都显示出始终如一的工人存在；它们不会一直被破坏和创造。然而，它的行为就是这样。

这告诉我，一旦创建了子解释器，它应该保留在内存中，但似乎站点必须一直重新加载。

我还有一个 nginx+gunicorn 盒子，它的表现相当不错。我真的很想知道为什么 Apache 如此随机。

这是一个虚拟主机配置：

<VirtualHost *:81>
    ServerAdmin [email protected]
    ServerName example.com

    DocumentRoot /srv/http/site/bla

    Alias /static/ /srv/http/site/static
    Alias /media/ /srv/http/site/media
    WSGIScriptAlias / /srv/http/site/passenger_wsgi.py

    <Directory />
            AllowOverride None
    </Directory>

    <Directory /srv/http/site>
            Options -Indexes FollowSymLinks MultiViews
            AllowOverride None
            Order allow,deny
            allow from all
    </Directory>

Ubuntu 10.04
阿帕奇 2.2.14
mod_wsgi 2.8
nginx 0.7.65

编辑：我在站点的 settings.py 文件中放置了一些代码，该站点在加载时将日期写入 tmp 文件。我现在可以看到该站点并非一直随机重新加载，因此 Apache 必须将其保存在内存中。所以，这很好，除了它不会让我更接近答案......

编辑：我刚刚发现一个可能也与此有关的错误：

  File "/usr/lib/python2.6/subprocess.py", line 633, in __init__
    errread, errwrite)

  File "/usr/lib/python2.6/subprocess.py", line 1049, in _execute_child
    self.pid = os.fork()

OSError: [Errno 12] Cannot allocate memory

服务器有 600 个 2000 MB 可用空间，应该足够了。Apache 或 WSGI 的某个地方是否设置了限制？

Halfgaar

Asked: 2013-07-12 05:58:21 +0800 CST

Debian 6 Xen 主机上的 ATA 错误，但磁盘很好

2

我们管理的带有软件 RAID1 的 Debian 6 机器（但没有物理访问权限）正在喷出有关磁盘（ATA1 和 ATA2）的各种错误。

我不知道这可能是什么。磁盘似乎很好。我们没有注意到服务器正在服务的网站出现挂起或其他问题。

我知道这是一个“可能是任何事情”的问题，但我真的希望有人能够帮助我。

眼镜：

Debian 6，运行 Xen 管理程序
磁盘：250 GB WDC WD2500AAKX-00U6AA0
支持和启用 NCQ：ata2.00：488397168 个扇区，多 16：LBA48 NCQ（深度 31/32），AA
SATA 控制器：Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)
内核：2.6.32-5-xen-amd64
内存：16GB
Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

以下是一些错误：

[2013-05-13 21:36:17]  ata1.00: exception Emask 0x10 SAct 0x3 SErr 0x400100 action 0x6 frozen
[2013-05-13 21:36:17]  ata1.00: irq_stat 0x08000000, interface fatal error
[2013-05-13 21:36:17]  ata1: SError: { UnrecovData Handshk }
[2013-05-13 21:36:17]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-13 21:36:17]  ata1.00: cmd 61/08:00:98:1f:5e/00:00:0d:00:00/40 tag 0 ncq 4096 out
[2013-05-13 21:36:17]           res 40/00:0c:58:3a:62/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-13 21:36:17]  ata1.00: status: { DRDY }
[2013-05-13 21:36:17]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-13 21:36:17]  ata1.00: cmd 61/08:08:58:3a:62/00:00:0d:00:00/40 tag 1 ncq 4096 out
[2013-05-13 21:36:17]           res 40/00:0c:58:3a:62/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-13 21:36:17]  ata1.00: status: { DRDY }
[2013-05-13 21:36:17]  ata1: hard resetting link
[2013-05-13 21:36:17]  ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[2013-05-13 21:36:17]  ata1.00: configured for UDMA/133
[2013-05-13 21:36:17]  ata1: EH complete

和

[2013-05-15 08:58:29]  ata1.00: exception Emask 0x10 SAct 0x40f SErr 0x400100 action 0x6 frozen
[2013-05-15 08:58:29]  ata1.00: irq_stat 0x08000000, interface fatal error
[2013-05-15 08:58:29]  ata1: SError: { UnrecovData Handshk }
[2013-05-15 08:58:29]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-15 08:58:29]  ata1.00: cmd 61/58:00:48:c4:6b/00:00:0d:00:00/40 tag 0 ncq 45056 out
[2013-05-15 08:58:29]           res 40/00:1c:78:cb:6b/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-15 08:58:29]  ata1.00: status: { DRDY }
[2013-05-15 08:58:29]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-15 08:58:29]  ata1.00: cmd 61/10:08:78:c8:6b/01:00:0d:00:00/40 tag 1 ncq 139264 out
[2013-05-15 08:58:29]           res 40/00:1c:78:cb:6b/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-15 08:58:29]  ata1.00: status: { DRDY }
[2013-05-15 08:58:29]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-15 08:58:29]  ata1.00: cmd 61/b0:10:c8:ca:6b/00:00:0d:00:00/40 tag 2 ncq 90112 out
[2013-05-15 08:58:29]           res 40/00:1c:78:cb:6b/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-15 08:58:29]  ata1.00: status: { DRDY }
[2013-05-15 08:58:29]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-15 08:58:29]  ata1.00: cmd 61/58:18:78:cb:6b/00:00:0d:00:00/40 tag 3 ncq 45056 out
[2013-05-15 08:58:29]           res 40/00:1c:78:cb:6b/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-15 08:58:29]  ata1.00: status: { DRDY }
[2013-05-15 08:58:29]  ata1.00: failed command: WRITE FPDMA QUEUED
[2013-05-15 08:58:29]  ata1.00: cmd 61/b0:50:c8:c7:6b/00:00:0d:00:00/40 tag 10 ncq 90112 out
[2013-05-15 08:58:29]           res 40/00:1c:78:cb:6b/00:00:0d:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-15 08:58:29]  ata1.00: status: { DRDY }
[2013-05-15 08:58:29]  ata1: hard resetting link
[2013-05-15 08:58:29]  ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[2013-05-15 08:58:29]  ata1.00: configured for UDMA/133
[2013-05-15 08:58:29]  ata1: EH complete

和

[2013-05-19 01:21:19]  ata2.00: exception Emask 0x10 SAct 0x3 SErr 0x400100 action 0x6 frozen
[2013-05-19 01:21:19]  ata2.00: irq_stat 0x08000000, interface fatal error
[2013-05-19 01:21:19]  ata2: SError: { UnrecovData Handshk }
[2013-05-19 01:21:19]  ata2.00: failed command: WRITE FPDMA QUEUED
[2013-05-19 01:21:19]  ata2.00: cmd 61/58:00:e8:75:93/00:00:12:00:00/40 tag 0 ncq 45056 out
[2013-05-19 01:21:19]           res 40/00:0c:40:76:93/00:00:12:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-19 01:21:19]  ata2.00: status: { DRDY }
[2013-05-19 01:21:19]  ata2.00: failed command: WRITE FPDMA QUEUED
[2013-05-19 01:21:19]  ata2.00: cmd 61/b0:08:40:76:93/00:00:12:00:00/40 tag 1 ncq 90112 out
[2013-05-19 01:21:19]           res 40/00:0c:40:76:93/00:00:12:00:00/40 Emask 0x10 (ATA bus error)
[2013-05-19 01:21:19]  ata2.00: status: { DRDY }
[2013-05-19 01:21:19]  ata2: hard resetting link
[2013-05-19 01:21:19]  ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[2013-05-19 01:21:19]  ata2.00: configured for UDMA/133
[2013-05-19 01:21:19]  ata2: EH complete

SMART 不会给出任何错误。这是 SDA 的聪明之处（SDB 类似）：

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD2500AAKX-00U6AA0
Serial Number:    WD-WCC2H0107714
Firmware Version: 15.01H15
User Capacity:    250,059,350,016 bytes

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   145   145   021    Pre-fail  Always       -       3750
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       9
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3430
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2
194 Temperature_Celsius     0x0022   110   108   000    Old_age   Always       -       33
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

和 sda 接口错误：

# smartctl -l sataphy /dev/sda
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

General Purpose Logging (GPL) feature set supported
SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0002  2          165  R_ERR response for data FIS
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2          165  R_ERR response for host-to-device data FIS
0x0005  2            0  R_ERR response for non-data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x000a  2           49  Device-to-host register FISes sent due to a COMRESET
0x000b  2           79  CRC errors within host-to-device FIS
0x8000  4     12672920  Vendor specific

和 sdb：

# smartctl -l sataphy /dev/sdb
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

General Purpose Logging (GPL) feature set supported
SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0002  2           45  R_ERR response for data FIS
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2           45  R_ERR response for host-to-device data FIS
0x0005  2            2  R_ERR response for non-data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            2  R_ERR response for host-to-device non-data FIS
0x000a  2           46  Device-to-host register FISes sent due to a COMRESET
0x000b  2           22  CRC errors within host-to-device FIS
0x8000  4     12672927  Vendor specific

Halfgaar

Asked: 2013-07-10 11:42:17 +0800 CST

越来越多的 mdadm raid1 live；元数据 1.1 和 1.2

0

我可以找到很多关于在实时系统上增加 mdadm RAID1 阵列的帖子。增加分区后，每个人都简单地说要做：

mdadm --grow /dev/md1 --size=max

但这不起作用，因为组件的大小存储在元数据中（mdadm --examine显示这个）。这在某个时候有效吗？手册页说明了以下内容，这意味着 live grow 过去可以工作，但不再有效：

devicesize 将很少使用。它仅适用于版本 1.1 和 1.2 元数据（元数据位于设备的开头），并且仅在组件设备的大小发生变化（通常变大）时才有用。版本 1 元数据记录了可用于存储数据的设备数量，因此如果版本 1.1 或 1.2 数组中的设备变大，元数据仍然可见，但额外空间不可见。在这种情况下，使用 --update=devicesize 组装阵列可能很有用。这将导致 mdadm 确定每个设备上的最大可用空间量并更新元数据中的相关字段。

那么对于更新的超级块版本，实时增长不再是可能的了吗？

Halfgaar

Asked: 2013-07-02 11:27:34 +0800 CST

通过所有诊断后确认磁盘已损坏

5

我有一个磁盘可能损坏的系统，但磁盘通过了各种诊断。我一直无法确认磁盘已损坏。我有哪些选择？

我可以更换磁盘，但由于这种情况与我遇到的另一种更严重的情况非常相似（长话短说），我想实际做出正确的诊断，而不是随机装箱硬件。

问题和历史是这样的：

我有一台 Debian Linux PC (500 MHz P3) 作为路由器、nagios 和 munin。
它每隔几周就会崩溃一次。无法获取任何日志或 dmesg（因为它是一个旧的 Compaq，只有在您将其配置为无键盘时才会启动，因此一旦启动后就无法连接键盘）。
当时，我只是用另一台 Compaq (P4 2.4 GHz) 更换计算机，因为我认为硬件有问题。但是，它仍然每两周崩溃一次。
不同的是，在这台计算机上，我仍然可以通过 SSH 连接到它。它给出了hda上的各种错误。

我想确认磁盘坏了，但我没有做任何事情来证实这一点：

SMART 错误日志显示没有错误。通常，当磁盘开始运行时，SMART my pass，但它仍然在错误日志中记录读取错误。
SMART 自检 ( smartctl -t long /dev/sda) 完成且没有错误。
重新分配的扇区数（一个标志性参数）一直是 31，即使几年前我的台式机仍在使用磁盘，现在仍然如此。这个数字从未改变。
dd if=/dev/sda of=/dev/null bs=4096以优异的成绩通过。

我还能做些什么来评估驱动器的运行状况？

同样，这不是要让这个路由器再次完全正常工作，这是一个磁盘取证问题，因为碰巧我有另一台服务器可能有同样的问题，知道这个问题的答案可能会对我有很大帮助。

作为记录，以下是日志等。

这是smartctl -a输出：

smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family
Device Model:     ST3120026A
Serial Number:    5JT1CLQM
Firmware Version: 3.06
User Capacity:    120,034,123,776 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 2
Local Time is:    Mon Jul  1 21:18:33 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (  24) The self-test routine was aborted by
                    the host.
Total time to complete Offline 
data collection:         ( 430) seconds.
Offline data collection
capabilities:            (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    No General Purpose Logging support.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  85) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   050   046   006    Pre-fail  Always       -       47766662
  3 Spin_Up_Time            0x0003   097   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       10
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       31
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       820305
  9 Power_On_Hours          0x0032   048   048   000    Old_age   Always       -       46373
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       605
194 Temperature_Celsius     0x0022   036   065   000    Old_age   Always       -       36
195 Hardware_ECC_Recovered  0x001a   050   046   000    Old_age   Always       -       47766662
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   196   000    Old_age   Always       -       6
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Aborted by host               80%     46361         -
# 2  Extended offline    Completed without error       00%     46358         -
# 3  Short offline       Completed without error       00%     12046         -
# 4  Extended offline    Completed without error       00%     10472         -
# 5  Short offline       Completed without error       00%     10471         -
# 6  Short offline       Completed without error       00%     10471         -
# 7  Short offline       Completed without error       00%      6770         -
# 8  Extended offline    Aborted by host               90%      5958         -
# 9  Extended offline    Aborted by host               90%      5951         -
#10  Short offline       Completed without error       00%      5024         -
#11  Extended offline    Aborted by host               80%      5024         -
#12  Short offline       Completed without error       00%      3697         -
#13  Short offline       Completed without error       00%       237         -
#14  Short offline       Completed without error       00%       145         -
#15  Short offline       Completed without error       00%        69         -
#16  Extended offline    Completed without error       00%        68         -
#17  Short offline       Completed without error       00%        66         -
#18  Short offline       Completed without error       00%        49         -
#19  Short offline       Completed without error       00%        29         -
#20  Short offline       Completed without error       00%        29         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

这是崩溃时的 dmesg 错误（对于一堆不同的扇区重复）：

[1755091.211136] sd 0:0:0:0: [sda] Unhandled error code
[1755091.211144] sd 0:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[1755091.211151] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 08 fe ad 38 00 00 08 00
[1755091.211166] end_request: I/O error, dev sda, sector 150908216

Halfgaar

Asked: 2013-04-24 06:38:28 +0800 CST

postfix + sasl 方法 rimap 剥离用户域名

9

我正在使用 Postfix 和 Courier-IMAP 设置邮件服务器。我想用 rimap 进行 SMTP 身份验证，这样我就不必维护两个用户数据库。我遇到的问题是用户名后缀传递的域名被剥离了。它应该是“[email protected]”，它变成了“john”。

登录到 IMAP 服务器有效，testsaslauthd -u [email protected] -p password.

使用smtpd_sasl_local_domain（设置或取消设置）没有区别。

这个帖子好像不行。即使当我尝试使用 uasdfer@asdfasdf 登录时，它也会删除域部分。

后缀 sasl：

# cat main.cf |grep -i sasl
smtpd_sasl_auth_enable = yes
smtpd_sasl_security_options = noanonymous
broken_sasl_auth_clients = yes
smtpd_recipient_restrictions = permit_mynetworks permit_sasl_authenticated reject_unauth_destination reject_rbl_client zen.spamhaus.org check_policy_service unix:private/policyd-spf

萨斯配置：

# cat saslauthd |grep -v "#"|grep -v -E "^$"
START=yes
DESC="SASL Authentication Daemon"
NAME="saslauthd"
MECHANISMS="rimap"
MECH_OPTIONS="127.0.0.1"
THREADS=5
OPTIONS="-c -m /var/run/saslauthd"

服务器版本：

Debian 6.0.7
后缀 2.7.1-1+squeeze1
快递 4.8.0-3

Halfgaar

Asked: 2013-04-06 06:09:51 +0800 CST

Apache mpm worker + wsgi Python/Django worker 卡住了

3

我们的Apache+Django服务器存在worker卡死的问题。这是一个 mpm worker 模型，一段时间后，为几十个工作线程提供服务的每个进程都冻结了它的所有 worker：

# apache2ctl status
Apache Server Status for localhost

Server Version: Apache/2.2.14 (Ubuntu) mod_ssl/2.2.14 OpenSSL/0.9.8k mod_wsgi/
    2.8 Python/2.6.5
Server Built: Mar 8 2013 16:46:38

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Current Time: Friday, 05-Apr-2013 15:56:17 CEST
Restart Time: Thursday, 04-Apr-2013 11:23:23 CEST
Parent Server Generation: 11
Server uptime: 1 day 4 hours 32 minutes 53 seconds
Total accesses: 244313 - Total Traffic: 4.7 GB
CPU Usage: u181.45 s33.97 cu.62 cs0 - .21% CPU load
2.38 requests/sec - 47.9 kB/second - 20.2 kB/request
108 requests currently being processed, 42 idle workers

_K__K______KK_____W_________W________K_K__________..............
WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW..............
WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW..............
................................................................
................................................................
................................................................

Scoreboard Key:
"_" Waiting for Connection, "S" Starting up, "R" Reading Request,
"W" Sending Reply, "K" Keepalive (read), "D" DNS Lookup,
"C" Closing connection, "L" Logging, "G" Gracefully finishing,
"I" Idle cleanup of worker, "." Open slot with no current process

执行时apache2ctl fullstatus，您可以看到恰好有两个 PID 使它们的所有 worker 都处于“工作”状态。当前，PID 822 和 5284。而且，这些进程不处理任何功能请求。此外，他们只能用信号 9 ( kill -9)

该选项WSGIDaemonProcess cpu-time-limit=120/120不会帮助我们，原因有两个：只有 WSGI 3.0 版和更高版本有它，另外，进程不消耗 CPU，因此它们的 CPU 时间很低。

我们的服务器运行缓慢。它不是超级慢，但它可以更快（有时它挂在请求上），我怀疑这个问题是相关的。无论如何，它不应该是这样的。

它是带有 Apache 2.2.14 和 libapache2-mod-wsgi 2.8-2ubuntu1 的 Ubuntu 10.04 LTS 服务器。网站的服务方式如下：

WSGIScriptAlias / /srv/http/bla/passenger_wsgi.py

这是工人配置：

<IfModule mpm_worker_module>
    StartServers          2
    MinSpareThreads      25
    MaxSpareThreads      75
    ThreadLimit          64
    ThreadsPerChild      50
    MaxClients           200
    ServerLimit          6
    MaxRequestsPerChild  1000
</IfModule>

知道这是什么以及如何解决它吗？或者，至少如何在这些进程上设置一些自动终止？ulimit 很难，因为它们不会大量消耗 CPU。

不接受来自 Linux 中路由器公告的 RDNSS

RAID 状态监控 HPE Smart Array E208i-p SR Gen10

重启后服务器突然有很高的softirq cpu使用率

SPF 和 DMARC - 是否使用了 spf 政策？

服务器腐蚀、空调和气候控制

后缀reject_rbl_client：客户端或收件人限制？

一些 IPv6 主机将所有流量（即使在同一子网中）发送到路由器

Debian 服务器在每次启动时都会降级 mdadm 阵列

在 LVM 上更改哪个调度程序以使虚拟机受益

IO 任务在 3Ware 9650SE 上很容易互相饿死

如何让 resolvconf -u 不将 127.0.01 放入 resolv.conf

4TB USB3 磁盘兼容性

MD RAID扇区修复

删除 MySQL ibdata1 而不转储和恢复现有的正确数据库

带有 nginx 代理的 Apache+mod_wsgi 上的 Python Django 站点：性能波动很大

Debian 6 Xen 主机上的 ATA 错误，但磁盘很好

越来越多的 mdadm raid1 live；元数据 1.1 和 1.2

通过所有诊断后确认磁盘已损坏

postfix + sasl 方法 rimap 剥离用户域名

Apache mpm worker + wsgi Python/Django worker 卡住了

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Halfgaar's questions