Alex提出的问题 -server

Alex

Asked: 2019-01-31 23:40:28 +0800 CST

WiredTiger 存储引擎在 MongoDB 中报告大量回滚

1

我们有一个由三个成员组成的 MongoDB 复制集：

        "members" : [
                {
                        "_id" : 6,
                        "host" : "10.0.0.17:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                },
                {
                        "_id" : 7,
                        "host" : "10.0.0.18:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                },
                {
                        "_id" : 8,
                        "host" : "10.0.0.19:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                }
        ],

集群处于中等负载下，每秒不超过几十个请求。 db.serverStatus()在主报告上，几乎所有事务都回滚：

"transaction begins" : 2625009877,
"transaction checkpoint currently running" : 0,
"transaction checkpoint generation" : 22618,
"transaction checkpoint max time (msecs)" : 5849,
"transaction checkpoint min time (msecs)" : 153,
"transaction checkpoint most recent time (msecs)" : 1869,
"transaction checkpoint scrub dirty target" : 0,
"transaction checkpoint scrub time (msecs)" : 0,
"transaction checkpoint total time (msecs)" : 11017082,
"transaction checkpoints" : 22617,
"transaction checkpoints skipped because database was clean" : 0,
"transaction failures due to cache overflow" : 0,
"transaction fsync calls for checkpoint after allocating the transaction ID" : 22617,
"transaction fsync duration for checkpoint after allocating the transaction ID (usecs)" : 354402,
"transaction range of IDs currently pinned" : 0,
"transaction range of IDs currently pinned by a checkpoint" : 0,
"transaction range of IDs currently pinned by named snapshots" : 0,
"transaction range of timestamps currently pinned" : 8589934583,
"transaction range of timestamps pinned by the oldest timestamp" : 8589934583,
"transaction sync calls" : 0,
"transactions committed" : 30213144,
"transactions rolled back" : 2594972913,
"update conflicts" : 578

基本上，我的问题是：这里发生了什么？有这么多事务和这么多回滚是正常的吗？如果不是，那么根本原因是什么并且需要修复它？

更新。：我们升级到3.6.8-2.0（这是3.6系列中最新的Percona包），问题仍然存在。

Alex

Asked: 2017-04-09 06:48:14 +0800 CST

systemd 单元文件中的 ExecStartPost 未启动 docker 服务

0

我正在尝试在 firewalld 和 docker 服务之间建立连接。我通过添加以下内容扩展了默认的 firewalld.service 单元文件：

[Service]
ExecStartPost=-/bin/bash -c '/usr/bin/test -f /etc/default/docker && /bin/systemctl stop docker && /bin/systemctl start docker'

到/etc/systemd/system/firewalld.service.d/docker.conf.

但这不起作用，firewalld 服务在启动时超时：

root@ubuntu-xenial:~# systemctl status firewalld
● firewalld.service - firewalld - dynamic firewall daemon
   Loaded: loaded (/lib/systemd/system/firewalld.service; enabled; vendor preset: enabled)
  Drop-In: /etc/systemd/system/firewalld.service.d
           └─docker.conf
   Active: failed (Result: timeout) since Sat 2017-04-08 14:39:45 UTC; 1min 35s ago
  Process: 26050 ExecStartPost=/bin/bash -c /usr/bin/test -f /etc/default/docker && /bin/systemctl stop docker && /bin/systemctl start docker (code=killed, signal=TERM)
  Process: 26000 ExecStart=/usr/sbin/firewalld --nofork --nopid (code=exited, status=0/SUCCESS)
 Main PID: 26000 (code=exited, status=0/SUCCESS)

Apr 08 14:38:10 ubuntu-xenial systemd[1]: Starting firewalld - dynamic firewall daemon...
Apr 08 14:39:41 ubuntu-xenial systemd[1]: firewalld.service: Start-post operation timed out. Stopping.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: Failed to start firewalld - dynamic firewall daemon.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: firewalld.service: Unit entered failed state.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: firewalld.service: Failed with result 'timeout'.

我知道，BindTo但Requires我想在 firewalld 的每次状态更改时重新启动 docker 服务，因此这些指令不能解决我的问题。

Upd.: strace显示systemctl start正在等待 unix 套接字：

root@ubuntu-xenial:~# lsof -p 27898
COMMAND     PID USER   FD   TYPE             DEVICE SIZE/OFF   NODE NAME
systemctl 27898 root  cwd    DIR                8,1     4096      2 /
systemctl 27898 root  rtd    DIR                8,1     4096      2 /
systemctl 27898 root  txt    REG                8,1   659848    124 /bin/systemctl
systemctl 27898 root  mem    REG                8,1    80496   2057 /lib/x86_64-linux-gnu/libgpg-error.so.0.17.0
systemctl 27898 root  mem    REG                8,1    14608   2060 /lib/x86_64-linux-gnu/libdl-2.23.so
systemctl 27898 root  mem    REG                8,1   456632   2144 /lib/x86_64-linux-gnu/libpcre.so.3.13.2
systemctl 27898 root  mem    REG                8,1  1864888   2066 /lib/x86_64-linux-gnu/libc-2.23.so
systemctl 27898 root  mem    REG                8,1   138696   2082 /lib/x86_64-linux-gnu/libpthread-2.23.so
systemctl 27898 root  mem    REG                8,1   919168   2037 /lib/x86_64-linux-gnu/libgcrypt.so.20.0.5
systemctl 27898 root  mem    REG                8,1   137400   2067 /lib/x86_64-linux-gnu/liblzma.so.5.0.0
systemctl 27898 root  mem    REG                8,1    31712   2077 /lib/x86_64-linux-gnu/librt-2.23.so
systemctl 27898 root  mem    REG                8,1   130224   2154 /lib/x86_64-linux-gnu/libselinux.so.1
systemctl 27898 root  mem    REG                8,1   162632   2069 /lib/x86_64-linux-gnu/ld-2.23.so
systemctl 27898 root    0r   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    1w   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    2w   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    3u  unix 0xffff880003155400      0t0 177152 type=STREAM
root@ubuntu-xenial:~# strace -p 27898
strace: Process 27898 attached
ppoll([{fd=3, events=POLLIN}], 1, NULL, NULL, 8 <unfinished ...>
+++ killed by SIGKILL +++
root@ubuntu-xenial:~#

更新。2：根据gdb，systemctl在 DBus 调用上被阻塞：

root@ubuntu-xenial:~# gdb -ex "set pagination 0" -ex "thread apply all bt" --batch -p 18145
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
0x00007f99b3edebcd in __GI_ppoll (fds=0x7ffc098bb800, nfds=1, timeout=<optimized out>, sigmask=0x0) at ../sysdeps/unix/sysv/linux/ppoll.c:50
50  ../sysdeps/unix/sysv/linux/ppoll.c: No such file or directory.

Thread 1 (Thread 0x7f99b4f0d880 (LWP 18145)):
#0  0x00007f99b3edebcd in __GI_ppoll (fds=0x7ffc098bb800, nfds=1, timeout=<optimized out>, sigmask=0x0) at ../sysdeps/unix/sysv/linux/ppoll.c:50
#1  0x000056094741272e in ppoll () at /usr/include/x86_64-linux-gnu/bits/poll2.h:71
#2  bus_poll.lto_priv.198 (bus=0x560948d86040, need_more=<optimized out>, timeout_usec=<optimized out>) at ../src/libsystemd/sd-bus/sd-bus.c:2874
#3  0x00005609473b435e in bus_process_wait (bus=0x560948d86040) at ../src/shared/bus-util.c:1993
#4  bus_wait_for_jobs (extra_args=0x0, quiet=false, d=0x560948d86910) at ../src/shared/bus-util.c:2136
#5  start_unit.lto_priv.362 (argc=<optimized out>, argv=<optimized out>, userdata=<optimized out>) at ../src/systemctl/systemctl.c:2787
#6  0x00005609473b0716 in dispatch_verb (verbs=0x56094743f760 <verbs>, userdata=0x0, argv=0x7ffc098bbb38, argc=<optimized out>) at ../src/basic/verbs.c:92
#7  systemctl_main () at ../src/systemctl/systemctl.c:7447
#8  main (argc=<optimized out>, argv=0x7ffc098bbb38) at ../src/systemctl/systemctl.c:7713
root@ubuntu-xenial:~#

Alex

Asked: 2014-07-01 12:25:25 +0800 CST

FreeIPA：命令行工具不起作用，“没有可用的 Kerberos 凭据”

4

我们有一个可用的 FreeIPA 安装，它从 2 月开始投入生产。几乎一切都按预期工作，但是当我们尝试运行命令行 FreeIPA 相关工具时，它们都不起作用：

[admin@ipa ~]$ kinit admin
Password for [email protected]: 
[admin@ipa ~]$ klist
Ticket cache: KEYRING:persistent:8800000
Default principal: [email protected]

Valid starting       Expires              Service principal
06/30/2014 21:19:30  07/01/2014 21:19:12  krbtgt/[email protected]
[admin@ipa ~]$ ipa pwpolicy-show global_policy
ipa: ERROR: Kerberos error: ('Unspecified GSS failure.  Minor code may provide more information', 851968)/('No Kerberos credentials available', -1765328243)
[admin@ipa ~]$

我不是 Kerberos 专家，也不知道要检查什么。我们如何调试和解决这个问题？

更新：当我添加时，-vv我得到以下信息：

[admin@ipa ~]$ ipa -vv pwpolicy-show global_policy
ipa: INFO: trying https://ipa.example.com/ipa/xml
ipa: INFO: Forwarding 'pwpolicy_show' to server 'https://ipa.example.com/ipa/xml'
ipa: ERROR: Kerberos error: ('Unspecified GSS failure.  Minor code may provide more information', 851968)/('No Kerberos credentials available', -1765328243)
[admin@ipa ~]$

更新2：内容/etc/krb5.conf如下：

includedir /var/lib/sss/pubconf/krb5.include.d/

[logging]
 default = FILE:/var/log/krb5libs.log
 kdc = FILE:/var/log/krb5kdc.log
 admin_server = FILE:/var/log/kadmind.log

[libdefaults]
 default_realm = EXAMPLE.COM
 dns_lookup_realm = false
 dns_lookup_kdc = true
 rdns = false
 ticket_lifetime = 24h
 forwardable = yes
 default_ccache_name = KEYRING:persistent:%{uid}

[realms]
 EXAMPLE.COM = {
  kdc = ipa.example.com:88
  master_kdc = ipa.example.com:88
  admin_server = ipa.example.com:749
  default_domain = example.com
  pkinit_anchors = FILE:/etc/ipa/ca.crt
}

[domain_realm]
 .example.com = EXAMPLE.COM
 example.com = EXAMPLE.COM

[dbmodules]
  EXAMPLE.COM = {
    db_library = ipadb.so
  }

更新 3：这是一个单服务器安装，发行版是 Fedora 19，FreeIPA 版本是 3.3.5

Alex

Asked: 2014-07-01 04:26:20 +0800 CST

无法更改 FreeIPA 管理员的密码 - “当前密码的最短使用期限尚未过期”

7

我们有一个基于 FreeIPA 的系统，管理员密码已过期，需要更改，但通过 SSH 的标准密码更改程序失败：

sashka@cellar ~ ssh [email protected]
[email protected]'s password: 
Password expired. Change your password now.
Last failed login: Mon Jun 30 15:38:21 MSK 2014 from 116.10.191.195 on ssh:notty
There were 6071 failed login attempts since the last successful login.
Last login: Wed Apr 16 19:28:54 2014
WARNING: Your password has expired.
You must change your password now and login again!
Changing password for user admin.
Current Password: 
New password: 
Retype new password: 
Password change failed. Server message: Current password's minimum life has not expired

Password not changed.
passwd: Authentication token manipulation error
Connection to ipa.xxxxxxxxxx.com closed.

如果我们尝试使用passwd它更改密码也会失败并显示相同的错误消息：

[admin@ipa ~]$ passwd
Changing password for user admin.
Current Password: 
New password: 
Retype new password: 
Password change failed. Server message: Current password's minimum life has not expired

Password not changed.
passwd: Authentication token manipulation error
[admin@ipa ~]$

我们应该怎么做才能解决这种情况？

Alex

Asked: 2013-09-26 06:34:29 +0800 CST

KVM 客户机上的路由突然中断

1

我有一个基于 CentOS 的主机和一个基于 KVM Debian 的虚拟机。主机在其外部网络接口上有一个以太网桥，KVM 使用这个桥：

br0       Link encap:Ethernet  HWaddr 00:25:90:01:5E:92  
          inet addr:5.XX.XX.84  Bcast:5.XX.XX.255  Mask:255.255.255.0
          inet6 addr: fe80::fc54:ff:feaf:95b3/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:2893439068 errors:0 dropped:0 overruns:0 frame:0
          TX packets:2943859744 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:3109906781642 (2.8 TiB)  TX bytes:3271403241664 (2.9 TiB)

br0:0     Link encap:Ethernet  HWaddr 00:25:90:01:5E:92  
          inet addr:10.228.0.1  Bcast:10.228.0.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1

网桥有两个 IP，一个是外部 IP，另一个来自主机和来宾之间的虚拟 LAN。它充当来宾的默认网关。STP 在网桥上关闭。

问题是客人以某种方式获得了一个奇怪的路由规则：

root@new:~# ip route get 50.31.164.148
50.31.164.148 via 5.XX.XX.81 dev eth0  src 10.228.0.250 
    cache  ipid 0x0dfb rtt 4.781s rttvar 4.297s ssthresh 7 cwnd 9
root@new:~#

5.XX.XX.81是主机的默认网关，我在来宾的静态路由表中的任何地方都找不到这个 IP：

root@new:~# ip route list
default via 10.228.0.1 dev eth0 
10.116.0.0/16 via 10.116.0.146 dev tun0 
10.116.0.146 dev tun0  proto kernel  scope link  src 10.116.0.145 
10.228.0.0/24 dev eth0  proto kernel  scope link  src 10.228.0.250

我想知道这是怎么可能的，我们应该怎么做才能防止这种情况发生？当然，ip route flush cache救了我们，但我们绝对要消除问题本身，不要盲目地定期刷新路由缓存。

Alex

Asked: 2013-05-31 09:37:24 +0800 CST

HBase：hbck 无法修复区域不一致

3

我们在 Hadoop 1.0.4 上使用标准的 HBase 0.94.4。HBase 区域之一停留在过渡状态，我在运行时得到以下信息/opt/hbase/bin/hbase hbck：

ERROR: Region { meta => dev1_sliceagg_location_file,,1369128923119.21accc8b27bbd501ed4d3575d6ee725e., hdfs => hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_location_file/21accc8b27bbd501ed4d3575d6ee725e, deployed =>  } not deployed on any region server.
ERROR: Region { meta => crash_experiment_sliceagg_client_file,,1369316587953.46e475f415d83f0d5caebccf67acc696., hdfs => hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_client_file/46e475f415d83f0d5caebccf67acc696, deployed =>  } not deployed on any region server.
ERROR: Region { meta => dev1_sliceagg_client_file,\x94\xDC\x97\x85\x94\x15\xAFO\xFEv\xE5}2\xBA\xE6\xC5\x8E\x87'\x0CG\x04\xCF)Q\xE1\xE7\x82\x0Dl\x8A+\x90\x18\xF8{2?\xD2]~6oO\x0F\\x97\x96\xBF\xE5Fc6|\xE8x\xF6+\x09s\xAF\xC9\xC3\xC8\x00<\x11\x00\x00\x00\x00\x00,1369315360949.92fc7ad4623318547cf7f4cb13e3afdc., hdfs => hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_client_file/92fc7ad4623318547cf7f4cb13e3afdc, deployed =>  } not deployed on any region server.
13/05/23 18:54:16 DEBUG util.HBaseFsck: There are 64 region info entries
ERROR: There is a hole in the region chain between \x94\xDC\x97\x85\x94\x15\xAFO\xFEv\xE5}2\xBA\xE6\xC5\x8E\x87'\x0CG\x04\xCF)Q\xE1\xE7\x82\x0Dl\x8A+\x90\x18\xF8{2?\xD2]~6oO\x0F\\x97\x96\xBF\xE5Fc6|\xE8x\xF6+\x09s\xAF\xC9\xC3\xC8\x00<\x11\x00\x00\x00\x00\x00 and \xC80\xCD\x96\xBF-\xB0\xB6hm\x80\xE5\xD7\xDE\xAF\xB0\x0ANWW\xAE\x09\xFA\x96"\xE3\x15\x8C\xC1\xAE\xF1\x14\xEDWNB\x0EW7N2\x8C|Re\x04\xEC\xA5i\xC1d(yf\xF0`\x19\xEC |\xB1\x7F,T@6\x00\x00\x00\x00\x00\x00.  You need to create a new .regioninfo and region dir in hdfs to plug the hole.
ERROR: Found inconsistency in table dev1_sliceagg_client_file
ERROR: (region dev1_sliceagg_location_file,\x80+\x02)\xD9\x04\xE2\x8C\x1E\xA9\xA5'J\xB4W\xFC\xD4\x8C\x86Kgx\x87"\x0C\x14\x8F\xCD\x00p\x11\xEB\xB7;\x98\x9B02J[\x07\xF0\xE8\xAE\xC1m\xFF\xA4\x00$\x01\x00\x00\x00\x00\x00\x00\x00\x03\xEE\x00\x00\x00\x00\x00\x00?\xB2\x00\x00\x00\x00\x00\x00\x0A\xB5,1369128923119.f7b1c0288f9fcc36ebceca091103ac18.) First region should start with an empty key.  You need to  create a new region and regioninfo in HDFS to plug the hole.
ERROR: Found inconsistency in table dev1_sliceagg_location_file
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_file_stat/06f163c5f5e79b02e260f3b2752c9cb8/.oldlogs/hlog.1369315359473
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/-ROOT-/70236052/.oldlogs/hlog.1358951260249
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_client_file/92fc7ad4623318547cf7f4cb13e3afdc/.oldlogs/hlog.1369315360956
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_client_file/46e475f415d83f0d5caebccf67acc696/.oldlogs/hlog.1369316587995
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/.META./1028785192/.oldlogs/hlog.1358951260483

/opt/hbase/bin/hbase hbck -fix没有解决任何问题，因为它卡在了打印Region still in transition, waiting for it to become assigned错误消息中。 /opt/hbase/bin/hbase hbck -repairHoles也无济于事。我们应该怎么做才能解决这种情况？

Alex

Asked: 2013-04-06 16:58:35 +0800 CST

我们在使用 SFU 安装在 Win XP 主机上的 Debian Linux 主机上有一个 NFS 共享。我们可以在共享上创建文件夹或从中删除文件，但无法对其执行文件写入或读取操作（例如，copy file.ext n:\长时间阻塞并最终因The remote system refused the network connection错误而终止）。安装时，我们在客户端尝试了 TCP 和 UDP。这两台机器之间的防火墙上的所有端口都是打开的。Win XP 事件日志和服务器端的系统日志中没有任何相关内容。这显然不是权限问题，因为我们可以创建文件夹。我们可以做些什么来找到这个问题的根本原因？

更新：我使用 Wireshark 捕获了一个 NFS 会话，发现根本原因是锁定问题，NFS 服务器不断向客户端调用应答 NFS_DENIED_GRACE_PERIOD 状态。现在的问题是如何解决这个锁定问题？

Alex

Asked: 2013-04-03 07:41:33 +0800 CST

非交互式 ssh 会话不会终止，sshd 进程在脚本退出后永远等待

6

我们使用像 .这样的命令远程运行一个简单的部署脚本ssh [email protected] sudo /root/run-chef-client.sh。它今天开始挂起，因为在已经完成之后sshd永远等待。我们从调试模式开始，得到了两种不同类型的日志。下面是session没有挂起时的正常log：10.170.4.11sudosshd

debug1: Received SIGCHLD.
debug1: session_by_pid: pid 23187
debug1: session_exit_message: session 0 channel 0 pid 23187
debug1: session_exit_message: release channel 0
Received disconnect from 10.170.4.6: 11: disconnected by user

当它挂起时，我们得到以下信息：

debug1: Received SIGCHLD.
debug1: session_by_pid: pid 24209
debug1: session_exit_message: session 0 channel 0 pid 24209
debug1: session_exit_message: release channel 0

我们的理解是服务器进程等待来自客户端的一些通信，但永远不会得到它。很难判断是客户端问题还是服务器端问题。我们试图在sshd下面运行strace但没有成功，因为在sudo这种情况下忽略了 SUID 位。那么，我们还应该尝试调试/防止这种情况吗？

Alex

Asked: 2013-01-12 18:01:29 +0800 CST

在单个 Linux 服务器上运行不同文件系统的性能影响

13

《HBase：权威指南》一书指出

不建议在单个服务器上安装不同的文件系统。这会对性能产生不利影响，因为内核可能必须拆分缓冲区缓存以支持不同的文件系统。据报道，对于某些操作系统，这可能会产生毁灭性的性能影响。

这真的适用于 Linux 吗？我从未见过大于 300 MB 的缓冲区缓存，而且大多数现代服务器都有 GB 的 RAM，因此在不同文件系统之间拆分缓冲区缓存应该不是问题。我还缺少其他东西吗？

Alex

Asked: 2012-11-25 02:57:57 +0800 CST

SmartOS 自发重启

0

我在 Hetzner EX4S（Intel Core i7-2600、32G RAM、2x3Tb SATA HDD）上运行 SmartOS 系统。主机上有六个虚拟机：

[root@10-bf-48-7f-e7-03 ~]# vmadm list
UUID                                  TYPE  RAM      STATE             ALIAS
d2223467-bbe5-4b81-a9d1-439e9a66d43f  KVM   512      running           xxxx1
5f36358f-68fa-4351-b66f-830484b9a6ee  KVM   1024     running           xxxx2
d570e9ac-9eac-4e4f-8fda-2b1d721c8358  OS    1024     running           xxxx3
ef88979e-fb7f-460c-bf56-905755e0a399  KVM   1024     running           xxxx4
d8e06def-c9c9-4d17-b975-47dd4836f962  KVM   4096     running           xxxx5
4b06fe88-db6e-4cf3-aadd-e1006ada7188  KVM   9216     running           xxxx5
[root@10-bf-48-7f-e7-03 ~]#

主机每周重启几次，但没有故障转储，日志中/var/crash也没有任何消息。/var/adm/messages基本上/var/adm/messages看起来像是硬重置：

2012-11-23T08:54:43.210625+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:14:43.187589+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:34:43.165100+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:54:43.142065+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:14:43.119365+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:34:43.096351+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:54:43.073821+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:57:55.610954+00:00 10-bf-48-7f-e7-03 genunix: [ID 540533 kern.notice] #015SunOS Release 5.11 Version joyent_20121018T224723Z 64-bit
2012-11-23T10:57:55.610962+00:00 10-bf-48-7f-e7-03 genunix: [ID 299592 kern.notice] Copyright (c) 2010-2012, Joyent Inc. All rights reserved.
2012-11-23T10:57:55.610967+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: lgpg
2012-11-23T10:57:55.610971+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: tsc
2012-11-23T10:57:55.610974+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: msr
2012-11-23T10:57:55.610978+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mtrr
2012-11-23T10:57:55.610981+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: pge
2012-11-23T10:57:55.610984+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: de
2012-11-23T10:57:55.610987+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: cmov
2012-11-23T10:57:55.610995+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mmx
2012-11-23T10:57:55.611000+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mca
2012-11-23T10:57:55.611004+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: pae
2012-11-23T10:57:55.611008+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: cv8

问题是有时主机在重启时会丢失网络接口，因此我们需要执行手动硬件重置才能恢复。我们没有对服务器控制台的物理或虚拟访问权限——没有 KVM、没有 iLO 或类似的东西。因此，调试的唯一方法是分析故障转储/日志文件。我不是 SmartOS/Solaris 专家，所以我不确定如何进行。是否有适用于 SmartOS 的 Linux 网络控制台的等价物？我可以以某种方式将控制台输出重定向到网络端口吗？也许我遗漏了一些明显的东西并且崩溃信息位于其他地方。

Alex

Asked: 2012-10-05 13:33:20 +0800 CST

通过 OpenVPN 链接的 ospfd - 日志中的奇怪错误

0

我正在尝试ospfd在通过 OpenVPN 链接连接的两台主机上设置 Quagga。这些主机具有 VPN IP10.31.0.1和10.31.0.13. ospfd配置非常简单：

hostname bizon
password xxxxxxxxx
enable password xxxxxxxxx
!
log file /var/log/quagga/ospfd.log
!
interface lo
!
interface tun0
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
interface tun1
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
interface tun2
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
!
router ospf
ospf router-id 10.31.0.1
network 10.31.0.0/16 area 0.0.0.0
network 10.119.2.0/24 area 0.0.0.0
redistribute connected
area 0.0.0.0 range 10.0.0.0/8
!
line vty
!
debug ospf event
debug ospf packet all

我在ospfd.log（日志来自10.31.0.13）中收到以下错误：

2012/10/05 01:25:28 OSPF: ip_v 4
2012/10/05 01:25:28 OSPF: ip_hl 5
2012/10/05 01:25:28 OSPF: ip_tos 192
2012/10/05 01:25:28 OSPF: ip_len 64
2012/10/05 01:25:28 OSPF: ip_id 64666
2012/10/05 01:25:28 OSPF: ip_off 0
2012/10/05 01:25:28 OSPF: ip_ttl 1
2012/10/05 01:25:28 OSPF: ip_p 89
2012/10/05 01:25:28 OSPF: ip_sum 0xe5d1
2012/10/05 01:25:28 OSPF: ip_src 10.31.0.1
2012/10/05 01:25:28 OSPF: ip_dst 224.0.0.5
2012/10/05 01:25:28 OSPF: Packet from [10.31.0.1] received on link tun1 but no ospf_interface

我不确定下一步该怎么做。我已经多次通过 OpenVPN 进行设置，ospfd但我使用的是 Debian，现在我使用的是 CentOS 6。Quagga 版本是 0.99.15。我应该尝试获取更新的版本吗？

tun1      Link encap:UNSPEC  HWaddr 00-00-00-00-00-00-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.31.0.13  P-t-P:10.31.0.14  Mask:255.255.255.255
          UP POINTOPOINT RUNNING NOARP MULTICAST  MTU:1500  Metric:1
          RX packets:19888 errors:0 dropped:0 overruns:0 frame:0
          TX packets:859 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:100 
          RX bytes:1207870 (1.1 MiB)  TX bytes:70797 (69.1 KiB)

Alex

Asked: 2012-10-03 13:50:56 +0800 CST

PostgreSQL 灾难恢复选项

1

我的客户有一个相当大的（总“数据”文件夹大小为 200G）的 PostgreSQL 数据库，我们正在制定灾难恢复计划。到目前为止，我们已经确定了三种不同类型的灾难：硬件中断、负载过多以及由于错误执行错误迁移（如 DELETE 或 ALTER TABLE DROP COLUMN）而导致的意外数据丢失。

前两种似乎很容易缓解，但我们无法为第三种制定好的缓解计划。我提议使用 ZFS 和频繁（每小时）快照，但如今“ZFS”意味着“OpenIndiana”，而我们的 Ops 工程师在这方面没有太多专业知识，因此使用 OpenIndiana 会带来另一个风险。同事们试图说服我，从 PostgreSQL PITR 备份恢复可以和从 ZFS 快照恢复一样快，但我非常怀疑重放，比如说，50G 的归档 WAL 可以被认为是“快速”。

我们还缺少哪些其他选择？ZFS 是唯一可行的选择吗？我们能否在 Linux 环境中获得快速的 Pg DB 恢复时间？

Alex

Asked: 2012-09-07 05:47:03 +0800 CST

如何在 Chef 控制的环境中组织部署过程？

3

我有一个基于 Linux 的 Web 基础设施，它由 15 个虚拟机和 50 多种服务组成。它完全由 Chef 控制。大多数服务都是在内部开发的。

基本上，当前的部署过程是由 shell 脚本触发的。构建系统（Python 和 shell 脚本的混合）将服务打包为.deb文件并将这些包放入存储库中。它apt-get update在所有 15 个节点上运行，因为标准的 Chef aptcookbookapt-get每天只运行一次，我们绝对不希望apt-get update在每次chef-client唤醒时无条件运行。构建系统chef-client最终在所有 15 个节点上重新启动守护进程（我们需要这一步，因为 pull Chef 性质）。

目前的流程有许多我们想要解决的缺点。首先，它是异步的，因为部署脚本在重启后不检查chef-client日志，所以我们甚至不知道部署是否成功。它甚至不等待 Chef 客户端完成循环。其次，我们绝对不想chef-client在所有节点上强制重启，因为我们通常只部署少量的包。第三，我不太确定chef-client用于部署是否合法，可能我们从一开始就做错了。请分享您的想法/经验。

Alex

Asked: 2012-07-09 13:00:23 +0800 CST

MySQL 开始消耗大约 40% 的系统 CPU 时间并且突然没有响应

2

我使用 Dotdeb 存储库中的 Debian 6.0.3 x86_64 和 MySQL 5.5.20-1~dotdeb.0-log。根据此图，MySQL 进程几个小时前开始消耗大量“sy”CPU 时间。我无法连接到正在运行的mysqld进程，不得不终止它。我在日志中没有发现任何有用的东西。我的设置似乎很常见（我假设 Dotdeb 只是重新分发现有的 MySQL 版本）而且我以前从未见过这样的事情。这可能的根本原因是什么？我怎样才能防止将来出现这种情况？

Alex

Asked: 2012-06-19 08:39:35 +0800 CST

软件中断 CPU 时间很高并且持续增长

4

我的系统是一个带有内核 2.6.32-5-openvz-amd64 的 Debian 6.0.3 x86_64 盒子，它托管了许多 OpenVZ 容器。我最近从 LXC/较新的内核从 backports repo 迁移到稳定的 OpenVZ 内核以解决网络问题但遇到了另一个问题 - CPU 花费大量时间处理软件中断。这是 CPU 时间的 Munin 图：http: //prntscr.com/arjzl。

我将nohz=offand添加highres=off到内核命令行，但这并没有太大帮助。而且，根据另一个 Munin 图：http ://prntscr.com/ark19，此框上的中断数量非常低，因此中断似乎不是导致此问题的原因。当我运行时top，zabbix_server是最多的 CPU 消耗者，但我看不出zabbix_server和软件中断之间有任何关系。

我不确定如何进行调查，这对我来说看起来像是内核错误或内核模块错误，但我不知道如何将其追踪到有罪的进程/模块。也许还有另一个内核命令行参数需要调整。接下来我应该尝试什么？

WiredTiger 存储引擎在 MongoDB 中报告大量回滚

systemd 单元文件中的 ExecStartPost 未启动 docker 服务

FreeIPA：命令行工具不起作用，“没有可用的 Kerberos 凭据”

无法更改 FreeIPA 管理员的密码 - “当前密码的最短使用期限尚未过期”

KVM 客户机上的路由突然中断

ZVOL 的奇怪 ZFS 磁盘空间使用报告

HBase：hbck 无法修复区域不一致

无法从 Win XP 客户端读取/写入 NFS 共享

非交互式 ssh 会话不会终止，sshd 进程在脚本退出后永远等待

在单个 Linux 服务器上运行不同文件系统的性能影响

SmartOS 自发重启

通过 OpenVPN 链接的 ospfd - 日志中的奇怪错误

PostgreSQL 灾难恢复选项

如何在 Chef 控制的环境中组织部署过程？

MySQL 开始消耗大约 40% 的系统 CPU 时间并且突然没有响应

软件中断 CPU 时间很高并且持续增长

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Alex's questions