AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-69133

Alex's questions

Martin Hope
Alex
Asked: 2019-01-31 23:40:28 +0800 CST

WiredTiger 存储引擎在 MongoDB 中报告大量回滚

  • 1

我们有一个由三个成员组成的 MongoDB 复制集:

        "members" : [
                {
                        "_id" : 6,
                        "host" : "10.0.0.17:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                },
                {
                        "_id" : 7,
                        "host" : "10.0.0.18:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                },
                {
                        "_id" : 8,
                        "host" : "10.0.0.19:27017",
                        "arbiterOnly" : false,
                        "buildIndexes" : true,
                        "hidden" : false,
                        "priority" : 2,
                        "tags" : {
                        },
                        "slaveDelay" : NumberLong(0),
                        "votes" : 1
                }
        ],

集群处于中等负载下,每秒不超过几十个请求。 db.serverStatus()在主报告上,几乎所有事务都回滚:

"transaction begins" : 2625009877,
"transaction checkpoint currently running" : 0,
"transaction checkpoint generation" : 22618,
"transaction checkpoint max time (msecs)" : 5849,
"transaction checkpoint min time (msecs)" : 153,
"transaction checkpoint most recent time (msecs)" : 1869,
"transaction checkpoint scrub dirty target" : 0,
"transaction checkpoint scrub time (msecs)" : 0,
"transaction checkpoint total time (msecs)" : 11017082,
"transaction checkpoints" : 22617,
"transaction checkpoints skipped because database was clean" : 0,
"transaction failures due to cache overflow" : 0,
"transaction fsync calls for checkpoint after allocating the transaction ID" : 22617,
"transaction fsync duration for checkpoint after allocating the transaction ID (usecs)" : 354402,
"transaction range of IDs currently pinned" : 0,
"transaction range of IDs currently pinned by a checkpoint" : 0,
"transaction range of IDs currently pinned by named snapshots" : 0,
"transaction range of timestamps currently pinned" : 8589934583,
"transaction range of timestamps pinned by the oldest timestamp" : 8589934583,
"transaction sync calls" : 0,
"transactions committed" : 30213144,
"transactions rolled back" : 2594972913,
"update conflicts" : 578

来自 Grafana 的交易图

基本上,我的问题是:这里发生了什么?有这么多事务和这么多回滚是正常的吗?如果不是,那么根本原因是什么并且需要修复它?

更新。:我们升级到3.6.8-2.0(这是3.6系列中最新的Percona包),问题仍然存在。

mongodb
  • 1 个回答
  • 693 Views
Martin Hope
Alex
Asked: 2017-04-09 06:48:14 +0800 CST

systemd 单元文件中的 ExecStartPost 未启动 docker 服务

  • 0

我正在尝试在 firewalld 和 docker 服务之间建立连接。我通过添加以下内容扩展了默认的 firewalld.service 单元文件:

[Service]
ExecStartPost=-/bin/bash -c '/usr/bin/test -f /etc/default/docker && /bin/systemctl stop docker && /bin/systemctl start docker'

到/etc/systemd/system/firewalld.service.d/docker.conf.

但这不起作用,firewalld 服务在启动时超时:

root@ubuntu-xenial:~# systemctl status firewalld
● firewalld.service - firewalld - dynamic firewall daemon
   Loaded: loaded (/lib/systemd/system/firewalld.service; enabled; vendor preset: enabled)
  Drop-In: /etc/systemd/system/firewalld.service.d
           └─docker.conf
   Active: failed (Result: timeout) since Sat 2017-04-08 14:39:45 UTC; 1min 35s ago
  Process: 26050 ExecStartPost=/bin/bash -c /usr/bin/test -f /etc/default/docker && /bin/systemctl stop docker && /bin/systemctl start docker (code=killed, signal=TERM)
  Process: 26000 ExecStart=/usr/sbin/firewalld --nofork --nopid (code=exited, status=0/SUCCESS)
 Main PID: 26000 (code=exited, status=0/SUCCESS)

Apr 08 14:38:10 ubuntu-xenial systemd[1]: Starting firewalld - dynamic firewall daemon...
Apr 08 14:39:41 ubuntu-xenial systemd[1]: firewalld.service: Start-post operation timed out. Stopping.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: Failed to start firewalld - dynamic firewall daemon.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: firewalld.service: Unit entered failed state.
Apr 08 14:39:45 ubuntu-xenial systemd[1]: firewalld.service: Failed with result 'timeout'.

我知道,BindTo但Requires我想在 firewalld 的每次状态更改时重新启动 docker 服务,因此这些指令不能解决我的问题。

Upd.: strace显示systemctl start正在等待 unix 套接字:

root@ubuntu-xenial:~# lsof -p 27898
COMMAND     PID USER   FD   TYPE             DEVICE SIZE/OFF   NODE NAME
systemctl 27898 root  cwd    DIR                8,1     4096      2 /
systemctl 27898 root  rtd    DIR                8,1     4096      2 /
systemctl 27898 root  txt    REG                8,1   659848    124 /bin/systemctl
systemctl 27898 root  mem    REG                8,1    80496   2057 /lib/x86_64-linux-gnu/libgpg-error.so.0.17.0
systemctl 27898 root  mem    REG                8,1    14608   2060 /lib/x86_64-linux-gnu/libdl-2.23.so
systemctl 27898 root  mem    REG                8,1   456632   2144 /lib/x86_64-linux-gnu/libpcre.so.3.13.2
systemctl 27898 root  mem    REG                8,1  1864888   2066 /lib/x86_64-linux-gnu/libc-2.23.so
systemctl 27898 root  mem    REG                8,1   138696   2082 /lib/x86_64-linux-gnu/libpthread-2.23.so
systemctl 27898 root  mem    REG                8,1   919168   2037 /lib/x86_64-linux-gnu/libgcrypt.so.20.0.5
systemctl 27898 root  mem    REG                8,1   137400   2067 /lib/x86_64-linux-gnu/liblzma.so.5.0.0
systemctl 27898 root  mem    REG                8,1    31712   2077 /lib/x86_64-linux-gnu/librt-2.23.so
systemctl 27898 root  mem    REG                8,1   130224   2154 /lib/x86_64-linux-gnu/libselinux.so.1
systemctl 27898 root  mem    REG                8,1   162632   2069 /lib/x86_64-linux-gnu/ld-2.23.so
systemctl 27898 root    0r   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    1w   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    2w   CHR                1,3      0t0      6 /dev/null
systemctl 27898 root    3u  unix 0xffff880003155400      0t0 177152 type=STREAM
root@ubuntu-xenial:~# strace -p 27898
strace: Process 27898 attached
ppoll([{fd=3, events=POLLIN}], 1, NULL, NULL, 8 <unfinished ...>
+++ killed by SIGKILL +++
root@ubuntu-xenial:~#

更新。2:根据gdb,systemctl在 DBus 调用上被阻塞:

root@ubuntu-xenial:~# gdb -ex "set pagination 0" -ex "thread apply all bt" --batch -p 18145
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
0x00007f99b3edebcd in __GI_ppoll (fds=0x7ffc098bb800, nfds=1, timeout=<optimized out>, sigmask=0x0) at ../sysdeps/unix/sysv/linux/ppoll.c:50
50  ../sysdeps/unix/sysv/linux/ppoll.c: No such file or directory.

Thread 1 (Thread 0x7f99b4f0d880 (LWP 18145)):
#0  0x00007f99b3edebcd in __GI_ppoll (fds=0x7ffc098bb800, nfds=1, timeout=<optimized out>, sigmask=0x0) at ../sysdeps/unix/sysv/linux/ppoll.c:50
#1  0x000056094741272e in ppoll () at /usr/include/x86_64-linux-gnu/bits/poll2.h:71
#2  bus_poll.lto_priv.198 (bus=0x560948d86040, need_more=<optimized out>, timeout_usec=<optimized out>) at ../src/libsystemd/sd-bus/sd-bus.c:2874
#3  0x00005609473b435e in bus_process_wait (bus=0x560948d86040) at ../src/shared/bus-util.c:1993
#4  bus_wait_for_jobs (extra_args=0x0, quiet=false, d=0x560948d86910) at ../src/shared/bus-util.c:2136
#5  start_unit.lto_priv.362 (argc=<optimized out>, argv=<optimized out>, userdata=<optimized out>) at ../src/systemctl/systemctl.c:2787
#6  0x00005609473b0716 in dispatch_verb (verbs=0x56094743f760 <verbs>, userdata=0x0, argv=0x7ffc098bbb38, argc=<optimized out>) at ../src/basic/verbs.c:92
#7  systemctl_main () at ../src/systemctl/systemctl.c:7447
#8  main (argc=<optimized out>, argv=0x7ffc098bbb38) at ../src/systemctl/systemctl.c:7713
root@ubuntu-xenial:~#
docker
  • 1 个回答
  • 4305 Views
Martin Hope
Alex
Asked: 2014-07-01 12:25:25 +0800 CST

FreeIPA:命令行工具不起作用,“没有可用的 Kerberos 凭据”

  • 4

我们有一个可用的 FreeIPA 安装,它从 2 月开始投入生产。几乎一切都按预期工作,但是当我们尝试运行命令行 FreeIPA 相关工具时,它们都不起作用:

[admin@ipa ~]$ kinit admin
Password for admin@EXAMPLE.COM: 
[admin@ipa ~]$ klist
Ticket cache: KEYRING:persistent:8800000
Default principal: admin@EXAMPLE.COM

Valid starting       Expires              Service principal
06/30/2014 21:19:30  07/01/2014 21:19:12  krbtgt/EXAMPLE.COM@EXAMPLE.COM
[admin@ipa ~]$ ipa pwpolicy-show global_policy
ipa: ERROR: Kerberos error: ('Unspecified GSS failure.  Minor code may provide more information', 851968)/('No Kerberos credentials available', -1765328243)
[admin@ipa ~]$

我不是 Kerberos 专家,也不知道要检查什么。我们如何调试和解决这个问题?

更新:当我添加时,-vv我得到以下信息:

[admin@ipa ~]$ ipa -vv pwpolicy-show global_policy
ipa: INFO: trying https://ipa.example.com/ipa/xml
ipa: INFO: Forwarding 'pwpolicy_show' to server 'https://ipa.example.com/ipa/xml'
ipa: ERROR: Kerberos error: ('Unspecified GSS failure.  Minor code may provide more information', 851968)/('No Kerberos credentials available', -1765328243)
[admin@ipa ~]$

更新2:内容/etc/krb5.conf如下:

includedir /var/lib/sss/pubconf/krb5.include.d/

[logging]
 default = FILE:/var/log/krb5libs.log
 kdc = FILE:/var/log/krb5kdc.log
 admin_server = FILE:/var/log/kadmind.log

[libdefaults]
 default_realm = EXAMPLE.COM
 dns_lookup_realm = false
 dns_lookup_kdc = true
 rdns = false
 ticket_lifetime = 24h
 forwardable = yes
 default_ccache_name = KEYRING:persistent:%{uid}

[realms]
 EXAMPLE.COM = {
  kdc = ipa.example.com:88
  master_kdc = ipa.example.com:88
  admin_server = ipa.example.com:749
  default_domain = example.com
  pkinit_anchors = FILE:/etc/ipa/ca.crt
}

[domain_realm]
 .example.com = EXAMPLE.COM
 example.com = EXAMPLE.COM

[dbmodules]
  EXAMPLE.COM = {
    db_library = ipadb.so
  }

更新 3:这是一个单服务器安装,发行版是 Fedora 19,FreeIPA 版本是 3.3.5

kerberos
  • 1 个回答
  • 18990 Views
Martin Hope
Alex
Asked: 2014-07-01 04:26:20 +0800 CST

无法更改 FreeIPA 管理员的密码 - “当前密码的最短使用期限尚未过期”

  • 7

我们有一个基于 FreeIPA 的系统,管理员密码已过期,需要更改,但通过 SSH 的标准密码更改程序失败:

sashka@cellar ~ ssh admin@ipa.xxxxxxxxxx.com
admin@ipa.xxxxxxxxxx.com's password: 
Password expired. Change your password now.
Last failed login: Mon Jun 30 15:38:21 MSK 2014 from 116.10.191.195 on ssh:notty
There were 6071 failed login attempts since the last successful login.
Last login: Wed Apr 16 19:28:54 2014
WARNING: Your password has expired.
You must change your password now and login again!
Changing password for user admin.
Current Password: 
New password: 
Retype new password: 
Password change failed. Server message: Current password's minimum life has not expired

Password not changed.
passwd: Authentication token manipulation error
Connection to ipa.xxxxxxxxxx.com closed.

如果我们尝试使用passwd它更改密码也会失败并显示相同的错误消息:

[admin@ipa ~]$ passwd
Changing password for user admin.
Current Password: 
New password: 
Retype new password: 
Password change failed. Server message: Current password's minimum life has not expired

Password not changed.
passwd: Authentication token manipulation error
[admin@ipa ~]$

我们应该怎么做才能解决这种情况?

kerberos
  • 1 个回答
  • 5780 Views
Martin Hope
Alex
Asked: 2013-09-26 06:34:29 +0800 CST

KVM 客户机上的路由突然中断

  • 1

我有一个基于 CentOS 的主机和一个基于 KVM Debian 的虚拟机。主机在其外部网络接口上有一个以太网桥,KVM 使用这个桥:

br0       Link encap:Ethernet  HWaddr 00:25:90:01:5E:92  
          inet addr:5.XX.XX.84  Bcast:5.XX.XX.255  Mask:255.255.255.0
          inet6 addr: fe80::fc54:ff:feaf:95b3/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:2893439068 errors:0 dropped:0 overruns:0 frame:0
          TX packets:2943859744 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:3109906781642 (2.8 TiB)  TX bytes:3271403241664 (2.9 TiB)

br0:0     Link encap:Ethernet  HWaddr 00:25:90:01:5E:92  
          inet addr:10.228.0.1  Bcast:10.228.0.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1

网桥有两个 IP,一个是外部 IP,另一个来自主机和来宾之间的虚拟 LAN。它充当来宾的默认网关。STP 在网桥上关闭。

问题是客人以某种方式获得了一个奇怪的路由规则:

root@new:~# ip route get 50.31.164.148
50.31.164.148 via 5.XX.XX.81 dev eth0  src 10.228.0.250 
    cache  ipid 0x0dfb rtt 4.781s rttvar 4.297s ssthresh 7 cwnd 9
root@new:~# 

5.XX.XX.81是主机的默认网关,我在来宾的静态路由表中的任何地方都找不到这个 IP:

root@new:~# ip route list
default via 10.228.0.1 dev eth0 
10.116.0.0/16 via 10.116.0.146 dev tun0 
10.116.0.146 dev tun0  proto kernel  scope link  src 10.116.0.145 
10.228.0.0/24 dev eth0  proto kernel  scope link  src 10.228.0.250 

我想知道这是怎么可能的,我们应该怎么做才能防止这种情况发生?当然,ip route flush cache救了我们,但我们绝对要消除问题本身,不要盲目地定期刷新路由缓存。

routing
  • 1 个回答
  • 500 Views
Martin Hope
Alex
Asked: 2013-05-31 09:37:24 +0800 CST

ZVOL 的奇怪 ZFS 磁盘空间使用报告

  • 9

我们在 FreeBSD 10.0-CURRENT 主机上有一个 100G ZVOL,它声称使用 176G 磁盘空间:

root@storage01:~ # zfs get all zroot/DATA/vtest
NAME              PROPERTY              VALUE                  SOURCE
zroot/DATA/vtest  type                  volume                 -
zroot/DATA/vtest  creation              Fri May 24 20:44 2013  -
zroot/DATA/vtest  used                  176G                   -
zroot/DATA/vtest  available             10.4T                  -
zroot/DATA/vtest  referenced            176G                   -
zroot/DATA/vtest  compressratio         1.00x                  -
zroot/DATA/vtest  reservation           none                   default
zroot/DATA/vtest  volsize               100G                   local
zroot/DATA/vtest  volblocksize          8K                     -
zroot/DATA/vtest  checksum              fletcher4              inherited from zroot
zroot/DATA/vtest  compression           off                    default
zroot/DATA/vtest  readonly              off                    default
zroot/DATA/vtest  copies                1                      default
zroot/DATA/vtest  refreservation        none                   local
zroot/DATA/vtest  primarycache          all                    default
zroot/DATA/vtest  secondarycache        all                    default
zroot/DATA/vtest  usedbysnapshots       0                      -
zroot/DATA/vtest  usedbydataset         176G                   -
zroot/DATA/vtest  usedbychildren        0                      -
zroot/DATA/vtest  usedbyrefreservation  0                      -
zroot/DATA/vtest  logbias               latency                default
zroot/DATA/vtest  dedup                 off                    default
zroot/DATA/vtest  mlslabel                                     -
zroot/DATA/vtest  sync                  standard               default
zroot/DATA/vtest  refcompressratio      1.00x                  -
zroot/DATA/vtest  written               176G                   -
zroot/DATA/vtest  logicalused           87.2G                  -
zroot/DATA/vtest  logicalreferenced     87.2G                  -
root@storage01:~ # 

volsize这看起来像一个错误,如果它没有快照、预订和孩子,它怎么会消耗更多呢?或者我们错过了什么?

更新:

结果zpool status -v:

root@storage01:~ # zpool status -v
  pool: zroot
 state: ONLINE
  scan: scrub repaired 0 in 0h6m with 0 errors on Thu May 30 05:45:11 2013
config:

        NAME           STATE     READ WRITE CKSUM
        zroot          ONLINE       0     0     0
          raidz2-0     ONLINE       0     0     0
            gpt/disk0  ONLINE       0     0     0
            gpt/disk1  ONLINE       0     0     0
            gpt/disk2  ONLINE       0     0     0
            gpt/disk3  ONLINE       0     0     0
            gpt/disk4  ONLINE       0     0     0
            gpt/disk5  ONLINE       0     0     0
        cache
          ada0s2       ONLINE       0     0     0

errors: No known data errors
root@storage01:~ # 

结果zpool list:

root@storage01:~ # zpool list
NAME    SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
zroot  16.2T   288G  16.0T     1%  1.05x  ONLINE  -
root@storage01:~ # 

结果zfs list:

root@storage01:~ # zfs list
NAME                            USED  AVAIL  REFER  MOUNTPOINT
zroot                           237G  10.4T   288K  /
zroot/DATA                      227G  10.4T   352K  /DATA
zroot/DATA/NFS                  288K  10.4T   288K  /DATA/NFS
zroot/DATA/hv                  10.3G  10.4T   288K  /DATA/hv
zroot/DATA/hv/hv001            10.3G  10.4T   144K  -
zroot/DATA/test                 288K  10.4T   288K  /DATA/test
zroot/DATA/vimage              41.3G  10.4T   288K  /DATA/vimage
zroot/DATA/vimage/vimage_001   41.3G  10.5T  6.47G  -
zroot/DATA/vtest                176G  10.4T   176G  -
zroot/SYS                      9.78G  10.4T   288K  /SYS
zroot/SYS/ROOT                  854M  10.4T   854M  /
zroot/SYS/home                 3.67G  10.4T  3.67G  /home
zroot/SYS/tmp                   352K  10.4T   352K  /tmp
zroot/SYS/usr                  4.78G  10.4T   427M  /usr
zroot/SYS/usr/local             288K  10.4T   288K  /usr/local
zroot/SYS/usr/obj              3.50G  10.4T  3.50G  /usr/obj
zroot/SYS/usr/ports             895K  10.4T   320K  /usr/ports
zroot/SYS/usr/ports/distfiles   288K  10.4T   288K  /usr/ports/distfiles
zroot/SYS/usr/ports/packages    288K  10.4T   288K  /usr/ports/packages
zroot/SYS/usr/src               887M  10.4T   887M  /usr/src
zroot/SYS/var                   511M  10.4T  1.78M  /var
zroot/SYS/var/crash             505M  10.4T   505M  /var/crash
zroot/SYS/var/db               1.71M  10.4T  1.43M  /var/db
zroot/SYS/var/db/pkg            288K  10.4T   288K  /var/db/pkg
zroot/SYS/var/empty             288K  10.4T   288K  /var/empty
zroot/SYS/var/log               647K  10.4T   647K  /var/log
zroot/SYS/var/mail              296K  10.4T   296K  /var/mail
zroot/SYS/var/run               448K  10.4T   448K  /var/run
zroot/SYS/var/tmp               304K  10.4T   304K  /var/tmp
root@storage01:~ # 

更新 2:

我们创建了许多具有不同参数的 ZVOL 并用于dd移动内容。我们注意到另一件奇怪的事情,磁盘使用对于 16k 和 128k 的 ZVOL 是正常的,而对于 8k 的 ZVOL即使在之后volblocksize它仍然不正常(所以这不是碎片问题):volblocksizedd

root@storage01:~ # zfs get all zroot/DATA/vtest-3
NAME                PROPERTY              VALUE                  SOURCE
zroot/DATA/vtest-3  type                  volume                 -
zroot/DATA/vtest-3  creation              Fri May 31  7:35 2013  -
zroot/DATA/vtest-3  used                  201G                   -
zroot/DATA/vtest-3  available             10.2T                  -
zroot/DATA/vtest-3  referenced            201G                   -
zroot/DATA/vtest-3  compressratio         1.00x                  -
zroot/DATA/vtest-3  reservation           none                   default
zroot/DATA/vtest-3  volsize               100G                   local
zroot/DATA/vtest-3  volblocksize          8K                     -
zroot/DATA/vtest-3  checksum              fletcher4              inherited from zroot
zroot/DATA/vtest-3  compression           off                    default
zroot/DATA/vtest-3  readonly              off                    default
zroot/DATA/vtest-3  copies                1                      default
zroot/DATA/vtest-3  refreservation        103G                   local
zroot/DATA/vtest-3  primarycache          all                    default
zroot/DATA/vtest-3  secondarycache        all                    default
zroot/DATA/vtest-3  usedbysnapshots       0                      -
zroot/DATA/vtest-3  usedbydataset         201G                   -
zroot/DATA/vtest-3  usedbychildren        0                      -
zroot/DATA/vtest-3  usedbyrefreservation  0                      -
zroot/DATA/vtest-3  logbias               latency                default
zroot/DATA/vtest-3  dedup                 off                    default
zroot/DATA/vtest-3  mlslabel                                     -
zroot/DATA/vtest-3  sync                  standard               default
zroot/DATA/vtest-3  refcompressratio      1.00x                  -
zroot/DATA/vtest-3  written               201G                   -
zroot/DATA/vtest-3  logicalused           100G                   -
zroot/DATA/vtest-3  logicalreferenced     100G                   -
root@storage01:~ # 

和

root@storage01:~ # zfs get all zroot/DATA/vtest-16
NAME                 PROPERTY              VALUE                  SOURCE
zroot/DATA/vtest-16  type                  volume                 -
zroot/DATA/vtest-16  creation              Fri May 31  8:03 2013  -
zroot/DATA/vtest-16  used                  102G                   -
zroot/DATA/vtest-16  available             10.2T                  -
zroot/DATA/vtest-16  referenced            101G                   -
zroot/DATA/vtest-16  compressratio         1.00x                  -
zroot/DATA/vtest-16  reservation           none                   default
zroot/DATA/vtest-16  volsize               100G                   local
zroot/DATA/vtest-16  volblocksize          16K                    -
zroot/DATA/vtest-16  checksum              fletcher4              inherited from zroot
zroot/DATA/vtest-16  compression           off                    default
zroot/DATA/vtest-16  readonly              off                    default
zroot/DATA/vtest-16  copies                1                      default
zroot/DATA/vtest-16  refreservation        102G                   local
zroot/DATA/vtest-16  primarycache          all                    default
zroot/DATA/vtest-16  secondarycache        all                    default
zroot/DATA/vtest-16  usedbysnapshots       0                      -
zroot/DATA/vtest-16  usedbydataset         101G                   -
zroot/DATA/vtest-16  usedbychildren        0                      -
zroot/DATA/vtest-16  usedbyrefreservation  886M                   -
zroot/DATA/vtest-16  logbias               latency                default
zroot/DATA/vtest-16  dedup                 off                    default
zroot/DATA/vtest-16  mlslabel                                     -
zroot/DATA/vtest-16  sync                  standard               default
zroot/DATA/vtest-16  refcompressratio      1.00x                  -
zroot/DATA/vtest-16  written               101G                   -
zroot/DATA/vtest-16  logicalused           100G                   -
zroot/DATA/vtest-16  logicalreferenced     100G                   -
root@storage01:~ # 
freebsd
  • 2 个回答
  • 9587 Views
Martin Hope
Alex
Asked: 2013-05-24 07:10:20 +0800 CST

HBase:hbck 无法修复区域不一致

  • 3

我们在 Hadoop 1.0.4 上使用标准的 HBase 0.94.4。HBase 区域之一停留在过渡状态,我在运行时得到以下信息/opt/hbase/bin/hbase hbck:

ERROR: Region { meta => dev1_sliceagg_location_file,,1369128923119.21accc8b27bbd501ed4d3575d6ee725e., hdfs => hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_location_file/21accc8b27bbd501ed4d3575d6ee725e, deployed =>  } not deployed on any region server.
ERROR: Region { meta => crash_experiment_sliceagg_client_file,,1369316587953.46e475f415d83f0d5caebccf67acc696., hdfs => hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_client_file/46e475f415d83f0d5caebccf67acc696, deployed =>  } not deployed on any region server.
ERROR: Region { meta => dev1_sliceagg_client_file,\x94\xDC\x97\x85\x94\x15\xAFO\xFEv\xE5}2\xBA\xE6\xC5\x8E\x87'\x0CG\x04\xCF)Q\xE1\xE7\x82\x0Dl\x8A+\x90\x18\xF8{2?\xD2]~6oO\x0F\\x97\x96\xBF\xE5Fc6|\xE8x\xF6+\x09s\xAF\xC9\xC3\xC8\x00<\x11\x00\x00\x00\x00\x00,1369315360949.92fc7ad4623318547cf7f4cb13e3afdc., hdfs => hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_client_file/92fc7ad4623318547cf7f4cb13e3afdc, deployed =>  } not deployed on any region server.
13/05/23 18:54:16 DEBUG util.HBaseFsck: There are 64 region info entries
ERROR: There is a hole in the region chain between \x94\xDC\x97\x85\x94\x15\xAFO\xFEv\xE5}2\xBA\xE6\xC5\x8E\x87'\x0CG\x04\xCF)Q\xE1\xE7\x82\x0Dl\x8A+\x90\x18\xF8{2?\xD2]~6oO\x0F\\x97\x96\xBF\xE5Fc6|\xE8x\xF6+\x09s\xAF\xC9\xC3\xC8\x00<\x11\x00\x00\x00\x00\x00 and \xC80\xCD\x96\xBF-\xB0\xB6hm\x80\xE5\xD7\xDE\xAF\xB0\x0ANWW\xAE\x09\xFA\x96"\xE3\x15\x8C\xC1\xAE\xF1\x14\xEDWNB\x0EW7N2\x8C|Re\x04\xEC\xA5i\xC1d(yf\xF0`\x19\xEC |\xB1\x7F,T@6\x00\x00\x00\x00\x00\x00.  You need to create a new .regioninfo and region dir in hdfs to plug the hole.
ERROR: Found inconsistency in table dev1_sliceagg_client_file
ERROR: (region dev1_sliceagg_location_file,\x80+\x02)\xD9\x04\xE2\x8C\x1E\xA9\xA5'J\xB4W\xFC\xD4\x8C\x86Kgx\x87"\x0C\x14\x8F\xCD\x00p\x11\xEB\xB7;\x98\x9B02J[\x07\xF0\xE8\xAE\xC1m\xFF\xA4\x00$\x01\x00\x00\x00\x00\x00\x00\x00\x03\xEE\x00\x00\x00\x00\x00\x00?\xB2\x00\x00\x00\x00\x00\x00\x0A\xB5,1369128923119.f7b1c0288f9fcc36ebceca091103ac18.) First region should start with an empty key.  You need to  create a new region and regioninfo in HDFS to plug the hole.
ERROR: Found inconsistency in table dev1_sliceagg_location_file
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_file_stat/06f163c5f5e79b02e260f3b2752c9cb8/.oldlogs/hlog.1369315359473
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/-ROOT-/70236052/.oldlogs/hlog.1358951260249
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/dev1_sliceagg_client_file/92fc7ad4623318547cf7f4cb13e3afdc/.oldlogs/hlog.1369315360956
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/crash_experiment_sliceagg_client_file/46e475f415d83f0d5caebccf67acc696/.oldlogs/hlog.1369316587995
13/05/23 18:54:17 WARN regionserver.StoreFile: Failed match of store file name hdfs://192.168.3.100:8020/hbase/.META./1028785192/.oldlogs/hlog.1358951260483

/opt/hbase/bin/hbase hbck -fix没有解决任何问题,因为它卡在了打印Region still in transition, waiting for it to become assigned错误消息中。 /opt/hbase/bin/hbase hbck -repairHoles也无济于事。我们应该怎么做才能解决这种情况?

hbase
  • 1 个回答
  • 11134 Views
Martin Hope
Alex
Asked: 2013-04-06 16:58:35 +0800 CST

无法从 Win XP 客户端读取/写入 NFS 共享

  • 3

我们在使用 SFU 安装在 Win XP 主机上的 Debian Linux 主机上有一个 NFS 共享。我们可以在共享上创建文件夹或从中删除文件,但无法对其执行文件写入或读取操作(例如,copy file.ext n:\长时间阻塞并最终因The remote system refused the network connection错误而终止)。安装时,我们在客户端尝试了 TCP 和 UDP。这两台机器之间的防火墙上的所有端口都是打开的。Win XP 事件日志和服务器端的系统日志中没有任何相关内容。这显然不是权限问题,因为我们可以创建文件夹。我们可以做些什么来找到这个问题的根本原因?

更新:我使用 Wireshark 捕获了一个 NFS 会话,发现根本原因是锁定问题,NFS 服务器不断向客户端调用应答 NFS_DENIED_GRACE_PERIOD 状态。现在的问题是如何解决这个锁定问题?

linux
  • 1 个回答
  • 768 Views
Martin Hope
Alex
Asked: 2013-04-03 07:41:33 +0800 CST

非交互式 ssh 会话不会终止,sshd 进程在脚本退出后永远等待

  • 6

我们使用像 .这样的命令远程运行一个简单的部署脚本ssh deployer@10.170.4.11 sudo /root/run-chef-client.sh。它今天开始挂起,因为在已经完成之后sshd永远等待。我们从调试模式开始,得到了两种不同类型的日志。下面是session没有挂起时的正常log:10.170.4.11sudosshd

debug1: Received SIGCHLD.
debug1: session_by_pid: pid 23187
debug1: session_exit_message: session 0 channel 0 pid 23187
debug1: session_exit_message: release channel 0
Received disconnect from 10.170.4.6: 11: disconnected by user

当它挂起时,我们得到以下信息:

debug1: Received SIGCHLD.
debug1: session_by_pid: pid 24209
debug1: session_exit_message: session 0 channel 0 pid 24209
debug1: session_exit_message: release channel 0

我们的理解是服务器进程等待来自客户端的一些通信,但永远不会得到它。很难判断是客户端问题还是服务器端问题。我们试图在sshd下面运行strace但没有成功,因为在sudo这种情况下忽略了 SUID 位。那么,我们还应该尝试调试/防止这种情况吗?

linux
  • 1 个回答
  • 3186 Views
Martin Hope
Alex
Asked: 2013-01-12 18:01:29 +0800 CST

在单个 Linux 服务器上运行不同文件系统的性能影响

  • 13

《HBase:权威指南》一书指出

不建议在单个服务器上安装不同的文件系统。这会对性能产生不利影响,因为内核可能必须拆分缓冲区缓存以支持不同的文件系统。据报道,对于某些操作系统,这可能会产生毁灭性的性能影响。

这真的适用于 Linux 吗?我从未见过大于 300 MB 的缓冲区缓存,而且大多数现代服务器都有 GB 的 RAM,因此在不同文件系统之间拆分缓冲区缓存应该不是问题。我还缺少其他东西吗?

linux
  • 2 个回答
  • 1087 Views
Martin Hope
Alex
Asked: 2012-11-25 02:57:57 +0800 CST

SmartOS 自发重启

  • 0

我在 Hetzner EX4S(Intel Core i7-2600、32G RAM、2x3Tb SATA HDD)上运行 SmartOS 系统。主机上有六个虚拟机:

[root@10-bf-48-7f-e7-03 ~]# vmadm list
UUID                                  TYPE  RAM      STATE             ALIAS
d2223467-bbe5-4b81-a9d1-439e9a66d43f  KVM   512      running           xxxx1
5f36358f-68fa-4351-b66f-830484b9a6ee  KVM   1024     running           xxxx2
d570e9ac-9eac-4e4f-8fda-2b1d721c8358  OS    1024     running           xxxx3
ef88979e-fb7f-460c-bf56-905755e0a399  KVM   1024     running           xxxx4
d8e06def-c9c9-4d17-b975-47dd4836f962  KVM   4096     running           xxxx5
4b06fe88-db6e-4cf3-aadd-e1006ada7188  KVM   9216     running           xxxx5
[root@10-bf-48-7f-e7-03 ~]#

主机每周重启几次,但没有故障转储,日志中/var/crash也没有任何消息。/var/adm/messages基本上/var/adm/messages看起来像是硬重置:

2012-11-23T08:54:43.210625+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:14:43.187589+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:34:43.165100+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T09:54:43.142065+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:14:43.119365+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:34:43.096351+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:54:43.073821+00:00 10-bf-48-7f-e7-03 rsyslogd: -- MARK --
2012-11-23T10:57:55.610954+00:00 10-bf-48-7f-e7-03 genunix: [ID 540533 kern.notice] #015SunOS Release 5.11 Version joyent_20121018T224723Z 64-bit
2012-11-23T10:57:55.610962+00:00 10-bf-48-7f-e7-03 genunix: [ID 299592 kern.notice] Copyright (c) 2010-2012, Joyent Inc. All rights reserved.
2012-11-23T10:57:55.610967+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: lgpg
2012-11-23T10:57:55.610971+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: tsc
2012-11-23T10:57:55.610974+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: msr
2012-11-23T10:57:55.610978+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mtrr
2012-11-23T10:57:55.610981+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: pge
2012-11-23T10:57:55.610984+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: de
2012-11-23T10:57:55.610987+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: cmov
2012-11-23T10:57:55.610995+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mmx
2012-11-23T10:57:55.611000+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: mca
2012-11-23T10:57:55.611004+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: pae
2012-11-23T10:57:55.611008+00:00 10-bf-48-7f-e7-03 unix: [ID 223955 kern.info] x86_feature: cv8

问题是有时主机在重启时会丢失网络接口,因此我们需要执行手动硬件重置才能恢复。我们没有对服务器控制台的物理或虚拟访问权限——没有 KVM、没有 iLO 或类似的东西。因此,调试的唯一方法是分析故障转储/日志文件。我不是 SmartOS/Solaris 专家,所以我不确定如何进行。是否有适用于 SmartOS 的 Linux 网络控制台的等价物?我可以以某种方式将控制台输出重定向到网络端口吗?也许我遗漏了一些明显的东西并且崩溃信息位于其他地方。

virtualization
  • 1 个回答
  • 636 Views
Martin Hope
Alex
Asked: 2012-10-05 13:33:20 +0800 CST

通过 OpenVPN 链接的 ospfd - 日志中的奇怪错误

  • 0

我正在尝试ospfd在通过 OpenVPN 链接连接的两台主机上设置 Quagga。这些主机具有 VPN IP10.31.0.1和10.31.0.13. ospfd配置非常简单:

hostname bizon
password xxxxxxxxx
enable password xxxxxxxxx
!
log file /var/log/quagga/ospfd.log
!
interface lo
!
interface tun0
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
interface tun1
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
interface tun2
ip ospf network point-to-point
ip ospf mtu-ignore
ip ospf cost 10
!
router ospf
ospf router-id 10.31.0.1
network 10.31.0.0/16 area 0.0.0.0
network 10.119.2.0/24 area 0.0.0.0
redistribute connected
area 0.0.0.0 range 10.0.0.0/8
!
line vty
!
debug ospf event
debug ospf packet all

我在ospfd.log(日志来自10.31.0.13)中收到以下错误:

2012/10/05 01:25:28 OSPF: ip_v 4
2012/10/05 01:25:28 OSPF: ip_hl 5
2012/10/05 01:25:28 OSPF: ip_tos 192
2012/10/05 01:25:28 OSPF: ip_len 64
2012/10/05 01:25:28 OSPF: ip_id 64666
2012/10/05 01:25:28 OSPF: ip_off 0
2012/10/05 01:25:28 OSPF: ip_ttl 1
2012/10/05 01:25:28 OSPF: ip_p 89
2012/10/05 01:25:28 OSPF: ip_sum 0xe5d1
2012/10/05 01:25:28 OSPF: ip_src 10.31.0.1
2012/10/05 01:25:28 OSPF: ip_dst 224.0.0.5
2012/10/05 01:25:28 OSPF: Packet from [10.31.0.1] received on link tun1 but no ospf_interface

我不确定下一步该怎么做。我已经多次通过 OpenVPN 进行设置,ospfd但我使用的是 Debian,现在我使用的是 CentOS 6。Quagga 版本是 0.99.15。我应该尝试获取更新的版本吗?

tun1      Link encap:UNSPEC  HWaddr 00-00-00-00-00-00-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.31.0.13  P-t-P:10.31.0.14  Mask:255.255.255.255
          UP POINTOPOINT RUNNING NOARP MULTICAST  MTU:1500  Metric:1
          RX packets:19888 errors:0 dropped:0 overruns:0 frame:0
          TX packets:859 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:100 
          RX bytes:1207870 (1.1 MiB)  TX bytes:70797 (69.1 KiB)
openvpn
  • 2 个回答
  • 2339 Views
Martin Hope
Alex
Asked: 2012-10-03 13:50:56 +0800 CST

PostgreSQL 灾难恢复选项

  • 1

我的客户有一个相当大的(总“数据”文件夹大小为 200G)的 PostgreSQL 数据库,我们正在制定灾难恢复计划。到目前为止,我们已经确定了三种不同类型的灾难:硬件中断、负载过多以及由于错误执行错误迁移(如 DELETE 或 ALTER TABLE DROP COLUMN)而导致的意外数据丢失。

前两种似乎很容易缓解,但我们无法为第三种制定好的缓解计划。我提议使用 ZFS 和频繁(每小时)快照,但如今“ZFS”意味着“OpenIndiana”,而我们的 Ops 工程师在这方面没有太多专业知识,因此使用 OpenIndiana 会带来另一个风险。同事们试图说服我,从 PostgreSQL PITR 备份恢复可以和从 ZFS 快照恢复一样快,但我非常怀疑重放,比如说,50G 的归档 WAL 可以被认为是“快速”。

我们还缺少哪些其他选择?ZFS 是唯一可行的选择吗?我们能否在 Linux 环境中获得快速的 Pg DB 恢复时间?

linux
  • 3 个回答
  • 1050 Views
Martin Hope
Alex
Asked: 2012-09-07 05:47:03 +0800 CST

如何在 Chef 控制的环境中组织部署过程?

  • 3

我有一个基于 Linux 的 Web 基础设施,它由 15 个虚拟机和 50 多种服务组成。它完全由 Chef 控制。大多数服务都是在内部开发的。

基本上,当前的部署过程是由 shell 脚本触发的。构建系统(Python 和 shell 脚本的混合)将服务打包为.deb文件并将这些包放入存储库中。它apt-get update在所有 15 个节点上运行,因为标准的 Chef aptcookbookapt-get每天只运行一次,我们绝对不希望apt-get update在每次chef-client唤醒时无条件运行。构建系统chef-client最终在所有 15 个节点上重新启动守护进程(我们需要这一步,因为 pull Chef 性质)。

目前的流程有许多我们想要解决的缺点。首先,它是异步的,因为部署脚本在重启后不检查chef-client日志,所以我们甚至不知道部署是否成功。它甚至不等待 Chef 客户端完成循环。其次,我们绝对不想chef-client在所有节点上强制重启,因为我们通常只部署少量的包。第三,我不太确定chef-client用于部署是否合法,可能我们从一开始就做错了。请分享您的想法/经验。

deployment
  • 2 个回答
  • 970 Views
Martin Hope
Alex
Asked: 2012-07-09 13:00:23 +0800 CST

MySQL 开始消耗大约 40% 的系统 CPU 时间并且突然没有响应

  • 2

我使用 Dotdeb 存储库中的 Debian 6.0.3 x86_64 和 MySQL 5.5.20-1~dotdeb.0-log。根据此图,MySQL 进程几个小时前开始消耗大量“sy”CPU 时间。我无法连接到正在运行的mysqld进程,不得不终止它。我在日志中没有发现任何有用的东西。我的设置似乎很常见(我假设 Dotdeb 只是重新分发现有的 MySQL 版本)而且我以前从未见过这样的事情。这可能的根本原因是什么?我怎样才能防止将来出现这种情况?

central-processing-unit mysql cpu-usage
  • 1 个回答
  • 421 Views
Martin Hope
Alex
Asked: 2012-06-19 08:39:35 +0800 CST

软件中断 CPU 时间很高并且持续增长

  • 4

我的系统是一个带有内核 2.6.32-5-openvz-amd64 的 Debian 6.0.3 x86_64 盒子,它托管了许多 OpenVZ 容器。我最近从 LXC/较新的内核从 backports repo 迁移到稳定的 OpenVZ 内核以解决网络问题但遇到了另一个问题 - CPU 花费大量时间处理软件中断。这是 CPU 时间的 Munin 图:http: //prntscr.com/arjzl。

我将nohz=offand添加highres=off到内核命令行,但这并没有太大帮助。而且,根据另一个 Munin 图:http ://prntscr.com/ark19,此框上的中断数量非常低,因此中断似乎不是导致此问题的原因。当我运行时top,zabbix_server是最多的 CPU 消耗者,但我看不出zabbix_server和软件中断之间有任何关系。

我不确定如何进行调查,这对我来说看起来像是内核错误或内核模块错误,但我不知道如何将其追踪到有罪的进程/模块。也许还有另一个内核命令行参数需要调整。接下来我应该尝试什么?

linux openvz cpu-usage interrupts debian-squeeze
  • 1 个回答
  • 4348 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve