King David提出的问题 -server

King David

Asked: 2025-04-29 18:09:04 +0800 CST

redhat + como reverter alterações de congestionamento TCP BBR

5

Configuramos as configurações do BBR em todas as nossas máquinas RHEL 8.6 da seguinte forma: (de acordo com a documentação da Red Hat [https://access.redhat.com/solutions/3713681]). O objetivo é avaliar se a configuração do BBR proporciona alguma melhoria na rede. Caso contrário, planejamos reverter para as configurações padrão do Cubic.

sysctl -w net.ipv4.tcp_congestion_control=bbr
echo "net.ipv4.tcp_congestion_control = bbr" >> /etc/sysctl.conf
modprobe tcp_bbr

para reverter as alterações escrevi os seguintes passos

sysctl -w net.ipv4.tcp_congestion_control=cubic
delete from /etc/sysctl.conf the line with net.ipv4.tcp_congestion_control = bbr

mas não tenho certeza de como reverter as alterações sobremodprobe tcp_bbr

precisamos apenas fazer:

modprobe tcp_cubic

ou

rmmod tcp_bbr
rmmod: ERROR: Module tcp_bbr is in use

ou então?

King David

Asked: 2025-04-23 00:16:06 +0800 CST

Como lidar com discos grandes ao escolher um sistema de arquivos?

5

Estamos usando discos de 15 TB em nossos servidores RHEL 8.6 Linux. Esses discos são para o sistema de arquivos HDFS. Em comparação com outros discos, como 4 TB ou 8 TB, notamos alguma degradação nos logs do nó de dados. Verificamos vários aspectos para entender a diferença entre clusters Hadoop que usam discos de 4 TB ou 8 TB e o cluster Hadoop mais recente com discos de 16 TB. Após pesquisar no Google, notamos que o sistema de arquivos criado nos discos é ext4. Gostaria de saber se o ext4 pode ser usado em discos grandes, como 15 TB. Então, minha pergunta é: o ext4 suporta discos muito grandes, como 15 TB, ou é melhor usar o XFS em discos de 15 TB?

King David

Asked: 2024-08-14 18:18:01 +0800 CST

HDFS + Usando discos muito grandes com HDFS

7

pelo meu entendimento, usar discos de 20-30 TB com HDFS pode apresentar alguns desafios, mas também pode ser gerenciado de forma eficaz com a configuração adequada

usar discos de 20-30 TB com HDFS é possível, mas requer consideração cuidadosa do tamanho do bloco, tempos de reconstrução, distribuição de dados, gerenciamento de metadados e desempenho. Planejamento e configuração adequados podem ajudar a mitigar esses desafios.

Desempenho: discos grandes podem levar a tempos de busca mais longos e potencialmente impactar o desempenho, especialmente para cargas de trabalho que exigem acesso aleatório frequente.

com base no exposto acima, podemos pretender usar discos de 20T-30T em nossas novas máquinas de nós de dados ?

Observe que pretendemos instalar do zero 16 máquinas de nós de dados baseadas no hardware DELL, quando cada nó de dados deve conter 12 discos NÃO RAID ( quando cada tamanho de disco for ~22T )

King David

Asked: 2024-08-06 05:34:06 +0800 CST

Linux + como aumentar partições com base no tamanho do disco

7

temos alguns servidores red-hat com os seguintes detalhes (quando o tamanho do disco do sistema operacional é 230G)

# lsblk
NAME             MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda                8:0    0  230G  0 disk
├─sda1             8:1    0    1G  0 part /boot/efi
├─sda2             8:2    0    1G  0 part /boot
└─sda3             8:3    0  228G  0 part
  ├─VG100-lv_root 253:0    0   20G  0 lvm  /
  ├─VG100-lv_swap 253:1    0   16G  0 lvm  [SWAP]
  └─VG100-lv_var  253:2    0   30G  0 lvm  /var


fdisk -l

Disk /dev/sda: 193.3 GB, 193273528320 bytes, 377487360 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk label type: dos
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1               1   209715199   104857599+  ee  GPT

o objetivo é aumentar o /var e o sistema de arquivos raiz com base no tamanho do disco é 230G quando o /var atual é 30G e o sistema de arquivos raiz é 20G

então, começamos com o seguinte procedimento que deve nos fornecer PFREE suficiente ou espaço “Físico Livre” suficiente.

parted /dev/sda resizepart 3 100%
Error: The backup GPT table is not at the end of the disk, as it should be.  This might mean that another operating system believes the disk is smaller.  Fix, by moving the backup to the end (and removing the old backup)?
parted: invalid token: 3
Fix/Ignore/Cancel?


sgdisk -e /dev/sda

nota - sgdisk: A maneira mais simples de corrigir a tabela GPT de backup é usando o comando sgdisk com a opção -e, que move as estruturas de dados GPT de backup para o final do disco

parted /dev/sda resizepart 3 100%
Information: You may need to update /etc/fstab.

partprobe /dev/sda

pvresize /dev/sda
  Failed to find physical volume "/dev/sda".
  0 physical volume(s) resized or updated / 0 physical volume(s) not resized

mas de pvs Pfreeainda é 0

# pvs
  PV         VG   Fmt  Attr PSize  PFree
  /dev/sda3  VG100 lvm2 a--  66.00g    0

alguma idéia sobre outra abordagem capaz de aumentar as partições do sistema de arquivos /var e raiz?

mais informações

# vgs
  VG   #PV #LV #SN Attr   VSize    VFree
  VG100  1   3   0 wz--n- <228.00g <162.00g

nós também tentamos isso (por exemplo)

lvextend -l +100%FREE -r /dev/mapper/VG100-lv_root
  Size of logical volume VG100/lv_root unchanged from 20.00 GiB (5120 extents).
  Logical volume VG100/lv_root successfully resized.

xfs_growfs /dev/mapper/VG100-lv_root

mas o tamanho do sistema de arquivos raiz é o mesmo

df -h | grep VG100-lv_root
/dev/mapper/VG100-lv_root   20G  3.8G   17G  19% /

 pvs
  PV         VG   Fmt  Attr PSize  PFree
  /dev/sda3  VG100 lvm2 a--  66.00g    0

King David

Asked: 2024-04-14 21:50:24 +0800 CST

dmesg + muitas mensagens como contagem de erros desde o último fsck

5

temos cluster kafka com 3 máquinas VM. , quando cada máquina kafka usa o disco sdb (disco VMDK) para armazenar os dados

em todas as máquinas vimos as seguintes mensagens do kernel

[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1210205.709944] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1296627.570121] EXT4-fs (sdb): error count since last fsck: 9
[1296627.570141] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1296627.570147] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1383049.419003] EXT4-fs (sdb): error count since last fsck: 9
[1383049.419019] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1383049.419025] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1469471.269771] EXT4-fs (sdb): error count since last fsck: 9
.
.
.

Red Hat explica essas mensagens da seguinte forma. (do caso - https://access.redhat.com/solutions/383993 )

Emitir

Vejo as seguintes linhas em /var/log/messages:

kernel: EXT4-fs (sdd1): error count: 5
kernel: EXT4-fs (sdd1): initial error at 1369732760: ext4_lookup:1044: inode 11534366
kernel: EXT4-fs (sdd1): last error at 1369733705: ext4_lookup:1044: inode 11534366

Resolução Não são erros, são mensagens informativas; no entanto, eles podem estar fazendo referência a outros possíveis erros históricos. Essas contagens de erros devem ser redefinidas assim que um fsck for executado com sucesso; entretanto, antes do e2fsprogs-1.41.12-18, um bug impedia a redefinição. Isso foi corrigido em e2fsprogs-1.41.12-18 via errata.

as mensagens que recebemos em nosso cluster Kafka são um pouco diferentes do caso redhat

então estamos mais preocupados com os discos sdb,

pelo que o chapéu vermelho diz, eles não se preocupam porque as mensagens são explicadas como mensagens informativas

então, sobre minhas mensagens do kernel, posso fazer umounto disco do ponto de montagem fsckpara corrigir os Erros,

mas minha dúvida é o quanto preciso me preocupar com as seguintes mensagens:

[1123783.849575] EXT4-fs (sdb): error count since last fsck: 9
[1123783.849582] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414
[1123783.849586] EXT4-fs (sdb): last error at time 1613639279: ext4_put_super:791
[1210205.709917] EXT4-fs (sdb): error count since last fsck: 9
[1210205.709937] EXT4-fs (sdb): initial error at time 1595958527: ext4_writepages:2414

King David

Asked: 2024-02-25 23:10:37 +0800 CST

RHEL + como saber o limite do número de conexões simultâneas por porta?

5

como saber o número de conexões simultâneas por porta em máquinas RHEL 7.x

por exemplo, digamos que nos conectamos à porta 9080 com conexões simultâneas XXXX.

wget  http://server_mngmnt.jupiter.com:9080 &
wget  http://server_mngmnt.jupiter.com:9080 &
wget  http://server_mngmnt.jupiter.com:9080 &
wget  http://server_mngmnt.jupiter.com:9080 &
wget  http://server_mngmnt.jupiter.com:9080 &
.
.
.

segundo - quais poderiam ser os resultados de enormes conexões simultâneas com a porta 9080?

da minha máquina

more /etc/security/limits.conf


# End of file
* soft nofile 25000
* hard nofile 25000

sysctl -n fs.file-max
500000

ulimit -n
63536

King David

Asked: 2024-01-24 23:25:57 +0800 CST

vmstat + na máquina RHEL altos valores de swpd

5

O campo swpd indica quanto espaço de troca foi usado; esse valor aumenta quando a memória física do sistema está cheia e o kernel do Linux começa a usar a partição/arquivo swap. Quando a memória física do sistema e o espaço de troca se esgotarem

da nossa máquina RHEL 7.2 podemos ver o seguinte

vmstat 1 20
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 3  0 1029076 6695152      4 49021608    1    1   520    32    2    2  9  1 90  0  0
 2  0 1029076 6694024      4 49022924    0    0 19612     0 5761 4269  7  1 91  0  0
 8  0 1029076 6665220      4 49021688    0    0 14812   707 22450 26191 13  3 84  0  0
 2  0 1029076 6656396      4 49021704    0    0 15748     0 17994 21252  9  2 88  0  0
 2  0 1029088 6649536      4 49022448    0   12 33972    12 13426 14773  8  2 90  1  0
 2  0 1029088 6687988      4 49022604    0    0 31212     0 6085 4391  7  2 91  0  0
 2  0 1029088 6688688      4 49022340    0    0 27040     9 7001 8469  4  1 95  1  0
 3  0 1029092 6689572      4 49022820    0    4 12136    28 3390 2773  4  0 96  0  0
 1  0 1029092 6689856      4 49022224    0    0 13776     0 3460 2841  4  0 96  0  0
 1  0 1029092 6690356      4 49021820    0    0 18444     0 3445 2819  4  0 96  0  0
 1  0 1029092 6689864      4 49021520    0    0 18768     0 3743 3005  4  0 96  0  0
 1  0 1029092 6693856      4 49021452    0    0 17544     0 3406 2732  4  0 96  0  0
 1  0 1029092 6694048      4 49021208    0    0 24244   292 4654 4816  4  1 95  0  0
 1  0 1029092 6695096      4 49021312    0    0 15572     0 3431 2835  4  0 96  0  0
 2  0 1029092 6694536      4 49022072    0    0 17476     0 5065 4033  7  1 91  0  0
 2  1 1029092 6685364      4 49022140    0    0 28112     9 24914 30798 10  3 86  1  0
 1  0 1029092 6684160      4 49021280    0    0 10356   104 14245 16378  5  2 93  0  0
 1  0 1029092 6671432      4 49022212    0    0 12816    20 11465 13620  5  1 94  0  0
 1  0 1029092 6707700      4 49022364    0    0 19840     0 4113 3603  4  0 95  0  0
 2  0 1029092 6706948      4 49022364    0    0 18128     0 3324 2833  4  0 96  0  0

valores altos de dose de swpd indicam problema?

 free -g
              total        used        free      shared  buff/cache   available
Mem:            122          69           6           8          46          43
Swap:            15           0          14


vmstat 1 20
    128195440 K total memory
     72465912 K used memory
     77700088 K active memory
     36918416 K inactive memory
      6707164 K free memory
            4 K buffer memory
     49022360 K swap cache
     16351228 K total swap
      1029076 K used swap
     15322152 K free swap
    137196351 non-nice user cpu ticks
          778 nice user cpu ticks
     21836716 system cpu ticks
   1437416566 idle cpu ticks
      7095049 IO-wait cpu ticks
            0 IRQ cpu ticks
      1280657 softirq cpu ticks
            0 stolen cpu ticks
   8346063429 pages paged in
    515040249 pages paged out
      3267044 pages swapped in
      5005632 pages swapped out
   4242627451 interrupts
   1713287115 CPU context switches
   1705353038 boot time
     31037695 forks



sar -B 2 5 


03:37:14 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
03:37:16 PM      0.00      6.00    133.50      0.00     93.00      0.00      0.00      0.00      0.00
03:37:18 PM      0.00      0.00     34.50      0.00     91.50      0.00      0.00      0.00      0.00
03:37:20 PM      0.00      4.50  50683.50      0.00  19022.00      0.00      0.00      0.00      0.00
03:37:22 PM     60.00      2.00  11028.50      0.00  10382.00      0.00      0.00      0.00      0.00
03:37:24 PM      0.00      0.00    805.00      0.00   1205.50      0.00      0.00      0.00      0.00
Average:        12.00      2.50  12537.00      0.00   6158.80      0.00      0.00      0.00      0.00


sar -d 

03:34:42 PM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
03:34:52 PM       sda    448.60  20769.60     66.30     46.45      0.60      1.35      0.15      6.73

King David

Asked: 2024-01-17 12:21:51 +0800 CST

RHEL + como evitar que o disco do SO - sda mude após a reinicialização

6

instalamos a versão RHEL 7.9 na máquina física., quando sdao dispositivo era o sistema operacional

máquina tem os seguintes discos.

sda - OS disk
sdb - data disk
sdc - data disk

após a reinicialização, o dispositivo de disco do sistema operacional mudou para sdco seguinte e sdatornou-se parte do disco de dados

sdc                  8:32   0 558.4G  0 disk
├─sdc1               8:33   0   500M  0 part /boot
└─sdc2               8:34   0 557.9G  0 part
  ├─VG-VOL_root   253:0    0   100G  0 lvm  /
  ├─VG-VOL_swap   253:1    0    16G  0 lvm
  ├─VG-VOL_var    253:2    0   200G  0 lvm  /var

presumimos que em algumas próximas reinicializações, sdctalvez? mudará novamente para sdacomo deveria ser

mas como evitar sdaque o disco mude para outro dispositivo? após a reinicialização?

de acordo com o documento red-hat, eles recomendaram definir o seguinte:

os usuários podem modificar os parâmetros de inicialização do kernel anexando "scsi_mod.scan=sync" no arquivo /etc/sysconfig/grub para obter letras de disco mais consistentes. Isso não garantirá nomes de dispositivos consistentes em todos os casos. Esta opção deve ser usada com cuidado, pois retarda o procedimento de descoberta de disco e, portanto, todo o processo de inicialização.

mas essa configuração realmente ajuda scsi_mod.scan=sync? /etc/sysconfig/grub

GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=auto rd.lvm.lv=VG/VOL_root rd.lvm.lv=VG/lv_swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"
scsi_mod.scan=sync            <---------------

quais são as outras opções que podemos fazer para evitar que sdao dispositivo do disco seja alterado após a reinicialização?

outros alguns detalhes úteis do servidor

 ls -ltr /dev/disk/by-id  | grep sdc
lrwxrwxrwx 1 root root  9 Dec 28 11:43 wwn-0x6588a5a0ef7f4d0023880046051e7a74 -> ../../sdc
lrwxrwxrwx 1 root root  9 Dec 28 11:43 scsi-36588a5a0ef7f4d0023880046051e7a74 -> ../../sdc
lrwxrwxrwx 1 root root 10 Dec 28 11:43 wwn-0x6588a5a0ef7f4d0023880046051e7a74-part2 -> ../../sdc2
lrwxrwxrwx 1 root root 10 Dec 28 11:43 scsi-36588a5a0ef7f4d0023880046051e7a74-part2 -> ../../sdc2
lrwxrwxrwx 1 root root 10 Dec 28 11:43 lvm-pv-uuid-2Ee6HA-9vVx-bUVq-noyG-U0Nq-AVMz-oI56ji -> ../../sdc2
lrwxrwxrwx 1 root root 10 Dec 28 11:43 wwn-0x6588a5a0ef7f4d0023880046051e7a74-part1 -> ../../sdc1
lrwxrwxrwx 1 root root 10 Dec 28 11:43 scsi-36588a5a0ef7f4d0023880046051e7a74-part1 -> ../../sdc1



cat /etc/fstab | grep boot
UUID=f57f0346-9e6c-429e-b80f-3871334bae35 /boot xfs defaults 0 0

King David

Asked: 2023-07-25 23:33:43 +0800 CST

A máquina VM pode substituir a máquina física,

5

Temos 254 servidores físicos quando todas as máquinas são servidores DELL R740.

servidores fazem parte do cluster Hadoop. a maioria deles está mantendo o sistema de arquivos HDFS e os serviços de gerenciamento de nó e nó de dados, parte deles são máquinas Kafka.

O sistema operacional instalado nos servidores físicos é o RHEL 7.9

Agora queremos adicionar 52 servidores físicos adicionais ao cluster. mas podemos adicionar apenas os servidores DELL R760que devem ser instalados comRHEL 8.6

cada servidor físico inclui 256G e 64 núcleos.

O problema é que não podemos trabalhar com a versão RHEL 8.6 porque a versão Hadoop. não cabe RHEL 8.6

Portanto, precisamos ficar com a versão RHEL 7.9, mas, por outro lado, o servidor DELL R760 não pode estar alinhado com o RHEL 7.9

portanto, estamos pensando em usar máquinas VM em vez de máquinas físicas DELL R760.

está claro para nós que o desempenho da VM não é como o das máquinas físicas.

mas digamos. se aumentarmos a memória padrão de 256G para 384G e aumentarmos os COREs de 64 para 80 Core's, na(s) máquina(s) VM

Portanto, caso definamos a máquina VM como acima da especificação com mais memória e CPU

então faz sentido adicionar as máquinas VM adicionais? ao cluster Hadoop e não se preocupar com problemas de desempenho?

King David

Asked: 2023-07-02 19:55:52 +0800 CST

Quais são as opções para monitorar o uso do cache da página?

9

Em essência, o Page Cache é uma parte do Virtual File System (VFS) cujo objetivo principal, como você pode imaginar, é melhorar a latência de E/S das operações de leitura e gravação.

Na computação, um cache de página, às vezes também chamado de cache de disco, é um cache transparente para as páginas originárias de um dispositivo de armazenamento secundário, como uma unidade de disco rígido (HDD) ou uma unidade de estado sólido (SSD).

O sistema operacional mantém um cache de página em partes não utilizadas da memória principal (RAM), resultando em acesso mais rápido ao conteúdo das páginas em cache e melhorias gerais de desempenho.

Com base no exposto, quais são as ferramentas que já existem para monitorar o cache da página? Desejo monitorar o uso, os acessos e principalmente as páginas sujas.

A versão do SO é RHEL 7.X.

King David

Asked: 2023-05-10 20:55:15 +0800 CST

as mensagens do kernel são reclamadas sobre a memória, apesar de todos os cartões DIMM terem sido substituídos

5

temos poucas máquinas DELL ( com RHEL 7.6) , e como substituímos os cartões DIMM nas máquinas por causa dos erros que vimos nas mensagens do kernel

depois de algum tempo verificamos novamente as mensagens do kernel e encontramos o seguinte e podemos ver os erros sobre a memória RAM (também relacionado ao caso RHEL - https://access.redhat.com/solutions/6961932 )

[Mon May  8 21:08:01 2023] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1683580080 SOCKET 0 APIC 0
[Mon May  8 21:08:01 2023] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x6f3c77 offset:0xc80 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:0 ha:0 channel_mask:2 rank:4)
[Mon May  8 21:08:21 2023] mce: [Hardware Error]: Machine check events logged
[Tue May  9 05:30:29 2023] {13}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
[Tue May  9 05:30:29 2023] {13}[Hardware Error]: It has been corrected by h/w and requires no further action
[Tue May  9 05:30:29 2023] {13}[Hardware Error]: event severity: corrected
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:  Error 0, type: corrected
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:  fru_text: B6
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:   section_type: memory error
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:   error_status: 0x0000000000000400
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:   physical_address: 0x000000446e0d5f00
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:   node: 1 card: 1 module: 1 rank: 0 bank: 3 row: 64982 column: 888 
[Tue May  9 05:30:29 2023] {13}[Hardware Error]:   error_type: 2, single-bit ECC
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 1: 940000000000009f
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: TSC 30d2ef7e9bfda 
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: ADDR 446e0d5f00 
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: MISC 0 
[Tue May  9 05:30:29 2023] EDAC sbridge MC0: PROCESSOR 0:406f1 TIME 1683610228 SOCKET 0 APIC 0
[Tue May  9 05:30:29 2023] EDAC MC1: 0 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x446e0d5 offset:0xf00 grain:32 syndrome:0x0 -  area:DRAM err_code:0000:009f socket:1 ha:0 channel_mask:2 rank:4)
[Tue May  9 05:30:51 2023] mce: [Hardware Error]: Machine check events logged
[Tue May  9 17:52:21 2023] perf: interrupt took too long (380026 > 7861), lowering kernel.perf_event_max_sample_rate to 1000
[Wed May 10 06:27:17 2023] warning: `lshw' uses legacy ethtool link settings API, link modes are only partially reported

apenas para ter certeza de que as mensagens acima não são mensagens aleatórias, decidimos reiniciar as máquinas e ver se as mensagens ruins sobre a memória são reproduzidas

mas as mensagens de Erros sobre a memória RAM, ainda permanecem.

então estamos confusos sobre o problema que vimos nas mensagens do kernel

como pode ser que ainda tenhamos erros sobre RAM apesar de termos substituído os cartões DIMM

Devo fornecer aqui informações adicionais sobre o que vemos do IDRAC

como podemos acima IDRAC não concluído sobre os cartões DIMM ou sobre a memória RAM

então a questão é - como as dmesg(mensagens do kernel) são reclamadas sobre a memória RAM, apesar de todos os DIMMs terem sido substituídos?

é possível que outra coisa esteja RUIM e não as placas DIMM? por exemplo, a placa-mãe na máquina DELL?

King David

Asked: 2023-04-11 15:18:49 +0800 CST

RHEL + como capturar mensagens novas do kernel sem reiniciar a máquina

6

aqui está um exemplo da dmesgsaída de um servidor de produção importante ( RHEL 7.2 - DELL machine HW ), pois podemos ver que o sdedisco no servidor está morrendo

[Wed Jun 30 11:24:58 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:26:18 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:26:18 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:27:28 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Jun 30 11:27:46 2021] sd 0:2:4:0: [sde] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

o que é interessante é que essas mensagens são antigas de 2021, e não vimos essas mensagens em2022/2023

com base nesses fatos, gostaria de perguntar se a substituição do disco deve ser considerada com base em mensagens de disco com defeito de2021

segunda questão importante, é como capturar novas mensagens frescas do kernel pordmesg

é possível recriar novas mensagens frescas do kernel?

como eu sei, talvez a reinicialização da máquina possa ajudar sobre isso, mas quero evitar a reinicialização da máquina

King David

Asked: 2020-10-09 23:24:34 +0800 CST

VMware + como limitar a memória do balão na máquina linux

0

Queremos saber se não podemos limitar o balloon memoryem uma máquina Linux ajustando o valor de -

Mem.CtlMaxPercent

por exemplo, é possível definir 20% para Mem.CtlMaxPercento padrão de 65%?

O objetivo é fornecer mais memória disponível na máquina RHEL, pois a memória do balão na máquina RHEL é em torno de 30G e queremos diminuir esse valor para que a máquina RHEL fique com mais memória disponível

referência - https://nerdblurt.com/vmware-memory-ballooning-sched-mem-maxmemctl-versus-mem-ctlmaxpercent/

Sched.Mem.MaxMemCtl : Quantidade máxima de memória recuperada da máquina virtual selecionada por balão, em megabytes (MB). Se o host ESXi precisar recuperar memória adicional, ele será forçado a trocar. A troca é menos desejável do que o balonismo. Padrão = -1 (ilimitado) (configuração avançada de VM)
Mem.CtlMaxPercent : Limita a quantidade máxima de memória recuperada de qualquer máquina virtual usando o driver de balão de memória (vmmemctl), com base em uma porcentagem do tamanho de memória configurado. Especifique 0 para desabilitar a recuperação para todas as máquinas virtuais. Padrão = 65% (configuração avançada do host)*

King David

Asked: 2020-08-14 03:44:37 +0800 CST

Docker no disco do SO VS docker no disco dedicado

0

Temos 57 máquinas servidores rhel – com versão 7.5

As máquinas têm forte HW como memória de 128G e 32 CPU,

Planejamos instalar o serviço docker em todas as máquinas, a fim de executar dois contêineres no docker

Estamos diante do seguinte dilema

Podemos instalar o docker diretamente no disco do sistema operacional – sda, então /var/lib/dockerserá a pasta no sistema operacional

Ou

Para adicionar disco dedicado - sdbpara o docker para executar o docker no sdbdisco que não é o disco do SO,

por exemplo, adicione um novo disco - sdbe monte o sdbpara/var/lib/docker

É justificado adicionar disco dedicado adicional como sdb para o docker, a fim de evitar desempenhos Aspectos do lado do sistema operacional/disco/docker ?

King David

Asked: 2020-08-13 01:02:50 +0800 CST

Instalação do Docker no RHEL 7.2 e requisitos do sistema de arquivos

-1

Temos RHELmáquina antigaversion 7.2

E nos preparamos para instalar o serviço docker neste servidor

O problema é que o sistema de arquivos do servidor foi criado com ftype=0o parâmetro e o docker requerftype=1

Uma opção é formatar o disco com mkfs e criar um novo sistema de arquivos comftype=1

Mas queremos ficar com o SO original e não formatar o disco

A segunda opção é realizar a etapa conforme definido no post - https://superuser.com/questions/1321926/recreating-an-xfs-file-system-with-ftype-1/1321963#1321963

Mas essas etapas são arriscadas e exigem que o servidor esteja inativo

Estamos procurando uma terceira alternativa para implementar a instalação do docker no rhel versão 7.2 apesarftype=0

Uma direção interessante pode ser, por exemplo, adicionar um novo disco ao servidor e criar XFSum sistema de arquivos, com ftype=1 , mas não temos certeza de como definir a instalação do docker no disco adicional (porque esse disco está realmente sem SO).

Ficaremos felizes em tirar quaisquer outras ideias da caixa.

King David

Asked: 2020-07-24 08:42:48 +0800 CST

serviço systemctl + como configurar o serviço para prioridade de inicialização

0

temos rhel 7.2máquina

servidor tem o seguinte serviço

[root@server1 system]# more rc_build_infra.service
[Unit]
Description=infra Manager Server
Requires=network.target remote-fs.target
After=network.target remote-fs.target

[Service]
Restart=on-failure
StartLimitInterval=5min
StartLimitBurst=4
LimitMEMLOCK=infinity
LimitNOFILE=65535
Type=simple
User=infra_bb
Group=mc_group
Environment=JAVA_HOME=/usr/bin/java
ExecStart=/opt/infra_start.sh

[Install]
WantedBy=multi-user.target

agora eu quero construir um serviço semelhante, mas o novo serviço deve ser executado depois -rc_build_infra.service

quais são as configurações que devem estar no novo serviço

para que o novo serviço seja executado durante a inicialização da máquina após -rc_build_infra.service

King David

Asked: 2020-07-22 22:05:34 +0800 CST

quais são as opções para fechar manualmente a porta corretamente ou liberar a porta em máquinas rhel?

0

temos servidor redhat 7.5

suspeitamos que a porta 50070 não foi fechada corretamente pelo serviço ( verificamos por netstat e PID não encontrado ) mas pelo log podemos ver que a porta está em uso

então tentamos fazer o seguinte, por exemplo,

ss --kill state listening src :50070
ss: unrecognized option '--kill'
Usage: ss [ OPTIONS ]
       ss [ OPTIONS ] [ FILTER ]
   -h, --help          this message
   -V, --version       output version information
   -n, --numeric       don't resolve service names
   -r, --resolve       resolve host names
   -a, --all           display all sockets
   -l, --listening     display listening sockets
   -o, --options       show timer information
   -e, --extended      show detailed socket information
   -m, --memory        show socket memory usage
   -p, --processes     show process using socket
   -i, --info          show internal TCP information
   -s, --summary       show socket usage summary
   -b, --bpf           show bpf filter socket information
   -Z, --context       display process SELinux security contexts
   -z, --contexts      display process and socket SELinux security contexts
   -N, --net           switch to the specified network namespace name

   -4, --ipv4          display only IP version 4 sockets
   -6, --ipv6          display only IP version 6 sockets
   -0, --packet        display PACKET sockets
   -t, --tcp           display only TCP sockets
   -u, --udp           display only UDP sockets
   -d, --dccp          display only DCCP sockets
   -w, --raw           display only RAW sockets
   -x, --unix          display only Unix domain sockets
   -f, --family=FAMILY display sockets of type FAMILY

   -A, --query=QUERY, --socket=QUERY
       QUERY := {all|inet|tcp|udp|raw|unix|unix_dgram|unix_stream|unix_seqpacket|packet|netlink}[,QUERY]

mas ss não inclui o kill flag

quais são as opções para fechar a porta corretamente ou liberar a porta em máquinas rhel?

o registro é:

2020-07-18 21:26:22,753 INFO  impl.MetricsSystemImpl (MetricsSystemImpl.java:shutdown(606)) - NameNode metrics system shutdown complete.
2020-07-18 21:26:22,753 ERROR namenode.NameNode (NameNode.java:main(1783)) - Failed to start namenode.
java.net.BindException: Port in use: linux.gg.com:50070
        at org.apache.hadoop.http.HttpServer2.constructBindException(HttpServer2.java:1001)
        at org.apache.hadoop.http.HttpServer2.bindForSinglePort(HttpServer2.java:1023)
        at org.apache.hadoop.http.HttpServer2.openListeners(HttpServer2.java:1080)
        at org.apache.hadoop.http.HttpServer2.start(HttpServer2.java:937)
        at org.apache.hadoop.hdfs.server.namenode.NameNodeHttpServer.start(NameNodeHttpServer.java:170)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.startHttpServer(NameNode.java:942)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:755)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:1001)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:985)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1710)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1778)
Caused by: java.net.BindException: Address already in use
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:433)
        at sun.nio.ch.Net.bind(Net.java:425)
        at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:223)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
        at org.mortbay.jetty.nio.SelectChannelConnector.open(SelectChannelConnector.java:216)
        at org.apache.hadoop.http.HttpServer2.bindListener(HttpServer2.java:988)
        at org.apache.hadoop.http.HttpServer2.bindForSinglePort(HttpServer2.java:1019)
        ... 9 more
2020-07-18 21:26:22,755 INFO  util.ExitUtil (ExitUtil.java:terminate(124)) - Exiting with status 1
2020-07-18 21:26:22,757 INFO  namenode.NameNode (LogAdapter.java:info(47)) - SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at 
************************************************************/
[root@linux hdfs]#
[root@linux hdfs]#
[root@linux hdfs]# netstat -tulpn | grep 50070 ( no PID number is returned )

King David

Asked: 2020-06-29 00:25:55 +0800 CST

Recurso Hot Add + como habilitar o recurso sem desligar a máquina Linux

4

Temos um servidor VM Linux, onde o hot addrecurso está desabilitado no VCenter.

Por enquanto, não podemos desligar a máquina e o recurso é disable, portanto, não podemos adicionar recursos de memória à máquina.

Então você tem alguma idéia de como habilitar o hot addrecurso sem desligar a máquina redhat Linux?

King David

Asked: 2020-06-21 14:15:26 +0800 CST

Redhat Enterprise Linux 7: Como desativar o horário de verão - horário de verão

0

Temos 16 servidores Linux RHEL 7.5 em um cluster e os servidores são sincronizados com o serviço de crony para o servidor NTP

Temos duas perguntas

Como saber se o horário de verão está configurado em nossos servidores?
Como desabilitar o DST em nossos servidores Redhat Enterprise Linux 7?

King David

Asked: 2020-05-05 20:37:33 +0800 CST

como saber se atingimos o valor máximo de fs.file-max

0

em nossos servidores linux rhel fs.file-maxconfigurados com100000

sysctl -p | grep fs.file-max
fs.file-max = 100000

do meu entendimento, o parâmetro do kernel file-max refere-se a descritores de arquivos abertos e file-nr nos fornece o número atual de descritores de arquivos abertos. Mas lsof lista todos os arquivos abertos, incluindo arquivos que não estão usando descritores de arquivo – como diretórios de trabalho atuais, arquivos de biblioteca mapeados na memória e arquivos de texto executáveis.

então de volta à minha pergunta

dose o seguinte lsof , realmente uma boa indicação de que atingimos o valor fs.file-max?

lsof | wc -l

OU

[[ ` lsof | wc -l ` -gt 100000 ]] && echo "please increase the fs.file-max"

redhat + como reverter alterações de congestionamento TCP BBR

Como lidar com discos grandes ao escolher um sistema de arquivos?

HDFS + Usando discos muito grandes com HDFS

Linux + como aumentar partições com base no tamanho do disco

dmesg + muitas mensagens como contagem de erros desde o último fsck

RHEL + como saber o limite do número de conexões simultâneas por porta?

vmstat + na máquina RHEL altos valores de swpd

RHEL + como evitar que o disco do SO - sda mude após a reinicialização

A máquina VM pode substituir a máquina física,

Quais são as opções para monitorar o uso do cache da página?

as mensagens do kernel são reclamadas sobre a memória, apesar de todos os cartões DIMM terem sido substituídos

RHEL + como capturar mensagens novas do kernel sem reiniciar a máquina

VMware + como limitar a memória do balão na máquina linux

Docker no disco do SO VS docker no disco dedicado

Instalação do Docker no RHEL 7.2 e requisitos do sistema de arquivos

serviço systemctl + como configurar o serviço para prioridade de inicialização

quais são as opções para fechar manualmente a porta corretamente ou liberar a porta em máquinas rhel?

Recurso Hot Add + como habilitar o recurso sem desligar a máquina Linux

Redhat Enterprise Linux 7: Como desativar o horário de verão - horário de verão

como saber se atingimos o valor máximo de fs.file-max

Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

Ping uma porta específica

Verifique se a porta está aberta ou fechada em um servidor Linux?

Como automatizar o login SSH com senha?

Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

Qual porta o SFTP usa?

Linha de comando para listar usuários em um grupo do Windows Active Directory?

O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

Como determinar se uma variável bash está vazia?

King David's questions