Giles提出的问题 -unix

Asked: 2024-01-22 20:59:58 +0800 CST

通过基于第 2 列和第 3 列合并来汇总逗号分隔的文本文件，并计算第 4 列的平均值

4

我有一个文件，报告某件事的每个事件及其大小。我试图通过合并连续的事件来总结该信息，这些事件可以通过上面一行的第 3 列与下面一行的第 2 列相同来识别（只要第 1 列相同），输出应该是相同的格式，而不是任何连续字符串的多行，我会将其替换为单行，其中第 2 列将是该列中分组中的最低数字，第 3 列将是该列中分组中的最高数字，第 4 列将是该分组第 4 列中所有数字的平均值（四舍五入到最接近的整数）。

需要明确的是，第一列是特定组，第二列是开始位置，第三列是结束位置，第四列是出现次数。

每行的列组合都是唯一的，列按第 1 列、第 2 列、第 3 列进行预排序。第 2 列中的数字不应该/不会相同，第 3 列中的数字不应该/不会相同是相同的。第一列可以而且通常会是相同的。

如果可能的话，我试图在 awk 中实现这一点，我已经尝试过但失败了。这是我尝试过的：

awk 'BEGIN {OFS=","} NR==1 {print} NR>1 {if ($1==prev && $2==end+1) {sum+=$4; count++; end=$3} else {if (NR>2) {print prev, start, end, int(sum/count+0.5);}; prev=$1; start=$2; end=$3; sum=$4; count=1}} END {print prev, start, end, int(sum/count+0.5)}'

###### reformatted via "awk -o- '...script_body...'"

awk '
BEGIN {
        OFS = ","
}

NR == 1 {
        print
}

NR > 1 {
        if ($1 == prev && $2 == end + 1) {
                sum += $4
                count++
                end = $3
        } else {
                if (NR > 2) {
                        print prev, start, end, int(sum / count + 0.5)
                }
                prev = $1
                start = $2
                end = $3
                sum = $4
                count = 1
        }
}

END {
        print prev, start, end, int(sum / count + 0.5)
}'

输入示例：

fgh1,45513382,45513383,43
fgh1,45513383,45513384,44
fgh1,45513384,45513385,44
fgh1,45513385,45513386,43
fgh1,45513386,45513387,43
fgh1,45513387,45513388,44
fgh2,63543512,63543513,44
fgh2,63543513,63543514,41
fgh2,63543514,63543515,44
fgh2,63543515,63543516,44

输出示例：

fgh1,45513382,45513388,44
fgh2,63543512,63543516,43

Giles

Asked: 2022-10-11 08:59:32 +0800 CST

awk - 将每行的几列与上一行进行比较

0

我已经为此做了几次尝试，但显然遗漏了一些东西并需要帮助。

我有一个包含数千行信息的大表，我正在尝试根据第 3、4 和 6 列将它们分类。我已经按这些列对行进行了排序，现在只想执行以下操作：

如果第 3 列=前行第 3 列 && 第 4 列 < 前行第 5 列 && 第 6 列 = 前行第 6 列；然后打印该行，但用第一个匹配的行号修改开头；否则打印该行但用当前行号修改开头

这是我充满错误的糟糕方法：

awk -F, 'BEGIN { OFS = FS } {if ($4<prev5 && $3==prev3 && $6==prev6) print Marker,$0;else Marker=NR print NR,$0; prev5=$5; prev3=$3; prev6=$6}'

示例输入（为便于查看，用逗号分隔）：

a,b,2,15,50,ABBA    
a,a,2,26,55,ABBA    
b,a,2,80,99,ABA    
c,a,3,20,40,CAN    
a,b,3,51,300.CAN    
a,a,4,1000,2000,ART   
d,c,4,1700,2050,ART    
b,a,4,1800,2051,ART

示例输出：

1,a,b,2,15,50,ABBA    
1,a,a,2,26,55,ABBA    
3,b,a,2,80,99,ABA    
4,c,a,3,20,40,CAN    
5,a,b,3,51,300.CAN    
6,a,4,1000,2000,ART   
6,c,4,1700,2050,ART    
6,b,a,4,1800,2051,ART

我只是想按照给定的标准对这些行进行分组，因此组标识符不需要使用我建议的行号方法，如果有更好的方法来做到这一点。

我真的希望有人能提供帮助，因为我总是热衷于改进我所知道的基本代码，所以，如果可能的话，请提供解释，因为我想从我的错误中吸取教训！

Giles

Asked: 2022-05-12 09:54:15 +0800 CST

使用 awk 检查一个变量中一组特定列的每一行中的信息与另一个变量中三个特定列中的所有行

1

我今天之前问过一个非常相似的问题，但是我意识到我需要增加命令的参数。我为另一个参数编辑了命令，但是下一个参数我没有成功，我不知道为什么。这是我正在尝试（并且失败）解决的问题。

我需要检查一个变量中一组特定列的每一行中的信息与另一个变量中两个特定列中的所有行，使用awk，保持第一个变量中满足参数的行。

到目前为止，我尝试通过一个强大的awk命令来执行此操作都失败了。我显然可以在外部循环中执行此操作，但它会非常慢，因为我有 100 条数千行要检查。我感谢解决这个问题的任何和所有帮助，我一直在寻求改进我对 awk 的使用，所以如果你有一个解决方案，最好有一个解释，这样我就可以学习和提高自己。

这是一个例子：

假设我只想打印来自的行${ListToCheckFrom}，如果第 2 列 >= 并且第 3 列 <= 到来自${ListToCheckAgainst}. 此外，第 1 列${ListToCheckFrom}必须与第 1 列相同${ListToCheckAgainst}
输入示例：

ListToCheckFrom="r,2,3
C,22,24
C,12,13
C,51,59
C,15,20
C,13,18"
        
ListToCheckAgainst="C,25,50
C,22,30
C,12,18
C,15,17
C,1,12
C,60,200"

预期输出：

C,22,24  
C,12,13
C,15,20
C,13,18

我从一个答案（感谢@AdminBee）到我今天问的一个更简单的问题：

awk -F',' 'list=="constraints"{n++; low[n]=$2;high[n]=$3;c[n]=$1;next}
           {for (i=1;i<=n;i++) {if (($1==c[i])&&($2>=low[i]&&$2<=high[i])||($3>=low[i]&&$3<=high[i])) {print;next};}}' list=constraints <(echo "$ListToCheckAgainst") list=check <(echo "$ListToCheckFrom")

我正在使用 Ubuntu。

Giles

Asked: 2022-05-12 06:27:52 +0800 CST

使用 awk 检查一个变量中特定列上每一行中的数字与另一个变量中两个特定列中的所有行

2

我需要检查一个变量中特定列的每一行中的数字与另一个变量中两个特定列中的所有行的对比awk，并在第一个变量中保留满足参数的行。

到目前为止，我尝试通过一个强大的awk命令来执行此操作都失败了。我显然可以在外部循环中执行此操作，但它会非常慢，因为我有 100 条数千行要检查。我感谢解决这个问题的任何和所有帮助，我一直在寻求改进我对 awk 的使用，所以如果你有一个解决方案，最好有一个解释，这样我就可以学习和提高自己。

这是一个例子：

假设我只想打印第 2 列中的行${ListToCheckFrom}，如果数字有 > 第 2 列和 < 第 3 列中的任何行${ListToCheckAgainst}

输入示例：

ListToCheckFrom="C,2  
C,22  
C,12  
hr,15"

ListToCheckAgainst="C1,25,50  
hr1,22,30  
r,12,18  
C,15,44"

预期输出：
```
C,22  
hr,15
```

Giles

Asked: 2019-10-03 05:05:59 +0800 CST

如何强制脚本中的所有命令（包括许多并行命令）在特定的几个核心上运行？

0

我试图在脚本的开头编写一些代码，以确保脚本中的每个命令都只在几个特定的核心上运行。即使许多命令以多个并行运行，例如： [command] & [command] & [command] & [command] & [command] ，我希望它们只在少数选定的核心上运行。

目前，脚本在启动时会查找自己的 PID，然后将其输入任务集，我告诉它它的 PID 只允许使用核心 1 到 3。

一个示例任务集命令如下所示：

taskset -c 1-3 -p 45678

但是一旦一些并行命令开始，它们每个都会到达那里自己的 PID，并且知道不再局限于分配的内核。

如何确保脚本中的所有内容都保留在所需的核心中？

Giles

Asked: 2019-08-09 04:44:37 +0800 CST

在特定列中，编辑不等于 3 个可能变量中的任何一个的行，最好在 awk 中

1

在特定列中，我需要用“X”替换行，但前提是它们与 3 种可能的模式（3 个变量）中的任何一种都不匹配。请注意，列并不总是相同的列，因此代码必须使用列号本身作为变量号。对于 3 种可能的模式也可以这样说。没有演示很难解释。在示例中，如果您查看第 1 列并查看它如何根据“GrabVariantOption”将特定列更改为“X”，那么它可能比我能解释的任何内容都更清楚。

示例输入：

A,A,A,X
A,G,T,X
C,A,G,T
A,C,G,T
f,X,A,g
g,T,A,A
m,s,G,A
G,s,m,A

示例 3 可能的模式：

GrabVariantOption1=A
GrabVariantOption2=g
GrabVariantOption3=G

一些伪代码，这是我想做的一种原则：

Column=1   

awk -F ',' -v a=$GrabVariantOption1 -v b=$GrabVariantOption2 -v c=$GrabVariantOption3 -v x=$Column '{$x; if NR!=a && NR!=b && NR!=c; flag=1} {if flag=1 NR==X }'

示例输出：

A,A,A,X
A,G,T,X
X,A,G,T
A,C,G,T
X,X,A,g
g,T,A,A
X,s,G,A
G,s,m,A

Giles

Asked: 2019-07-19 05:11:33 +0800 CST

基于列内字符串匹配数的列删除

5

我需要一个命令来删除文本文件中的任何列，如果它们在列中具有 =>${MaxAllowedNumberOfFs} 'F's（行数不同的列）。

我有一些接近的伪代码，但我不知道如何设置匹配数限制器。

假设限制器设置为 3，示例输入文件为：

F G F H H
G F F F A
F G F F F
F F F T F

那么所需的输出将是：

G H H
F F A
G F F
F T F

接近的伪代码（限制器可以并且将根据文件而改变）：

MaxAllowedNumberOfFs="1012"

Count_of_columns=`awk '{print NF}' filename | sort -nr | sed -n '$p'` 

for((i=1;i<=$Count_of_columns;i++)); do awk -v i="$i" -v x="$MaxAllowedNumberOfFs" '$i == F =>x number of times {$i="";print $0}' filename; done

显然，我可以使用 grep 遍历所有列，计算列中出现的次数，然后删除不符合条件的列。但这真的很慢。真的想要一个漂亮的 awk 命令，但我没有 awk 技能

Giles

Asked: 2019-06-12 03:40:05 +0800 CST

列中匹配字符串的列号

3

我知道这看起来很简单，但我无法让它工作或找到一个功能选项。

Linux UBUNTU 操作系统，bash 脚本

我需要根据字符串识别列号（总会有不同数量的列要搜索）

示例输入：

STRING="Boo"
Hi Boo Jiggy

示例输出：

Giles

Asked: 2019-06-06 01:02:32 +0800 CST

仅当其中的每一列都是 $VAR1 或 $VAR2 时才删除整行

0

我有一个文本文件，其中列号和行号总是不同的，并且只有当其中的每一列都等于 $VAR1 或 $VAR2 时，才想从 txt 文件中删除整行。例如：

假设 $VAR1="X" 和 $VAR2="N" 我想删除 $VAR1 和 $VAR2 构成整个列的任何行。

这将是我的输入：

hajn 32 ahnnd namm 5 543 asfn F
X X N X X X N X
5739 dw 32eff Sfff 3 asd 3123 1

这将是我想要的输出：

hajn 32 ahnnd namm 5 543 asfn F
5739 dw 32eff Sfff 3 asd 3123 1

我可以用一个循环来解决这个问题，但我想知道是否有一种强大的单线方法可以做到这一点，最好是 awk。

Giles

Asked: 2019-06-06 00:52:34 +0800 CST

仅当其中的每一行都是 $VAR1 或 $VAR2 时才识别并删除整个列

0

类似于问题“仅当其中的每一列都是 $VAR1 或 $VAR2 时才删除整行”

但它改为删除整个 COLUMN，并且基于列中每一行的组成

我有一个文本文件，其中列号和行号总是不同的，并且只有当所述列中的每一行都等于 $VAR1 或 $VAR2 时，我才希望从 txt 文件中删除所有列。例如：

假设 $VAR1="X" 和 $VAR2="N" 我想删除 $VAR1 和 $VAR2 构成整个列的任何列。

这将是我的输入：

hajn 32 ahnnd namm X 543 asfn F
namd 90 jsnfu namm X 098 asfn S
5739 dw 32eff Sfff N asd 3123 1

这将是我想要的输出：

hajn 32 ahnnd namm 543 asfn F
namd 90 jsnfu namm 098 asfn S
5739 dw 32eff Sfff asd 3123 1

我可以用一个循环来解决这个问题，但我想知道是否有一种强大的单线方法可以做到这一点，最好是 awk。

通过基于第 2 列和第 3 列合并来汇总逗号分隔的文本文件，并计算第 4 列的平均值

awk - 将每行的几列与上一行进行比较

使用 awk 检查一个变量中一组特定列的每一行中的信息与另一个变量中三个特定列中的所有行

使用 awk 检查一个变量中特定列上每一行中的数字与另一个变量中两个特定列中的所有行

如何强制脚本中的所有命令（包括许多并行命令）在特定的几个核心上运行？

在特定列中，编辑不等于 3 个可能变量中的任何一个的行，最好在 awk 中

基于列内字符串匹配数的列删除

列中匹配字符串的列号

仅当其中的每一列都是 $VAR1 或 $VAR2 时才删除整行

仅当其中的每一行都是 $VAR1 或 $VAR2 时才识别并删除整个列

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

Giles's questions