Linux sed 与 < 和 >

Question

Marcins

Asked: 2024-12-08 22:51:44 +0800 CST2024-12-08 22:51:44 +0800 CST 2024-12-08 22:51:44 +0800 CST

Awk 匹配模式并删除相邻行

772

我获得了来自不同大脑区域的体积数据，并试图对其进行整理，以便于分析。为了便于理解，以下是我获得的数据的一部分：

LT_Putamen 5075 5075.000000
LT_Temporal 84593 84593.000000
LT_Thalamus 7720 7720.000000
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

我想修改它并且输出将是：

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

只是想在每条记录中都有这条“重叠”线。

我在编程方面还是一个新手，但我想到了类似这样的东西：

awk '{
    if (NR == 1) {
        # Initialize the first region (using first world in a line)
        region = $1
        print $0
    } else {
        if ($1 != region) {
            # Finalize the old region - printing "overlaps" line with 0 0
            printf("%s %overlaps 0 0\n", region)
            # Start the new region
            region = $1
        }
        # Print the current line (for the current region)
        print $0

    }
}
END {
    # For the last region
    if (region) {
        printf("%s 0 0\n", region)
    }
}'

结果接近我想要的：

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 0 0
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 0 0
RT_Amygdala overlaps 2133.000000 94.7100

但我在已有重叠的区域有这些额外的“重叠”线。你能帮我吗？我应该怎么做才能让它工作？我会非常感激任何帮助！！谢谢

马尔钦

4 个回答

Voted

markp-fuso · Answer 1 · 2024-12-09T00:15:42+08:00

假设/理解：

输入文件已经按第一个字段排序
对于第一个字段中的给定值，输入文件中最多会有 2 行包含该值
对于第一个字段中的给定值，并且只有一个输入行包含该值，则该行将不包含字符串“重叠”
对于第一个字段中的给定值，输出中将有 2 行包含该值

一个awk想法：

awk '
    { if ($1 != prev && NR > 1 && ! overlaps)       # if different $1 and previous line did not contain string "overlaps" then ...    
         print prev,"overlaps",0,0                  # print new line
      overlaps = ($2 == "overlaps" ? 1 : 0)         # set flag
      prev = $1                                     # save current $1
    }
1                                                   # print current line
END { if (! overlaps)                               # if last line of file did not contain string "overlaps" then ...  
         print prev,"overlaps",0,0                  # print new line
    }
' volume.dat

这将生成：

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

为了演示正确的处理，其中最后一行不是“重叠”行：

设置：

$ cat volume.dat
LT_Putamen 5075 5075.000000
LT_Temporal 84593 84593.000000
LT_Thalamus 7720 7720.000000
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100
XX_Last_Line 1234 6789.00000

相同的代码生成：

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100
XX_Last_Line 1234 6789.00000
XX_Last_Line overlaps 0 0

Luuk · Answer 2 · 2024-12-08T22:59:50+08:00

Luuk

2024-12-08T22:59:50+08:002024-12-08T22:59:50+08:00

awk '{ if ($1!=col1 && col1!=""){ 
           print col1 " overlaps 0 0"; }; 
       col1=$1; 
     }
     /overlaps/{ col1="" }
     1' input.txt

当第一列（$1）不等于变量col1，且该变量有内容时，用" overlaps 0 0"
然后分配col1当前第一列的值。
当行包含“重叠” ( /overlaps/) 时重置 col1 变量。
最后打印该行（1）

输出：

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

2

Ed Morton · Answer 3 · 2024-12-09T05:41:30+08:00

Ed Morton

2024-12-09T05:41:30+08:002024-12-09T05:41:30+08:00

$2使用任何保留部分中的值的 awk END（大多数都这样做）：

$ awk '
    { addOverlaps(); print }
    END { addOverlaps() }

    function addOverlaps() {
        if ( (numOutLines++ % 2) && ($2 != "overlaps") ) {
            print prevRegion, "overlaps", 0, 0
            numOutLines++
        }
        prevRegion = $1
    }
' file
LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

1

anubhava · Answer 4 · 2024-12-09T00:52:54+08:00

anubhava

2024-12-09T00:52:54+08:002024-12-09T00:52:54+08:00

该awk解决方案也应该适合您：

awk '
pcol && $1 != pcol {
   print pcol, "overlaps", "0", "0"
}
{
   pcol = ($2 == "overlaps" ? "" : $1)
} 1' file

LT_Putamen 5075 5075.000000
LT_Putamen overlaps 0 0
LT_Temporal 84593 84593.000000
LT_Temporal overlaps 0 0
LT_Thalamus 7720 7720.000000
LT_Thalamus overlaps 0 0
RT_Accumbens 623 623.000000
RT_Accumbens overlaps 64.000000 10.2700
RT_Amygdala 2252 2252.000000
RT_Amygdala overlaps 2133.000000 94.7100

0

Awk 匹配模式并删除相邻行

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Awk 匹配模式并删除相邻行

4 个回答

相关问题