这个位置的“let”表达式是不稳定的

Question

Asked: 2024-02-02 03:54:29 +0800 CST2024-02-02 03:54:29 +0800 CST 2024-02-02 03:54:29 +0800 CST

从文本文件中提取由 bash 中的特定字符分隔的部分

772

我在 bash 中有一些简单的文本文件，看起来像这样

>Position 1
ABCD
EFGH
IJKL
MNOP
QRST
UVWX
YZ
>Position 2
abcd
efgh
ijkl
mnop
qrst
uvwx
yz
>Position 3
...

（字母和大小写仅用作示例）

我想要的是能够提取“标题”（>位置）之间的每个部分（AZ）并将它们分成长度为 n 的字符串以发送到文件。例如，如果 n=10 我的输出应该是

ABCDEFGHIJ
KLMNOPQRST
UVWXYZ
abcdefghij
klmnopqrst
uvwxyz

我需要在一个接近一百万行的非常大的文件上执行此操作，因此效率是关键。

我当前的方法不是很有效，如下所示：

cat file.txt | while read line; do
    if [[ "$line" != '>'* ]]; then
        section="$section$line"
    else
        echo $section | fold -w 10 >> fragments.txt
        section=''
    fi
done

总之，它构建每个“部分”，直到到达新的“>”标头，此时它会吐出碎片内容。

如果可能的话，我想要一些能够更有效地给出相同结果的东西。有任何想法吗？

2 个回答

Voted

James Brown · Answer 1 · 2024-02-02T04:10:46+08:00

另一个 awk：

$ awk -v n=10 '
BEGIN {
    if(!n)                       # test that there an n
        exit 1                   # or exit 
}
{
    if(/^>Position/)             # >Position outputs buffer b
        while(b!="") {           # while buffer left
            print substr(b,1,n)  # output in pieces
            b=substr(b,n+1)      # shorten buffer (counter probly faster)
        }
    else                         # no >Position
        b=b $0                   # buffer to b
}' file

输出给定数据和n=10：

ABCDEFGHIJ
KLMNOPQRST
UVWXYZ
abcdefghij
klmnopqrst
uvwxyz

Gilles Quénot · Answer 2 · 2024-02-02T04:09:01+08:00

我会使用纯awk解决方案做什么：

awk -v n=10 '$1 ~ /^>Position/{++count;next} count==n+1{exit} 1' file

相同的多行：

awk -v n=10 '
    $1 ~ /^>Position/{++count;next} # if first column match 'Position', pre-increment count
    count==n+1{exit}                # if count == n, exit
    1                               # print current line
' file

从文本文件中提取由 bash 中的特定字符分隔的部分

为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

ELF 重定位的应用顺序在哪里指定？

为什么 GCC 生成有条件执行 SIMD 实现的代码？

Selenium urllib.error.HTTPError：HTTP 错误 404：未找到

Box::new() 会从堆栈复制到堆吗？

sizeof("string") 的正确输出是什么？

使用 <font color="#xxx"> 突出显示 html 中的代码

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

C++17 中 std::byte 只能按位运算？

从文本文件中提取由 bash 中的特定字符分隔的部分

2 个回答

相关问题