grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Duck

Asked: 2023-02-28 21:36:01 +0800 CST2023-02-28 21:36:01 +0800 CST 2023-02-28 21:36:01 +0800 CST

将文件中每 6 行记录的第 5 行中的值相加

772

我有一个包含如下文本块的 txt 文件：

17-01-2023
Purchase AAA
Apple Pay John Doe
Full Payment
-11,34€
0,11€
30-01-2023
Purchase BBB
Mastercard Jane Doe
Installment
-23,90€
0,24€

因此，我们依次有日期、购买类型、付款类型和姓名、付款类型、负值和折扣。

这些通过包含数千个条目的文件重复。

我想对这些值求和，在此示例中为 11,34 + 23,90，并将总和设为正数。请记住，数字后有一个欧元符号，在我的语言环境中，逗号是小数点分隔符。

我如何从终端使用 sed、awk 等来做到这一点？

4 个回答

Voted

steeldriver · Answer 1 · 2023-02-28T21:54:14+08:00

steeldriver

2023-02-28T21:54:14+08:002023-02-28T21:54:14+08:00

您可以使用 awk - 与非数字货币符号前缀（如）不同€-23,90，在数字转换期间将忽略非数字后缀。请注意，不同的实现可能会以不同方式处理语言环境的小数点分隔符，例如。

mawk 'NR%6 == 5 {sum -= $0} END {print sum}' file

respects LC_NUMERIC/ LC_ALLas required for POSIX compliance，而 GNU awk 默认偏离 POSIX 规范，需要被指示使用您的语言环境：

gawk --use-lc-numeric 'NR%6 == 5 {sum -= $0} END {print sum}' file

请参阅位于Locales Can Influence Conversion的 GNU Awk 用户指南

例如，使用 de_DE.UTF-8 语言环境进行测试：

$ export LC_NUMERIC=de_DE.UTF-8
$ 
$ mawk 'NR%6 == 5 {sum -= $0} END {print sum}' yourfile
35,24
$ 
$ gawk --use-lc-numeric 'NR%6 == 5 {sum -= $0} END {print sum}' sum=x yourfile
35,24

在 Mac 操作系统上：

$ awk --version
awk version 20200816

$ export LC_NUMERIC=de_DE.UTF-8

$ awk 'NR%6 == 5 {sum -= $0} END {print sum}' yourfile
35,24

2

AdminBee · Answer 2 · 2023-02-28T21:53:21+08:00

假设交易金额始终在记录的第 5 行，记录开始由“DD-MM-YYYY”格式的日期表示，并且这种模式只能出现在记录开始处，以下awk程序会做：

awk -v dpt=$(locale decimal_point) '/^([[:digit:]]{2}-){2}[[:digit:]]{4}$/{line_of_rec=0}
     {if (++line_of_rec==5) { if (dpt==".") sub(/,/,"."); total-=$0 } }
     END{printf "Total payments: %.2f\n",total}' input.txt

它的工作原理如下：

它将命令的结果locale decimal_point作为变量传递dpt给程序。这是相关的，因为您似乎awk在输入,格式化为小数点分隔符的设置中使用，但区域设置设置为使用.，导致awk错过数字的小数部分。
它通过模式识别记录开始行（我们假设没有前导和尾随空格！），并将变量设置line_of_record为 0。
对于每一行，增加line_of_record计数器。如果它达到 5，它将用,a替换.（如有必要），以便awk将行内容解释为十进制数，并从变量中减去行内容以求total和正支付值。
在行尾，它将打印总数。

这是比最低限度需要更多的代码，但如果应该有空行分隔记录（它仍然依赖于记录的第 5 行中的交易金额），程序会更健壮一些。

steeldriver · Answer 3 · 2023-03-01T09:31:22+08:00

steeldriver

2023-03-01T09:31:22+08:002023-03-01T09:31:22+08:00

这只是为了好玩 - 假设 GNU sed 用于n~m构造：

$ sed -n '5~6{y/-,€/_.+/;p}' file | dc -e0 -f- -e_1\*p
35.24

,（当然，如果需要，您可以添加另一个 sed 或 tr 将小数点转换回原始语言环境）。

1

jubilatious1 · Answer 4 · 2023-03-02T15:58:38+08:00

使用Raku（以前称为 Perl_6）

没有类型检查：

~$ raku -ne 'state $sum1; $sum1 += $_.trans("," => ".").subst(/\€/) if ++$ % 6 == 5; END say $sum1;'  file

通过类型检查：

~$ raku -ne 'state Rat $sum1; $sum1 += $_.trans("," => ".").subst(/\€/) if ++$ % 6 == 5; END say $sum1;'  file

-ne简而言之，Raku 在带有非自动打印标志的命令行中运行。标量变量$sum1是stated，这意味着它将在由标志引导的循环-ne开始之前实例化。在第二条语句中，如果一个匿名递增行计数器变量++$在%模数除以 6 时等于 5，则将逗号trans延迟到点并删除（不带任何内容）欧元符号。然后累加到变量中。在循环的最后，。,.subst€+=$sumENDsay $sum1

示例输入：

17-01-2023
Purchase AAA
Apple Pay John Doe
Full Payment
-11,34€
0,11€
30-01-2023
Purchase BBB
Mastercard Jane Doe
Installment
-23,90€
0,24€

示例输出：

-35.24

对于累计总数，只有say累计变量：

~$ raku -ne 'state $sum1; say $sum1 += $_.trans("," => ".").subst(/\€/) if ++$ % 6 == 5;'

示例输出：

-11.34
-35.24

受@AdminBee's awkanswer 的启发，如果仅当行包含字符时才增加行计数器，则可以容忍记录之间的空行.chars：

~$ raku -ne 'state Rat $sum1; say $sum1 += $_.trans("," => ".").subst(/\€/) if (.chars && ++$) % 6 == 5;'

样本输出（同上）：

-11.34
-35.24

请注意，OP 示例中给出的数字Rat在 Raku 中默认输入为离子数字（Raku 中可用的其他类型包括Nums 和Ints）。RatRaku 中的 s（假设它们足够小）通常不会出现舍入错误，并且会很快转换为分数。例如，将END语句更改为：

~$ raku -ne 'state $sum1; $sum1 += $_.trans("," => ".").subst(/\€/) if ++$ % 6 == 5; END say $sum1.numerator, "/", $sum1.denominator;'

示例输出：

-881/25

为了更快的操作，say $sum1.nude返回(-881 25).

https://docs.raku.org/language/numerics.html#Rational
https://raku.org

将文件中每 6 行记录的第 5 行中的值相加

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将文件中每 6 行记录的第 5 行中的值相加

4 个回答

相关问题