目前我有一个包含这样记录的文件:
D20211011,S0519,306668,1
D20211004,S1600,306668,1
D20211009,S1604,306668,1
D20211010,S1605,306668,1
D20211006,S1610,306668,1
D20211011,S1611,306668,1
假设当前日期是20211011
,我只需要对日期小于当前日期的行应用转换,并且日期在过去的行应该更新为当前日期。
在上面共享的示例中,应该对第 2 到 5 行进行转换。
D20211004,S1600,306668,1 -> D20211011,S1600,306668,1
D20211009,S1604,306668,1 -> D20211011,S1604,306668,1
D20211010,S1605,306668,1 -> D20211011,S1605,306668,1
D20211006,S1610,306668,1 -> D20211011,S1610,306668,1
在您的情况下,您的优势是日期以 ISO 样式给出,这意味着它们可以被解释为整数值,并使用算术运算符(和)进行简单比较
<
,同时仍然产生正确的顺序。=
>
因此,您可以使用以下
awk
程序:当前日期定义为
awk
变量cur
。一开始,输入和输出的字段分隔符设置为,
。然后,对于每一行,行日期是通过从行的字段 1 中删除第一个字符来确定的。如果结果“整数”小于cur
,则该字段将被 的串联D
和 的内容覆盖cur
。1
规则块之外的看似“杂散”指示awk
打印当前行,包括任何可能的修改。尝试
awk
:-v today=$(date +%Y%m%d)
使用当前日期设置变量。BEGIN{FS=OFS=","}
设置输入 (FS
) 和输出 (OFS
) 字段分隔符。substr($1,2)<today
从第一个字段中截取D
并将其与当前日期进行比较。$1="D"today;
用当前日期替换第一个字段1
总是评估为真,因此打印该行在扩展正则表达式模式下运行的 GNU sed 也可以获得所需的输出。日期比较是通过查看两个日期中第一个不匹配的 MSD 来完成的。
使用 Raku(以前称为 Perl_6)
正如@StéphaneChazelas 在对您的 OP 的评论中指出的那样,尚不清楚“未来日期”是否会出现在您的第一列中。如果不是,那么一个简单的
s///
替换就足够了,这就是上面的 Raku 代码所完成的(替换它找到的所有日期数字,而不管数字< = >
比较如何)。但是,如果您希望将第一列更新为基于数值
< = >
比较的值,则可以使用下面的 Raku 代码,该代码在操作符的替换部分执行包含 Raku 的三元运算符的块s///
:样本输入:
示例输出(对于上述任一 Raku 代码示例):
对于第二个 Raku 代码示例,请注意变量
$d
是类型约束的,Int
以进一步检查正确性。正如@AdminBee 指出的那样,您很幸运,第一列包含可以与< = >
运算符进行比较的 ISO 日期,并且仍然给出正确的结果。关于上面 Raku 代码的(简单)第二行,您应该注意没有检查
$0
捕获以确保有效日期(例如,确保没有出现第 13 个月或第 32 天)。甚至没有代码可以排除不完整的日期(例如,没有年份的月/日)。OTOH,添加适当的日期验证检查应该相对容易,使用 Raku 的内置支持
Date
和DateTime
对象(不需要额外的模块;示例和链接如下)。https://docs.raku.org/language/temporal#index-entry-Date_and_time_functions
https://raku.org