重新排列字母并比较两个单词

Question

fuzzydrawrings

Asked: 2022-03-18 18:12:57 +0800 CST2022-03-18 18:12:57 +0800 CST 2022-03-18 18:12:57 +0800 CST

AWK：连接来自不同记录的字段

772

给定file：

2018-03-22 foo/bar/baz
2020-09-30 Lorem/ipsum/dolor
2021-10-01 yadda/yadda/yadda
2022-03-14 blah/blah/blah

（实际文件包含数千行这样的行）

如何获取字符串2018-03-22_2022-03-14？这是记录 1 中的字段 1 的串联，后跟下划线，然后是最后一条记录中的字段 1。

我想出了这个：

$ awk 'BEGIN{ORS="_"}NR==1{print $1} END{print $1}' file | sed 's/_$//'
2018-03-22_2022-03-14

它有效，但似乎应该有一种简单的方法来获得相同的结果 only awk，或者可能 only sed，没有管道或子shell。真的有这样的方法吗？

7 个回答

Voted

Philippos · Answer 1 · 2022-03-19T04:17:09+08:00

Philippos

2022-03-19T04:17:09+08:002022-03-19T04:17:09+08:00

-onlysed版本：

sed 's/ .*//;1h;$!d;H;g;y/\n/_/' file

用于s/ .*//删除空格后的所有内容，仅保留日期
1h复制空间1中的行日期hold
$!d d删除除最后一行之外的所有行
如果我们到达这里，我们在最后一行，所以我们将这一行H与我们的第一个日期一起附加到旧空间，然后将两者复制到模式空间中g
现在唯一要做的就是用下划线替换嵌入的换行符（由附加引起）：y/\n/_/

（是的，它有点短）

2

Ed Morton · Answer 2 · 2022-03-19T15:26:15+08:00

Ed Morton

2022-03-19T15:26:15+08:002022-03-19T15:26:15+08:00

为了可移植性，不要在该部分中执行print $1（或使用$anything），因为该部分中的,等END的值是每个 POSIX 未定义的行为。在该部分中的某些 awk中，将是读取的最后一行的第一个字段的值，在其他 awk 中它将为空，而在其他 awk 中，它可能是其他任何值。$0$1END$1END

在每个 Unix 机器上的任何 shell 中使用任何 awk：

$ awk -v OFS='_' 'NR==1{beg=$1} {end=$1} END{print beg, end}' file
2018-03-22_2022-03-14

_或者如果输入文件为空，则避免打印单个：

awk -v OFS='_' 'NR==1{beg=$1} {end=$1} END{ if (NR) print beg, end}' file

以上假设如果输入中只有 1 行，则您希望在它们之间$1使用 a 重复相同的值_。如果这不是您想要的，请更新您的问题以阐明您对该案例的要求。

2

fuzzydrawrings · Answer 3 · 2022-03-18T18:12:57+08:00

fuzzydrawrings

2022-03-18T18:12:57+08:002022-03-18T18:12:57+08:00

一种完全的方法awk（尽管由于本节中的字段引用，@EdMorton 指出不严格符合 POSIX END）是将变量设置为记录 1 中字段 1 的值，然后在最后打印此变量_和最后一条记录的字段 1：

$ awk 'FNR==1{d=$1} END{print d"_"$1}' file
2018-03-22_2022-03-14

注意：我没有计划这是一个“问答”类型的问题，但是当我最初尝试提交Q时，SE 处于只读模式，在此期间我终于想出了一个A。我仍然希望看到其他答案，特别是如果它们在命令行上更短。

1

user516667 · Answer 4 · 2022-03-19T04:25:09+08:00

Best Answer

user516667

2022-03-19T04:25:09+08:002022-03-19T04:25:09+08:00

用于printf控制输出：

$ awk 'NR==1{printf("%s_", $1)}END{print $1}' f
2018-03-22_2022-03-14

1

Weihang Jian · Answer 5 · 2022-04-01T08:35:47+08:00

Weihang Jian

2022-04-01T08:35:47+08:002022-04-01T08:35:47+08:00

我建议您将headandtail用于大型输入文件，因为处理大型文件awk的sed速度很慢。

$ cat input.txt
2018-03-22 foo/bar/baz
2020-09-30 Lorem/ipsum/dolor
2021-10-01 yadda/yadda/yadda
2022-03-14 blah/blah/blah

{ head -n1 input.txt && tail -n1 input.txt; } |
  cut -d ' ' -f1 | paste -sd _ -

2018-03-22_2022-03-14

1

G-Man Says 'Reinstate Monica' · Answer 6 · 2022-03-18T19:38:52+08:00

G-Man Says 'Reinstate Monica'

2022-03-18T19:38:52+08:002022-03-18T19:38:52+08:00

这比您的命令长，但如果文件很大，它可能会更快：

echo "$(head -1 file | cut -d' ' -f1)_$(tail -1 file | cut -d' ' -f1)"

如果文件实际上是制表符分隔的，则可以省略-d' '. 如果文件可能以开头-，或者$1值可能包含反斜杠，

printf '%s_%s\n' "$(head -1 file | cut -d' ' -f1)" "$(tail -1 file | cut -d' ' -f1)"

可能更安全。

0

Praveen Kumar BS · Answer 7 · 2022-03-18T20:36:31+08:00

Praveen Kumar BS

2022-03-18T20:36:31+08:002022-03-18T20:36:31+08:00

#!/usr/bin/python
fil=open('file','r')
fillist=fil.readlines()
filine=fillist[0].strip().split(' ')[0]
lasline=fillist[-1].strip().split(' ')[0]
print filine+"_"+lasline

输出

2018-03-22_2022-03-14

0

AWK：连接来自不同记录的字段

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

AWK：连接来自不同记录的字段

7 个回答

相关问题