bballdave025提出的问题 -unix

Asked: 2024-02-15 05:28:44 +0800 CST

awk：按第一列排序，然后按第二列排序；输出唯一的第一列一次，但输出所有第二列

我有一个两列文件，您可以按如下方式创建

cat > twocol << EOF
007 03
001 03
003 01
137 12
001 11
002 01
002 02
002 03
001 02
002 04
137 94
010 21
001 01
EOF

生成的文件twocol只包含数字行。

期望的结果

我想执行某种命令twocol并得到以下结果。（我认为看到它比尝试重述我有点令人困惑的问题标题要好得多 - “按第一列排序，然后第二列排序；输出唯一的第一列一次，但输出所有第二列”。）

这与 simplesort给我的不同，即不同于

我的工作

~~我唯一想到的第一个解决方案是~~我想出的第一个解决方案（在我得到一个像样的awk脚本之前） - 它与上面粗体的所需结果匹配，使用的几个实例，awk一堆bash，以及来自1的一些帮助。

col_1_max_len=$(awk '
  BEGIN{maxl=0;}
  {curr=length($1);max1=max1>curr?max1:curr;}
  END{print max1}' \
 twocol);
len1=$col_1_max_len;
len2=$(awk '
  BEGIN{max2=0;}
  {curr=length($2);max2=max2>curr?max2:curr;}
  END{print max2}' \
 twocol);
current_col_1_val="nothing";

while read -r line; do {
  current_row="${line}";
  col_1_val=$(awk '{print $1}' <<< "${current_row}");
  col_2_val=$(awk '{print $2}' <<< "${current_row}");
  if [ ! "${col_1_val}" == "${current_col_1_val}" ]; then
    printf "%0"$len1"d %0"$len2"d\n"  "${col_1_val}"  "${col_2_val}";
  else
    printf "%"$len1"s %0"$len2"d\n"  " "  "${col_2_val}";
  fi;
}; done < <(sort twocol)

我觉得我应该能够使用一次传递awk，类似于以下答案：2 , 3 , 4 , 5 , ...

如果没有额外的、笨重的、消耗内存的数组，我似乎无法将它拼凑在一起。这种格式也给我带来了一个问题——第一列和第二列中的数字可以有更多位数，而且最好看起来不错。

谁能告诉我如何使用一些不错的 awk 代码获得这个结果 - 最好可以在终端中非常轻松地使用？ Perl 也欢迎回答。

哦，我的系统

$ uname -a && bash --version | head -1 && awk --version | head -1
CYGWIN_NT-10.0 MY-MACHINE 3.2.0(0.340/5/3) 2021-03-29 08:42 x86_64 Cygwin
GNU bash, version 4.4.12(3)-release (x86_64-unknown-cygwin)
GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.2.0-p9, GNU MP 6.2.1)

（我在 Fedora 和 Ubuntu 机器上得到了完全相同的行为。）

编辑

我想出了一个awk解决方案。看起来一切都很好，很短，但我仍然觉得有问题。

awk '{if (!vals[$1]++) print($0); else print("   ",$2);}' <(sort twocol)

我认为我在数组中使用了一堆内存vals- 截至目前，我的文件只有约 10k 行，但我希望将其扩大。我以格式进行硬编码，但我不喜欢它，因为我可以有不同长度的字符串。

如果我使用变量进行三遍awk并传递变量，我可以修复这个问题（格式）。

length1=$(awk '
  BEGIN{maxl=0;}
  {curr=length($1);max1=max1>curr?max1:curr;}
  END{print max1}' \
 twocol);

length2=$(awk '
  BEGIN{max2=0;}
  {curr=length($2);max2=max2>curr?max2:curr;}
  END{print max2}' \
 twocol);

awk -vlen1=$length1 -vlen2=$length2 '
{
  if (!vals[$1]++) 
    printf("%0*d %0*d\n",len1,$1,len2,$2); 
  else 
    printf("%*s %0*d\n",len1," ",len2,$2);
}' <(sort twocol)

结果与所需结果完全匹配（请参阅上面粗体部分），但我希望有一种方法可以通过一次awk.

谁能分享一些符合我提到的特征的东西？关于不同方法的时间性能和/或内存性能的任何评论也将受到赞赏。

我认为也可以进行排序awk；我想知道，尤其是它是否可以更有效率。编辑：可以完成，如下所示@steeldriver和@markp-fuso。

bballdave025

Asked: 2019-11-08 18:38:25 +0800 CST

尝试使用 while read line 和 echo 进行 bash 大括号扩展（离散数字），不会扩展

我将简要介绍我所面临的问题。我正在尝试编写的实际应用程序有很多部分，所以我尝试用一个小例子来隔离我遇到的部分。我的情况涉及文件 ID 号，类似于从目录或其他东西解析的学生 ID 号的假设列表。

我从什么开始

为了尝试并利用bash 大括号扩展，已解析学生目录之类的内容以提供以下内容：

$ cat student_id_potential_expansions
0000{11,24}
0001{32,38,81}
0002{02,80,81,89,97}

期望的行为

我想使用这个输入来创建我自己的（Bourne Again）shell 脚本，它看起来像下面这样。

#!/bin/bash

get_transcripts_for_id.sh -id 000011
get_transcripts_for_id.sh -id 000024
get_transcripts_for_id.sh -id 000132
get_transcripts_for_id.sh -id 000133
get_transcripts_for_id.sh -id 000181
get_transcripts_for_id.sh -id 000202
...

等等

我之前不太担心命令；我想我会用一个

awk '{print "get_transcripts_for_id.sh -id" $0}' student_id_list > my_shell_script.sh

或一个

sed 's/^$.*$$/get_transcripts_for_id.sh -id \1/' student_id_list > my_shell_script.sh

现在，我只是想student_id_list从潜在扩展列表中获取 id 编号列表（从上面）。

我想我知道基本问题，我只是不知道如何解决它。我可以得到我想要的列表片段，如下所示：

$ echo 0000{11,24} | tr ' ' '\n'
000011
000024

$ echo 0001{32,38,81} | tr ' ' '\n'
000132
000138
000181

$ echo 0002{02,80,81,89,97} | tr ' ' '\n'
000202
000280
000281
000289
000297

但是，我第一个想到的命令并没有扩展内容

# doesn't work, as you can see
$ while read -r line; do echo $line; done < student_id_potential_expansions
0000{11,24}
0001{32,38,81}
0002{02,80,81,89,97}

我不想只是复制/粘贴每一行。我已经获得了成百上千的潜在可扩展行 - 这些是由不知道在哪里的其他人解析的，我无法访问从记录中进行原始解析的人。另外，我的每一行都更像

0000009{882,739,861,014,952,611,862,935,976,916,080,697,323,843,840,487,517,407,256,756,374,682,162,930,758,157,770,505,867,233,198,131,917,848,613,247,961,261,616,392,876,747,873,148,844,849,280,626,817,819,174,771,172,284,217,200,018,624,418,292,642,529,755,855,647,317,881,962,975,237,635,805,298,835,053}

我的理解

来自 bash 手册，第 3.5.1 节

大括号扩展是一种可以生成任意字符串的机制。
...
格式正确的大括号展开必须包含不带引号的左大括号和右大括号，以及至少一个不带引号的逗号或有效的序列表达式。任何格式不正确的大括号扩展都保持不变。

据我了解，当我阅读每一行时，我基本上是在给一个字符串提供给 while 循环内的任何内容，即在上面的示例中，我首先给出$lineas "0000{11,24}"（注意引号）。进一步进行，就好像我第一次通过循环导致以下命令

echo "0000{11,24}"

再一次注意引号，即使它们不在$line我的while循环中。为了看看这是否一致，我运行了以下命令并得到了以下结果：

$ echo "0000{11,24}"
0000{11,24}

$ echo "0001{32,38,81}"
0001{32,38,81}

$ echo "0002{02,80,81,89,97}"
0002{02,80,81,89,97}

因此，据我所知，所有的大括号 ({和}) 和逗号都被引用了——bash 手册中所说的会导致无效的扩展语句。那么，主要问题是，我如何取消引用或取消字符串化$line我读到的每个内容？

我的尝试/研究

冒着使这篇文章太长的风险，这里有一些我所做的尝试。

浏览这篇SO 帖子，我很确定我的问题不是单词分离问题。

这个答案和这个评论，特别是提到

在bash，{}扩展发生在$扩展之前，所以我认为除了使用eval或其他一些技巧来导致两次通过表达式之外，没有其他方法可以做到这一点。

让我想到尝试

$ while read -r line; do eval "$line"; done < student_id_potential_expansions
bash: 000011: command not found
bash: 000132: command not found
bash: 000202: command not found

和

$ while read -r line; do echo $(eval "$line"); done < student_id_potential_expansions
bash: 000011: command not found

bash: 000132: command not found

bash: 000202: command not found

在 shell 尝试运行（评估）命令之前，似乎只进行了第一次扩展。

我还尝试了以下命令，查看此处的评论。

$ while read -r line; do expansions=$line; echo $expansions; done < trying_inner_echo.txt
$(echo 0000{11,24})
$(echo 0001{32,38,81})
$(echo 0002{02,80,81,89,97})

$ while read -r line; do echo $line; done < trying_inner_echo.txt
$(echo 0000{11,24})
$(echo 0001{32,38,81})
$(echo 0002{02,80,81,89,97})

$ while read -r line; do threads=${line}; exec $threads; done < trying_inner_echo.efl
bash: exec: $(echo: not found
bash: exec: $(echo: not found
bash: exec: $(echo: not found

$ while read -r line; do threads=${line}; exec "${threads}"; done < trying_inner_echo.txt
bash: exec: $(echo 0000{11,24}): not found
bash: exec: $(echo 0001{32,38,81}): not found
bash: exec: $(echo 0002{02,80,81,89,97}): not found

其他一些尝试：

$ while read -r line; do echo "$line"; done < student_id_potential_expansions
$ while read -r line; do echo "$(echo $line)"; done < student_id_potential_expansions

系统信息

$ uname -a
CYGWIN_NT-10.0 C-D-ENG-E-INT3 2.11.2(0.329/5/3) 2018-11-08 14:34 x86_64 Cygwin

$ bash --version
GNU bash, version 4.4.12(3)-release (x86_64-unknown-cygwin)
Copyright (C) 2016 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>

This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

$ systeminfo | sed -n 's/^OS\ *//p'
Name:                   Microsoft Windows 10 Enterprise
Version:                10.0.17134 N/A Build 17134
Manufacturer:           Microsoft Corporation
Configuration:          Member Workstation
Build Type:             Multiprocessor Free

我用了什么（感谢@EchoMike444）

@EchoMike444 的答案是绝对正确的，让我到达了我需要去的地方，因此这是公认的答案。由于我使用的内容与答案中出现的内容略有不同，因此我将把它放在这里（而不是在答案的评论中）。来自评论：

谢谢你把我带到那里。当我使用

while read -r line; do 
  eval "echo $line"  ## RIGHT!
done < student_id_potential_expansions | tr ' ' '\n'

我得到了我正在寻找的输出。我需要帮助才能到达那里echo $(eval "$line") # wrong!。

bballdave025

Asked: 2018-09-19 19:48:50 +0800 CST

setfacl -R 在 Cygwin 上不起作用

我想更改基目录中所有目录和文件的 ACL 和默认 ACL。在其他答案（例如这个）中，-R使用了标志。但是，我得到

$ setfacl -R -m u::rwx my_dir/
setfacl: unknown option -- R
Try `setfacl --help' for more information.

# this is different from what's done on, e.g. Ubuntu
# setfacl -R -d -m u::rwx mydir/
$ setfacl -R -m d:u::rwx mydir/

如何在 Cygwin 上递归设置 ACL 权限？

awk：按第一列排序，然后按第二列排序；输出唯一的第一列一次，但输出所有第二列

尝试使用 while read line 和 echo 进行 bash 大括号扩展（离散数字），不会扩展

我从什么开始

期望的行为

我的理解

我的尝试/研究

系统信息

我用了什么（感谢@EchoMike444）

setfacl -R 在 Cygwin 上不起作用

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

bballdave025's questions

我从什么开始

期望的行为

我的理解

我的尝试/研究

系统信息

我用了什么（感谢@EchoMike444）