通过命令的标准输出以编程方式导出环境变量[重复]

Question

Asked: 2023-03-10 17:50:42 +0800 CST2023-03-10 17:50:42 +0800 CST 2023-03-10 17:50:42 +0800 CST

如何读取一天的每小时文件并合并它？

772

我有一个 Netcdf 文件文件夹。这些文件是一个月的六个小时风文件。我想合并所有文件。我不知道如何制作一个 shell 脚本来按小时顺序读取文件以合并它们。请帮忙。

anal_00z20230118.nc
anal_00z20230119.nc
anal_00z20230120.nc
anal_00z20230121.nc
anal_00z20230122.nc
anal_00z20230123.nc
anal_00z20230124.nc
anal_00z20230125.nc
anal_00z20230126.nc
anal_00z20230127.nc
anal_00z20230128.nc
anal_00z20230129.nc
anal_00z20230130.nc
anal_00z20230131.nc
anal_06z20230118.nc
anal_06z20230119.nc
anal_06z20230120.nc
anal_06z20230121.nc
anal_06z20230122.nc
anal_06z20230123.nc
anal_06z20230124.nc
anal_06z20230125.nc
anal_06z20230126.nc
anal_06z20230127.nc
anal_06z20230128.nc
anal_06z20230129.nc
anal_06z20230130.nc
anal_12z20230118.nc
anal_12z20230119.nc
anal_12z20230120.nc
anal_12z20230121.nc
anal_12z20230122.nc
anal_12z20230123.nc
anal_12z20230124.nc
anal_12z20230125.nc
anal_12z20230126.nc
anal_12z20230127.nc
anal_12z20230128.nc
anal_12z20230129.nc
anal_12z20230130.nc
anal_18z20230118.nc
anal_18z20230119.nc
anal_18z20230120.nc
anal_18z20230121.nc
anal_18z20230122.nc
anal_18z20230123.nc
anal_18z20230124.nc
anal_18z20230125.nc
anal_18z20230126.nc
anal_18z20230127.nc
anal_18z20230128.nc
anal_18z20230129.nc
anal_18z20230130.nc

1 个回答

Voted

Stéphane Chazelas · Answer 1 · 2023-03-10T19:04:01+08:00

使用 GNU awk 和 zsh：

set -o extendedglob
LC_ALL=C gawk '
  BEGINFILE {out = gensub(/(.*_)[0-9]{2}z/, "\\1", FILENAME) ".combined"}
  {print > out}' ./*_(00|06|12|18)z[0-9](#c8).nc

anal_20230130.nc.combined将为每组文件写一个anal_XXz20230130.nc。

在中bash，等效的 glob 模式将是./*_@(00|06|12|18)z[0123456789][0123456789][0123456789][0123456789][0123456789][0123456789][0123456789][0123456789].nc您需要的shopt -s extglob failglob。

在和bash中zsh，globs 按词法顺序扩展，因此文件将在文件本身之前*_00z*出现在文件本身之前。*_06z**_12z**_18z*

如果文件数量非常多，您可能会遇到execve()参数大小 + 环境的限制，并出现“参数列表太长”错误。

这可以通过将列表传递给 zsh 的内置函数（因此不涉及 execve() ）来避免，print -rNC1以 NUL 分隔打印它以传递给gawk：

set -o extendedglob
print -rNC1 ./*_(00|06|12|18)z[0-9](#c8).nc(N) |
  LC_ALL=C gawk '
    !start {ARGV[ARGC++] = $0; next}
    BEGINFILE {out = gensub(/(.*_)[0-9]{2}z/, "\\1", FILENAME) ".combined"}
    {print > out}' RS='\0' - start=1 RS='\n'

bash没有print -rNC1，但你可以用一个函数来模拟它：

print0() { [ "$#" -eq 0 ] || printf '%s\0' "$@"; }

并使用nullglob而不是failglob获得等效的zshglob限定符N。

请注意，如果这些 6 小时的文件在一行的中间拆分（例如，如果以不后跟换行符anal_00z20230130.nc结尾并以开头，则合并后的文件将有而不是，因为将在它读取的每条记录后添加一个，即使是非-delimited ones. 如果这不是你想要的或者如果这些文件不是文本文件，你可以将.unix.staanal_06z20230130.ncckexchange.comunix.sta<newline>ckexchange.comunix.stackexchange.comgawkORSprintprintf "%s", $0 RT

如何读取一天的每小时文件并合并它？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何读取一天的每小时文件并合并它？

1 个回答

相关问题