从文本文件传递变量的奇怪问题

Question

mindlessgreen

Asked: 2018-01-22 06:13:49 +0800 CST2018-01-22 06:13:49 +0800 CST 2018-01-22 06:13:49 +0800 CST

Bash：通过匹配数字范围过滤行

772

我有一个包含以下字段的文件测试：cato和pos。

我有一个带有字段的文件数据库： cato，start和stop。

1   6408    8000
1   11822   16373
1   18716   23389
1   27690   34330
1   36552   39191
1   39313   44565
2   44839   50247
2   60987   65017
2   65705   71523

我的目标是在文件 db 中选择文件 test 中的字段在文件db的开始和停止范围内的行。有一个限制是匹配必须在一个cato组内进行。这两个文件都按字段 1 和 2 排序。作为旁注，我的两个真实文件还有许多其他字段。pos

使用此示例数据集，我的预期结果将是：

1   6408    8000
2   44839   50247

我有一个我已经捣碎的脚本。

k=1;
data_test=$(cat "test")
data_db=$(cat "db")
while read -r line
do
  # helps to keep count of test rows
  printf "$k \n"

  # get cato
  cato=$(echo $line | awk '{print $1}')
  # get pos
  pos=$(echo $line | awk '{print $2}')
  # get number of chars in pos (to reduce number of lines awk needs to look through later)
  pos_chr=$(echo -n $pos | wc -c)
  # get lines in db that start with cato and pos chars match start or stop
  matched=$(echo "$data_db" | grep -Ew "^$cato" | grep -Ew "[0-9]{$pos_chr}")
  #echo "$db_cat"

  # if matched is not empty
  if [ ! -z "$matched" ]; then
    # use awk to print lines in db where pos > start and pos < stop
    echo "$matched" | awk -v apos='$pos' 'BEGIN{OFS="\t"}{if(apos >= $2 && apos <= $3) print $0}'
    #check
    #echo "$matched" | awk -v apos=$pos 'BEGIN{OFS="\t"}{print apos,$0}'
  fi

  ((k=k+1))
done <<< "$data_test"

似乎awk没有在最后一步进行比较。事情似乎一直工作到最后一步，然后我不确定出了什么问题。也许有人看到了错误。有一个更好的方法吗？

2 个回答

Voted

RomanPerekhrest · Answer 1 · 2018-01-22T06:36:46+08:00

Best Answer

RomanPerekhrest

2018-01-22T06:36:46+08:002018-01-22T06:36:46+08:00

使用单个 GNUawk程序（自Gawkv4.0 起）：

awk 'NR==FNR{ a[$1][$2]; next }
     $1 in a{ 
         for (i in a[$1]) 
             if (i >= $2 && i <= $3) { print $0; break }
     }' test db

输出：

1   6408    8000
2   44839   50247

4

bishop · Answer 2 · 2018-01-22T08:17:01+08:00

bishop

2018-01-22T08:17:01+08:002018-01-22T08:17:01+08:00

使用join简单的test：

$ cat is-between.sh
#!/bin/bash

while read cato start stop pos; do
    [ $start -le $pos -a $pos -le $stop ] && echo "$cato $start $stop"
done < <(join db test)

$ ./is-between.sh
1 6408 8000
2 44839 50247

您有关系数据：一个文件中的键值与另一个文件中的键值逐行匹配。join是将这些组合在一起的工具。运行，您会注意到它与如果数据在数据库中的join db test结果相同。SELECT * FROM db JOIN test on test.cato=db.cato

有了这个，您现在就有了将 start、stop 和 pos 放在一条线上的行。循环这些，使用 atest检查范围，然后很容易。

0

Bash：通过匹配数字范围过滤行

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

Bash：通过匹配数字范围过滤行

2 个回答

相关问题