打印文件行及其长度的脚本[关闭]

Question

Kumar

Asked: 2019-11-20 03:05:50 +0800 CST2019-11-20 03:05:50 +0800 CST 2019-11-20 03:05:50 +0800 CST

如何从excel文件中提取包含行的关键词？

772

我需要按照给定关键字文件中指定的顺序从 excel 文件 (.xls) 中提取包含行的关键字。例如，我有一个 excel 文件，即基因组.xls，如下所示，

NC_0208.1   18918   94692   amyl4_A0A0H         1   54  194
NC_0208.1   18839   86123   prot4_A0A0          1   79  137
NC_0208.4   29761   74985   lip10_H8FLU5        2   393 48
NC_0208.2   29687   67745   lysin6_A0A0Q5       5   38  49

我有一个关键字文件，即 id.txt，如下所示，

prot
lip
cellulase
lysin
amyl

预期的输出是

NC_0208.1   18839   86123   prot4_A0A0          1   79  137
NC_0208.4   29761   74985   lip10_H8FLU5        2   393 48

NC_0208.2   29687   67745   lysin6_A0A0Q5       5   38  49 
NC_0208.1   18918   94692   amyl4_A0A0H         1   54  194

除此之外，如果基因组文件中没有关键字，则应在输出文件中将整行保留为空。为了做到这一点，我使用了 grep 命令如下，

grep 'prot\|lip\|cellulase\|lysin\|amyl' genome.xls > result.xls

上面提到的命令是提取包含整行的关键字，但是顺序已经改变。此外，它不会为丢失的关键词留下空行。因此，请帮助我做同样的事情。提前致谢。

2 个回答

Voted

Siva · Answer 1 · 2019-11-20T05:28:52+08:00

Siva

2019-11-20T05:28:52+08:002019-11-20T05:28:52+08:00

尝试这个，

while read a ; do grep "$a" genome.xls || printf "\n" ; done < id.txt 

NC_0208.1   18839   86123   prot4_A0A0          1   79  137
NC_0208.4   29761   74985   lip10_H8FLU5        2   393 48

NC_0208.2   29687   67745   lysin6_A0A0Q5       5   38  49 
NC_0208.1   18918   94692   amyl4_A0A0H         1   54  194

1

AdminBee · Answer 2 · 2019-11-20T04:45:43+08:00

我认为您的要求需要对关键字进行循环。我会推荐以下 shell 脚本（尽管如果你愿意，你可以吸收到一个单行中）：

#!/bin/bash

while read keyword
do
    # Apply grep, but store result in variable
    MATCH="$(grep $keyword genome.xls)"

    # If grep result is an empty string, output an empty line,
    # otherwise the grep result as-is.
    if [[ -z "$MATCH" ]]
    then
        echo
    else
        echo "$MATCH"
    fi
done < id.txt

通过循环你的内容id.txt可以保证输出的顺序。

调用脚本

user@host$ ./extract_lines.sh > result.xml

为了使脚本更加灵活，我们可以将要处理的文件设置为命令行参数，甚至是命令行参数列表：

#!/bin/bash

if [[ "$#" == "0" ]]
then
    echo "Usage: $0 <filename(s)>"
    exit 1
fi


for file in "$@"
do
    outfile=${file/.xls/_result.xls}
    :>$outfile

    echo "Process $file, write results to $outfile"


    while read keyword
    do
    # Apply grep, but store result in variable
    MATCH="$(grep $keyword $file)"

    # If grep result is an empty string, output an empty line,
    # otherwise the grep result as-is.
    if [[ -z "$MATCH" ]]
    then
            echo "" >> $outfile
    else
            echo "$MATCH" >> $outfile
    fi
    done < id.txt
done

这将遍历所有指定为命令行参数的文件（以及它*.xls）并将结果写入<input_filename>_result.xls.

但是请注意，这种语法有点初级，因为您不应该*在参数列表中将文件名规范与“globs”（即通配符，如）和常规文件名混合使用。

如何从excel文件中提取包含行的关键词？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何从excel文件中提取包含行的关键词？

2 个回答

相关问题