有没有办法让 ls 只显示某些目录的隐藏文件？

Question

desu

Asked: 2018-04-11 04:57:41 +0800 CST2018-04-11 04:57:41 +0800 CST 2018-04-11 04:57:41 +0800 CST

如何连接在不同通道中生成的 RNA-seq 文件 [关闭]

772

我在不同的泳道中生成了非常大的 RNA-seq 文件。我提取了几个文件名，如下所示。

MC9_FNEN_638A_S19_L008_R1_001.fastq.gz
MC9_FNEN_638A_S19_L008_R2_001.fastq.gz
MC9_FNEN_638A_S9_L001_R1_001.fastq.gz
MC9_FNEN_638A_S9_L001_R2_001.fastq.gz
MC9_FNEN_638A_S9_L002_R1_001.fastq.gz
MC9_FREN_638A_S9_L002_R2_001.fastq.gz
MC9_FREN_638A_S9_L006_R1_001.fastq.gz
MC9_FREN_638A_S9_L006_R2_001.fastq.gz
MC9_FREN_638A_S9_L008_R1_001.fastq.gz
MC9_FREN_638A_S9_L008_R2_001.fastq.gz
MC9_ZH_637A_S74_L001_R1_001.fastq.gz
MC9_ZH_637A_S74_L001_R2_001.fastq.gz
MC9_ZH_637A_S74_L003_R1_001.fastq.gz
MC9_ZH_637A_S74_L003_R2_001.fastq.gz
MC9_ZH_637A_S74_L007_R1_001.fastq.gz
MC9_ZH_637A_S74_L007_R2_001.fastq.gz
MC9_ZH_637A_S74_L008_R1_001.fastq.gz
MC9_ZH_637A_S74_L008_R2_001.fastq.gz
MC9_ZH_637A_S84_L008_R1_001.fastq.gz
MC9_ZH_637A_S84_L008_R2_001.fastq.gz
DR14_DCRP_479C_S50_L001_R1_001.fastq.gz
DR14_DCRP_479C_S50_L001_R2_001.fastq.gz
DR14_DCRP_479C_S50_L002_R1_001.fastq.gz
DR14_DCRP_479C_S50_L002_R2_001.fastq.gz
DR14_DCRP_479C_S50_L006_R1_001.fastq.gz
DR14_DCRP_479C_S50_L006_R2_001.fastq.gz
DR14_DCRP_479C_S50_L007_R1_001.fastq.gz
DR14_DCRP_479C_S50_L007_R2_001.fastq.gz
DR14_DCRP_479C_S50_L008_R1_001.fastq.gz
DR14_DCRP_479C_S50_L008_R2_001.fastq.gz

我想连接在不同通道中生成的所有序列以进行正向和反向读取。例如，前 10 行是来自同一动物和特定组织的序列文件 ( MC9_FREN)。我想连接 XXXXX_R1_001.fastq.gz在不同通道中生成的所有正向读取并放入文件名MC9_FREN_R1.fastq.gz和所有反向读取XXXX_R2_001.fastq.gz到MC9_FREN_R2.fastq.gz

cat MC9_FREN_638A_S19_L008_R1_001.fastq.gz MC9_FREN_638A_S9_L001_R1_001.fastq.gz  MC9_FREN_638A_S9_L002_R1_001.fastq.gz  MC9_FREN_638A_S9_L007_R1_001.fastq.gz MC9_FREN_638A_S9_L008_R1_001.fastq.gz > MC9_FREN_R1.fastq.gz
cat MC9_FREN_638A_S19_L008_R2_001.fastq.gz MC9_FREN_638A_S9_L001_R2_001.fastq.gz MC9_FREN_638A_S9_L002_R2_001.fastq.gz  MC9_FREN_638A_S9_L007_R2_001.fastq.gz MC9_FREN_638A_S9_L008_R2_001.fastq.gz  > MC9_FREN_R2.fastq.gz
cat MC9_ZH_637A_S74_L001_R1_001.fastq.gz MC9_ZH_637A_S74_L003_R1_001.fastq.gz  MC9_ZH_637A_S74_L007_R1_001.fastq.gz MC9_ZH_637A_S74_L008_R1_001.fastq.gz  MC9_ZH_637A_S84_L008_R1_001.fastq.gz > MC9_ZH_R1.gz
cat MC9_ZH_637A_S74_L001_R2_001.fastq.gz  MC9_ZH_637A_S74_L003_R2_001.fastq.gz MC9_ZH_637A_S74_L007_R2_001.fastq.gz MC9_ZH_637A_S74_L008_R2_001.fastq.gz MC9_ZH_637A_S84_L008_R2_001.fastq.gz > MC9_ZH_R2.gz
cat DR14_DCRP_479C_S50_L001_R1_001.fastq.gz DR14_DCRP_479C_S50_L002_R1_001.fastq.gz DR14_DCRP_479C_S50_L006_R1_001.fastq.gz DR14_DCRP_479C_S50_L007_R1_001.fastq.gz DR14_DCRP_479C_S50_L008_R1_001.fastq.gz  > DR14_DCRP_R1.gz   
cat DR14_DCRP_479C_S50_L001_R2_001.fastq.gz DR14_DCRP_479C_S50_L002_R2_001.fastq.gz  DR14_DCRP_479C_S50_L006_R2_001.fastq.gz DR14_DCRP_479C_S50_L007_R2_001.fastq.gz DR14_DCRP_479C_S50_L008_R2_001.fastq.gz  > DR14_DCRP_R1.gz

2 个回答

Voted

Kusalananda · Answer 1 · 2018-04-11T05:23:26+08:00

以下循环为我们提供了当前目录中 FastQ 文件的唯一文件名前缀。_它依赖于这样一个事实，即在我们想要的文件名前缀和文件名中的 theR1或R2后面的文件名之间总是有四个下划线 ( )。

for name in *.fastq.gz; do
    printf '%s\n' "${name%_*_*_*_R[12]*}"
done | uniq

以下是等效的，但不使用循环（而不是删除文件名的最后一位，这会保留文件名的第一位）：

printf '%s\n' *.fastq.gz | sed 's/^\([^_]*_[^_]*\).*/\1/' | uniq

使用给定的文件列表，以上任何一个都返回

DR14_DCRP
MC9_FNEN
MC9_FREN
MC9_ZH

然后我们读取这些前缀并创建我们的连接文件：

for name in *.fastq.gz; do
    printf '%s\n' "${name%_*_*_*_R[12]*}"
done | uniq |
while read prefix; do
    cat "$prefix"*R1*.fastq.gz >"${prefix}_R1.fastq.gz"
    cat "$prefix"*R2*.fastq.gz >"${prefix}_R2.fastq.gz"
done

或者，使用sed上面的代码，

printf '%s\n' *.fastq.gz | sed 's/^\([^_]*_[^_]*\).*/\1/' | uniq |
while read prefix; do
    cat "$prefix"*R1*.fastq.gz >"${prefix}_R1.fastq.gz"
    cat "$prefix"*R2*.fastq.gz >"${prefix}_R2.fastq.gz"
done

上面的代码没有使用bash- 特定（或 GNU 特定）功能，并且应该在所有 POSIX shell 中工作。

更新：我与生物信息学家合作，我的一位同事评论说：

不应该只是简单地合并 fastq 文件......在理想的世界中，应该分别映射每个车道，添加适当的 RG，然后合并 BAM 文件。因为存在车道特定的影响等。它可能或多或少重要，当然取决于下游应用程序。

有关这方面的问题，请参阅Bioinformatics Stack Exchange 站点。

RomanPerekhrest · Answer 2 · 2018-04-11T05:18:22+08:00

RomanPerekhrest

2018-04-11T05:18:22+08:002018-04-11T05:18:22+08:00

Bash解决方案：

for f in *.fastq.gz; do 
    [[ "$f" =~ ^([^_]+_[^_]+)_.*(_[^_]+)_[0-9]+\.fastq\.gz$ ]]
    cat "$f" >> "${BASH_REMATCH[1]}${BASH_REMATCH[2]}.fastq.gz"
done

^([^_]+_[^_]+)_.*(_[^_]+)_[0-9]+\.fastq\.gz$- 将前 2 个前缀捕获到第一个捕获的组（例如MC9_PREN）和R-named 后缀到第二个捕获的组（例如_R1）的关键正则表达式模式

1

如何连接在不同通道中生成的 RNA-seq 文件 [关闭]

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何连接在不同通道中生成的 RNA-seq 文件 [关闭]

2 个回答

相关问题