重新排列字母并比较两个单词

Question

Priya

Asked: 2018-11-30 15:19:23 +0800 CST2018-11-30 15:19:23 +0800 CST 2018-11-30 15:19:23 +0800 CST

将相关矩阵的每一行拆分为单独的文件

772

我有一个包含 22000 个基因的相关矩阵，为了进行某些分析，我需要将矩阵的每一行拆分到一个新文件中。这意味着我需要创建 22000 个单独的文件。

我不想使用拆分命令（因为我想将输出文件作为 gene_name.txt）例如输入文件

                IGHD2-15    IGHD3-22    IGHD3-16    IGHD3-10    
       IGHD2-15 1   0.696084    0.799736    0.818788    
       IGHD3-22 0.696084    1   0.691419    0.67505 
       IGHD3-16 0.799736    0.691419    1   0.810656    
       IGHD3-10 0.818788    0.67505 0.810656    1

3 个回答

Voted

terdon · Answer 1 · 2018-11-30T15:55:25+08:00

Best Answer

terdon

2018-11-30T15:55:25+08:002018-11-30T15:55:25+08:00

假设您的基因名称在第一列中，您只需要：

awk '{print >> $1".txt"; close(n".txt")}' matrix.txt

这会将每一行打印到一个文件中，该文件的名称是该行的第一个字段加上一个（完全可选的）.txt扩展名。如果您不想在文件中使用基因名称，请使用：

awk '{n=$1; $1="";print >> n".txt"; close(n".txt")}' matrix.txt

而且，如果您的第一行是标题，请使用：

awk 'NR>1{print >> $1".txt"; close($1".txt")}' matrix.txt

最后，在不太可能的情况下，您的文件可能包含第一个字段不是简单基因名称但可以包含 NULL 或有效路径的行，因此您需要清理输入，您可以使用：

awk 'NR > 1 && ($1 ~ /^[A-Z0-9-]+$/) { print >> $1; close($1) }'

3

Wayne · Answer 2 · 2018-11-30T15:53:21+08:00

Wayne

2018-11-30T15:53:21+08:002018-11-30T15:53:21+08:00

由于您没有给出您希望每个文件包含什么的示例，或者我猜测文件应该命名为什么。

这将从当前目录中获取文件“DATA”，创建一个以每一行的第一列命名的新文件（在同一目录中），然后用其余列的数据填充该文件。

意义

IGHD2-15 1   0.696084    0.799736    0.818788

创建一个名为的文件IGHD2-15并将其放入其中

1   0.696084    0.799736    0.818788

脚本：

#!/bin/bash

while read -r line; do
        newFileName="$(echo "$line" | awk '{print $1}')"
        newFileData="$(echo "$line" | awk '{$1 = ""; print $0}')"
        echo $newFileData > $newFileName
done < DATA

0

Praveen Kumar BS · Answer 3 · 2018-12-01T01:59:37+08:00

Praveen Kumar BS

2018-12-01T01:59:37+08:002018-12-01T01:59:37+08:00

我尝试了以下方法，检查它也能正常工作

这里每一行都被复制到新文件中。文件名将是每行的第一列

cat data_file.txt
IGHD2-15 1   0.696084    0.799736    0.818788
IGHD3-22 0.696084    1   0.691419    0.67505
IGHD3-16 0.799736    0.691419    1   0.810656
IGHD3-10 0.818788    0.67505 0.810656    1


root@praveen_linux_example dev]# j=`cat data_file.txt| wc -l`
[root@praveen_linux_example dev]# for ((z=1;z<=$j;z++));  do filename=`awk -v line="$z" 'NR==line{print $1}' data_file.txt`; sed -n ''$z'p' data_file.txt >$filename.txt;done
[root@praveen_linux_example dev]#

-1

将相关矩阵的每一行拆分为单独的文件

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将相关矩阵的每一行拆分为单独的文件

3 个回答

相关问题