我在 Linux 机器上有一个制表符分隔的文件,其中包含两列。第一列包含名称,第二列包含 GO ID(这些 ID 始终GO:
为后跟七位数字的格式),以逗号分隔。我需要做的是,在每一行中只保留一个名称和一个唯一的 GO ID,丢弃重复项和多个条目。
由此
Pr_g33687.t1 GO:0003735,GO:0003735,GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625
Pr_g33687.t1 GO:0003735,GO:0009129,GO:0006412
Pr_g15244.t1 GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605
Pr_g15244.t1 GO:0003700,GO:0006355,GO:0043565
Pr_g15244.t1 GO:0003700,GO:0006355,GO:0043565
进入这个
Pr_g33687.t1 GO:0003735,GO:0005840,GO:0006412,GO:0022618,GO:0022625,GO:0009129
Pr_g15244.t1 GO:0000978,GO:0003700,GO:0005634,GO:0006357,GO:0034605,GO:0006355,GO:0043565
我将非常感激您的帮助。谢谢。
遥感