我有一组非常大(80GB)的文件(基因组变体剂量),目前是“.txt.gz”,并具有以下布局(列/变量):
Chr RSID POS REF ALT Ind1 Ind2...Ind(n) 其中 1:n 是个体
我想编辑这个文件,这样:
Chr 列/变量设置为所有行的特定染色体编号(例如,3)
在文件的特定位置插入了一个新列(我希望在 ALT 和 Ind1 之间插入新列/变量......这样新列将成为编辑文件中的第 6 列)。我还希望将此列的值设置为常数(例如,0)。
最后,我想以与读入相同的格式输出编辑后的文件(因此,输出应为“.txt.gz”
感谢您的帮助,并很乐意提供更多详细信息。