我有 2 个基因数据集。我根据 file2 中的列过滤 file1。但是,我还需要考虑 file2 中的第二列,我不知道该怎么做。
文件 1 行提取的条件是仅选择染色体位置比文件 2 中位于同一染色体上的行中的任何给定染色体位置大于 5000 或小于 5000 的行。我在下面的代码中运行了其中的一部分,但这并不仅仅考虑相同染色体编号内的过滤行。
例如,我的数据如下所示:
文件 1:
Variant Chromsome Chromosome Position
Variant1 2 14000
Variant2 1 9000
Variant3 8 37000
Variant4 1 21000
文件 2:
Variant Chromosome Chromosome Position
Variant1 1 10000
Variant2 1 20000
Variant3 8 30000
预期输出(与同一染色体上文件 2 的任何行相比,位置距离大于 +/-5000 的变体):
Variant Chromosome Position Chromosome
Variant1 14000 2
Variant3 37000 8
#Variant1 at 14000, whilst within 5000 + of Variant1 at 10000 in file2 is on a different chromosome and therefore not compared and is kept.
#Variant3 is on the same chromosome as Variant4 in file1 but larger than 5000+ distance and is kept.
我使用上一个问题(如何根据另一个文件的条件从文件中选择行?)的答案进行编码,询问如何在不考虑染色体的情况下进行过滤:
awk '
NR == FNR {RGMIN[++IX] = $2 - 5000
RGMAX[IX] = $2 + 5000
next
}
FNR == 1 {print
next
}
{PR = 1
for (i=2; i<=IX; i++) PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])
}
PR
' file2 file1 > newfile.txt
我一直在尝试更好地理解语法,以便在附加行中添加一条 if 语句,用于“如果 file1 的行具有与 file2 匹配的染色体编号,则仅在该染色体编号内执行 5000 +/- 过滤”,但我如果有另一种方法,我不知道如何将它融入我所拥有的东西中。
编辑:
现在尝试添加 CHROM:
awk '
NR == FNR {RGMIN[++IX] = $2 - 500000
RGMAX[IX] = $2 + 500000
CHROM[IX] = $2
next
}
FNR == 1 {print
next
}
{PR = 1
for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($2 < RGMIN[i] || $2 > RGMAX[i])
}
PR
' file2 file1 > newfile.txt
正如评论中提出的:
根据 file2 相对于 file1 的重量,您还可以映射 file2,然后测试 file1 中的位置是否尚未映射.....
这个数据集比@RudiC 慢,但如果 file2 中有大量的多个重叠范围,它可能会变得更有价值。