CN_229133提出的问题 -unix

CN_229133

Asked: 2021-09-21 12:44:23 +0800 CST

循环遍历具有唯一标识符的文件并计算累积和

2

我有一个大文本文件，如下所示，其中 column1-colum3 定义一个区域，第四列是唯一标识符。第 6 列分配了区域的值。

chr6    26204834    26204839    region1 +   119.862 chr6    26204834    26204835    +   0.982
chr6    26204834    26204839    region1 +   119.862 chr6    26204835    26204836    +   8.487
chr6    26204834    26204839    region1 +   119.862 chr6    26204836    26204837    +   2.664
chr6    26204834    26204839    region1 +   119.862 chr6    26204837    26204838    +   105.065
chr6    26204834    26204839    region1 +   119.862 chr6    26204838    26204839    +   2.664
chr18   72218300    72218307    region2 +   113.879 chr18   72218300    72218301    +   0.982
chr18   72218300    72218307    region2 +   113.879 chr18   72218303    72218304    +   1.357
chr18   72218300    72218307    region2 +   113.879 chr18   72218304    72218305    +   4.887
chr18   72218300    72218307    region2 +   113.879 chr18   72218305    72218306    +   1.706
chr18   72218300    72218307    region2 +   113.879 chr18   72218306    72218307    +   104.947

column7-column9 是 sub-region，其中 column11 是 sub-region 的赋值。

输出：我想为每个标识符中的每个子区域分配累积总和。

cat input | grep region1 | awk '{ sum+=$11 } { print $0"\t"sum/$6 }'

这为一个标识符提供了正确的预期输出

chr6    26204834    26204839    region1 +   119.862 chr6    26204834    26204835    +   0.982   0.00819276
chr6    26204834    26204839    region1 +   119.862 chr6    26204835    26204836    +   8.487   0.0789992
chr6    26204834    26204839    region1 +   119.862 chr6    26204836    26204837    +   2.664   0.101225
chr6    26204834    26204839    region1 +   119.862 chr6    26204837    26204838    +   105.065 0.977774
chr6    26204834    26204839    region1 +   119.862 chr6    26204838    26204839    +   2.664   1

同样对于另一个标识符

cat input | grep region2 | awk '{ sum+=$11 } { print $0"\t"sum/$6 }' 


chr18   72218300    72218307    region2 +   113.879 chr18   72218300    72218301    +   0.982   0.00862319
chr18   72218300    72218307    region2 +   113.879 chr18   72218303    72218304    +   1.357   0.0205393
chr18   72218300    72218307    region2 +   113.879 chr18   72218304    72218305    +   4.887   0.0634533
chr18   72218300    72218307    region2 +   113.879 chr18   72218305    72218306    +   1.706   0.0784341
chr18   72218300    72218307    region2 +   113.879 chr18   72218306    72218307    +   104.947 1

我如何通过在数组中定义所有标识符并通过文本文件运行来自动执行此操作。

CN_229133

Asked: 2019-06-28 04:09:28 +0800 CST

从粘贴命令格式化输出文件

2

我有两个或更多文件

文件A

A: 18.49 RPKM    
C: 14.49 RPKM    
B: 18.89 RPKM

文件B

A: 21.29 RPKM    
C: 38.71 RPKM    
B: 36.13 RPKM

我想粘贴这两个文件并从每个文件中只打印一次第一列和第二列

所需的输出（制表符分隔）

A:  18.49   21.29   
C:  14.49   38.71   
B:  18.89   36.13

我使用了粘贴命令

paste FileA FileB | awk '{ { print $1} {ORS="\t"} for (i=2; i<=NF; i+=3) { print $i } {print "\n"} }'

我得到这个输出

A：

18.49 21.29

中锋：14.49 38.71

乙：18.89 36.13

您能否建议如何解决此问题。谢谢你！！

CN_229133

Asked: 2018-10-15 23:37:18 +0800 CST

从序列中心找到最长的模式

-2

如何计算序列中任意位置C/T的最长连续模式和距离中心的C/T最长连续模式

CCCCTGTTGCCAAACAATGC公司

TTTTCCCGCCTTTGGCCTAC

TACACGGAACCTCTTTTTTA

所需的输出是计算序列中任何位置的最长连续 C/T 模式和从中心开始的最长连续 C/T 模式

CCCCTGTTGCCAAACAATGC 5 2

TTTTCCCGCCTTTGGCCTAC 7 5

TACACGGAACCTCTTTTTTA 10 10

第一行在序列中有 5 个连续的 C/T 模式，而从中心算起最长的 C/T 模式是 2 个。

PS。类似问题的解决方案在这里 Count the longest stretch of consecutive patterns

CN_229133

Asked: 2018-06-30 01:32:12 +0800 CST

计算最长的连续模式

4

我有一个序列文件：

$猫文件
CACCGTTGCCAAACAATG
TTAGAAGCCTGTCAGCCT
CATTGCTCTCAGACCCAC
GATGTACGTCACATTAGA
ACACGGAATCTGCTTTTT
CAGAATTCCCAAAGATGG

我想计算最长的 C+T 段。我只能计算总 C+T，但我想要最长的延伸。

$猫文件 | awk '{ 打印 $0, gsub(/[cCtT]/,"",$1)}'
CACCGTTGCCAAACAATG 9
TTAGAAGCCTGTCAGCCT 10
CATTGCTCTCAGACCCAC 12
GATGTACGTCACATTAGA 8
ACACGGAATCTGCTTTTT 11
CAGAATTCCCAAAGATGG 7

预期结果将显示最长的 C+T 拉伸。

CACCGTTGCCAAACAATG 9 2
TTAGAAGCCTGTCAGCCT 10 3
CATTGCTCTCAGACCCAC 12 5
GATGTACGTCACATTAGA 8 2
ACACGGAATCTGCTTTTT 11 6
CAGAATTCCCAAAGATGG 7 5

循环遍历具有唯一标识符的文件并计算累积和

从粘贴命令格式化输出文件

从序列中心找到最长的模式

计算最长的连续模式

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

CN_229133's questions