-
Notifications
You must be signed in to change notification settings - Fork 17
3.参数及数据测试
可以通过cLoops -h查看所有选项设置,下面我们讲解一下一些关键参数。
例如:
cLoops -f my_data.bedpe.gz -o my_data_prefix -eps 2000 -minPts 25
输入需要处理的bedpe格式的PETs文件(gzip压缩的也可以)-f A.bedpe.gz ; 或者是技术重复或生物重复的数据 -f A.bedpe.gz,B.bedpe.gz,C.bedpe.gz
输出文件的前缀名 -o my_data_prefix
cDBSCAN中关键的参数,判定相邻点之间的距离参数,可以是单个值也可以是以英文逗号为分隔符的几个值; 对于具有sharp峰型的ChIA-PET数据,例如CTCF, 通常使用模型自动估计 -eps 0; 但是对于富集区域宽的ChIA-PET数据,例如H3K27ac/H3K4me1 经验参数设置-eps 2000,5000;对于HiChIP或者HiC等较为稀疏的数据,通常我们设置的eps更多一点 -eps 2000,4000,6000,8000,10000;请注意,eps值越多算法需要的时间越长,原理上相当于对每个eps跑一下得到结果最后合并所有的结果。当然也可以选择比较小的染色体,跑一系列的eps,然后可视化看一下结果选择合适的那个。
cDBSCAN中重要参数,聚类中类的最小数量,通俗解释即要求一个loop中至少有几个PETs,一般情况是测序深度深的就设大一点,浅的就设小一点;对于ChIA-PET数据,通常我们设置 -minPts 5; 对于HiChIP或Hi-C数据,请设大一点,例如10开始然后倍增。
处理HiChIP或者高精度的HiC数据时,选择使用。因为在处理ChIA-PET数据和HiChIP数据的统计严格度是不一样的,默认值是No;-hic 1开启。对于ChIA-PET数据,cLoops给出的各种p-values和距离相关性很弱,而在HiChIP和HiC数据里面,超几何检验的p-value会和距离相关性较强,因此在-hic 1选项中,我们依靠poisson & binomal的p-values来筛选结果。
进行数据处理的CPU数量,默认是1,表示只用一个CPU处理,-p 1; 也可以设置成-1,启动所用CPU进行数据处理。由于每个CPU处理一条染色体上的数据,所以并行情况下有可能导致爆内存,尤其是Hi-C或者HiChIP数据。>200M PETs的最大一条染色体占用内存大概30G左右。接下来的版本中我们会优化内存使用。
数据处理中选定的染色体,默认是所有染色体上的数据。通常我们可以去除一些非常规的染色体数据,例如chr22_KI270876v1_alt。例如设置成-c chr21, chrX, chrY 即只对这三条染色体的数据call loops。
将得到的loops转化成WashU epigenome browser可视化的文件,默认值是No; -w 1 开启转换。
将得到的loops转化成JuiceBox可视化的文件,默认值是No; -j 1 开启转换。
保留数据处理中产生的中间文件,这些文件可用于一些我们的小scripts:jd2washU,jd2juice,jd2fingerprint,jd2saturation和deloops,默认值No; -s 1 开启存储。
首先去除数据中中噪音数据点的距离,默认值是0,通过数据估计得到相应cutoff值。
通常我们选择人类chr21上的数据,或者小鼠chr19上的数据测试一下数据的质量或者根据测序深度调整一下minPts的设置,由于测试数据是ChIA—PET数据,cLoops可以直接估计eps:
cLoops -f human_chr21.bedpe.gz -o human_chr21 -minPts 5 -w 1 -j 1 -s 1
cLoops Usage