ChIPSeq数据挖掘系列3Mot
findMotifsGenome.pl:在基因组区域中寻找富集Motifs
HOMER最初设计的目的用于ChIP-Seqpeaks中寻找富集motifs。
命令
findMotifsGenome.plpeak/BEDfilegenomeoutputdictory-size#[options]
1.设定寻找motif的区域大小(-size#or-sizegiven,default:)如果想在提供的peak中寻找motifs,使用参数-sizegiven。然而,对于转录因子peaks,大多数motifs被发现位于peak中心+/-50-75bp的范围内,所以最好根据peak的大小将寻找motif的区域设为固定值。
2.输入文件格式格式:HOMERpeak/Positions文件和BED格式文件
HOMERpeak文件有至少5列:
Column1:PeakID
Column2:染色体
Column3:起始位置
Column4:终止位置
Column5:链的方向(+/-or0/1,whe0="+",1="-")
BED格式文件至少有6列:
Column1:染色体
Column2:起始位置
Column3:终止位置
Column4:PeakID
Column5:notused
Column6:链的方向(+/-or0/1,whe0="+",1="-")
Peak/Position和BED两种格式之间可以相互转换,使用Homer自带脚本:pos2bed.pl或bed2pos.pl
3.自定义背景因为HOMER使用一个不同的motif寻找算法,因此使用不同的背景会产生不同的结果。例如,如果将某种实验的peak与另一种实验peak相比较,可以再创建一个peak/BED文件(参数:"-bgpeak/BEDfile"),将会对背景进行移除GC-bias操作和自动标准化。
4.findMotifsGenome.pl工作流程4.1确认peak/BED文件4.2根据peak/BED文件提取序列,过滤掉序列中N70%的序列。4.3计算peak对应序列GC/CpG含量4.4根据设定的大小准备背景序列用于寻找motif区域大小使用("-size#")设置。HOMER一般选取基因TSS+/-50kb区域分成设定大小;然后计算这些背景序列GC/CpG%储存起来用于后续分析。
4.5随机选择背景区域用于寻找motif因为HOMER使用一个不同的motif寻找算法,它需要使用背景序列区域作为对照。默认情况下,HOMER可能选择或peaks总数两倍的随机背景序列,可以使用参数-N#自定义。HOMER会选择和目标数据一致GC含量分布的序列作为背景序列。例如,目标序列是GC高含量的,那么背景序列也会如此。设定-bgpeak/BEDfile自定义背景,
4.6序列差异自动标准化自动标准化是HOMER用以移除由短寡聚序列引进的序列偏好性,主要用于消除某些特定基因组序列、实验误差和测序偏好引起的不平衡。HOMER假定目标数据和背景序列在1-mers,2-mers,3-mers,etc上是没有差异的。短寡聚序列长度是通过参数-nlen#设定。一个例子,目标数据和背景序列中As是一样的;先计算目标序列中各种短寡聚序列的偏好性,然后调整每条背景序列的权重来标准化这些偏好性,当然权重矫正是按照较小的步长一步一步进行矫正。如果目标序列富含A,那么背景序列中富含A的序列权重高于A含量一般的序列。
4.7检查已知motifs富集情况HOMER会检索已知motifs在目标序列和背景基因富集情况。结果输出到文件:knownResults.html
4.8重头预测motif默认情况,HOMER寻找长度为8,10,和12bp的motifs,可以通过-len#,#,#自定义。
5findMotifsGenome.pl结果文件
homerMotifs.motifs#:对应各个长度的motif结果
homerMotifs.all.motifs:各个长度的motif结果合并到了一起
motifFindingParameters.txt:文件保存了程序运行参数
knownResults.txt:已知motif的富集结果
seq.autonorm.tsv:短核苷酸自动矫正情况
homerResults.html:重新预测的motif的富集结果
peakMotifs.output
homerResults/dictory:对应homerResults.html中结果
knownResults.html:已知motif的富集结果
knownResults/dictory:对应knownResults.html中结果
6Interptingmotiffindingsults7motif寻找的一些重要参数
Maskedvs.UnmaskedGenome("-mask"orhg18vs.hg18r)一般使用masked版本
RegionSize("-size#","-size#,#","-sizegiven",default:)-size-,:peak上游bp,下游bp区域。根据不同的实验数据选择。
Motiflength("-len#"or"-len#,#,...",default8,10,12)如果要寻找长Motif,建议先寻找短的Motif(15bp);寻找长的Motif耗时和占据大量计算机资源,建议减小寻找Motif的区域,例如"-len20-size50"。
Mismatchesallowedinglobaloptimizationphase("-mis#",default:2)允许错配可以提升灵敏度,如果寻找12-15bpMotif,可以设置3-4bp的错配。
Numberofmotifstofind("-S#",default25)并不是越多越好。
NormalizeCpG%contentinsteadofGC%content("-cpg")考虑到HOMER可能卡在CGCGCGCG这样的motifs。
Regionlevelautonormalization("-nlen#",default3,"-nlen0"todisable)消除短寡聚核苷酸引入的不平衡。
Motiflevelautonormalization(-olen#,default0i.e.disabled)对Regionlevelautonormalization参数的补充。
Userdefinedbackgroundgions("-bgpeakfileofbackgroundgions")自定义背景序列
Hypergeometricenrichmentscoring("-h")findMotifsGenome.pl默认使用二项式分布对motifs打分,这是因为背景序列远远多于目标序列时,运算比较快。当背景序列比较少的时候,建议使用超几何检验的方法。
Findenrichmentofindividualoligos("-oligo")输出寡聚核苷酸富集情况到文件oligo.length.txt
ForcefindMotifsGenome.plto-pparsegenomeforthegivengionsize("-pparse").
Onlysearchformotifson+strand("-novopp")
SearchforRNAmotifs("-rna")
Maskmotifs("-maskmotiffile")
Optimizemotifs("-optmotiffile")
DumpFASTAfiles("-dumpFasta")根据peak文件输出target.fa和background.fa
8.findMotifsGenome.pl使用实例:8.1数据包准备
$perlconfiguHomer.pl-list$perlconfiguHomer.pl-installmm10
8.2构建HOMERPeak/Positions文件#input.test.bed
#peakName#chromsome#startingPosition#endPosition#strand
1chr+2chr+3chr+4chr+5chr236538+6chr+7chr+8chr+9chr+10chr+8.3运行程序
$perlfindMotifsGenome.plinput.test.bedmm10/homerResult/-size-len8,10,12
常用参数:-bg:自定义背景序列-size:用于motif寻找得片段大小,默认bp;-sizegiven设置片段大小为目标序列长度;越大需要得计算资源越多-len:motif大小设置,默认8,10,12;越大需要得计算资源越多-S:结果输出多少motifs,默认25-mis:motif错配碱基数,默认2bp-novopp:不进行反义链搜索motif-nomotif:关闭重投预测motif-rna:输出RNAmotif,使用RNAmotif数据库-h:使用超几何检验代替二项式分布-N:用于motif寻找得背景序列数目,default=max(50k,2xinput);耗内存参数
参考:FindingEnrichedMotifsinGenomicRegions
往期精彩:
ChIP-Seq数据挖掘系列-1:Motif分析(1)-HOMER安装
ChIP-Seq数据挖掘系列-2:Motif分析(2)-HOMERMotif分析基本步骤
我们创建了生物信息学习交流群,如需进群,请长按下方
转载请注明:http://www.sonphie.com/jbjc/12671.html