ChIPSeq数据挖掘系列3Mot

findMotifsGenome.pl:在基因组区域中寻找富集Motifs

HOMER最初设计的目的用于ChIP-Seqpeaks中寻找富集motifs。

命令

findMotifsGenome.plpeak/BEDfilegenomeoutputdictory-size#[options]

1.设定寻找motif的区域大小(-size#or-sizegiven,default:)如果想在提供的peak中寻找motifs，使用参数-sizegiven。然而，对于转录因子peaks，大多数motifs被发现位于peak中心+/-50-75bp的范围内，所以最好根据peak的大小将寻找motif的区域设为固定值。

2.输入文件格式格式：HOMERpeak/Positions文件和BED格式文件

HOMERpeak文件有至少5列：

Column1:PeakID

Column2:染色体

Column3:起始位置

Column4:终止位置

Column5:链的方向(+/-or0/1,whe0="+",1="-")

BED格式文件至少有6列：

Column1:染色体

Column2:起始位置

Column3:终止位置

Column4:PeakID

Column5:notused

Column6:链的方向(+/-or0/1,whe0="+",1="-")

Peak/Position和BED两种格式之间可以相互转换，使用Homer自带脚本：pos2bed.pl或bed2pos.pl

3.自定义背景因为HOMER使用一个不同的motif寻找算法，因此使用不同的背景会产生不同的结果。例如，如果将某种实验的peak与另一种实验peak相比较，可以再创建一个peak/BED文件(参数："-bgpeak/BEDfile")，将会对背景进行移除GC-bias操作和自动标准化。

4.findMotifsGenome.pl工作流程4.1确认peak/BED文件4.2根据peak/BED文件提取序列，过滤掉序列中N70%的序列。4.3计算peak对应序列GC/CpG含量4.4根据设定的大小准备背景序列用于寻找motif区域大小使用("-size#")设置。HOMER一般选取基因TSS+/-50kb区域分成设定大小；然后计算这些背景序列GC/CpG%储存起来用于后续分析。

4.5随机选择背景区域用于寻找motif因为HOMER使用一个不同的motif寻找算法，它需要使用背景序列区域作为对照。默认情况下，HOMER可能选择或peaks总数两倍的随机背景序列，可以使用参数-N#自定义。HOMER会选择和目标数据一致GC含量分布的序列作为背景序列。例如，目标序列是GC高含量的，那么背景序列也会如此。设定-bgpeak/BEDfile自定义背景，

4.6序列差异自动标准化自动标准化是HOMER用以移除由短寡聚序列引进的序列偏好性，主要用于消除某些特定基因组序列、实验误差和测序偏好引起的不平衡。HOMER假定目标数据和背景序列在1-mers,2-mers,3-mers,etc上是没有差异的。短寡聚序列长度是通过参数-nlen#设定。一个例子，目标数据和背景序列中As是一样的；先计算目标序列中各种短寡聚序列的偏好性，然后调整每条背景序列的权重来标准化这些偏好性，当然权重矫正是按照较小的步长一步一步进行矫正。如果目标序列富含A，那么背景序列中富含A的序列权重高于A含量一般的序列。

4.7检查已知motifs富集情况HOMER会检索已知motifs在目标序列和背景基因富集情况。结果输出到文件：knownResults.html

4.8重头预测motif默认情况，HOMER寻找长度为8,10,和12bp的motifs，可以通过-len#,#,#自定义。

5findMotifsGenome.pl结果文件

homerMotifs.motifs#:对应各个长度的motif结果

homerMotifs.all.motifs:各个长度的motif结果合并到了一起

motifFindingParameters.txt:文件保存了程序运行参数

knownResults.txt:已知motif的富集结果

seq.autonorm.tsv:短核苷酸自动矫正情况

homerResults.html:重新预测的motif的富集结果

peakMotifs.output

homerResults/dictory:对应homerResults.html中结果

knownResults.html:已知motif的富集结果

knownResults/dictory:对应knownResults.html中结果

6Interptingmotiffindingsults7motif寻找的一些重要参数

Maskedvs.UnmaskedGenome("-mask"orhg18vs.hg18r)一般使用masked版本

RegionSize("-size#","-size#,#","-sizegiven",default:)-size-,：peak上游bp，下游bp区域。根据不同的实验数据选择。

Motiflength("-len#"or"-len#,#,...",default8,10,12)如果要寻找长Motif，建议先寻找短的Motif(15bp)；寻找长的Motif耗时和占据大量计算机资源，建议减小寻找Motif的区域，例如"-len20-size50"。

Mismatchesallowedinglobaloptimizationphase("-mis#",default:2)允许错配可以提升灵敏度，如果寻找12-15bpMotif，可以设置3-4bp的错配。

Numberofmotifstofind("-S#",default25)并不是越多越好。

NormalizeCpG%contentinsteadofGC%content("-cpg")考虑到HOMER可能卡在CGCGCGCG这样的motifs。

Regionlevelautonormalization("-nlen#",default3,"-nlen0"todisable)消除短寡聚核苷酸引入的不平衡。

Motiflevelautonormalization(-olen#,default0i.e.disabled)对Regionlevelautonormalization参数的补充。

Userdefinedbackgroundgions("-bgpeakfileofbackgroundgions")自定义背景序列

Hypergeometricenrichmentscoring("-h")findMotifsGenome.pl默认使用二项式分布对motifs打分，这是因为背景序列远远多于目标序列时，运算比较快。当背景序列比较少的时候，建议使用超几何检验的方法。

Findenrichmentofindividualoligos("-oligo")输出寡聚核苷酸富集情况到文件oligo.length.txt

ForcefindMotifsGenome.plto-pparsegenomeforthegivengionsize("-pparse").

Onlysearchformotifson+strand("-novopp")

SearchforRNAmotifs("-rna")

Maskmotifs("-maskmotiffile")

Optimizemotifs("-optmotiffile")

DumpFASTAfiles("-dumpFasta")根据peak文件输出target.fa和background.fa

8.findMotifsGenome.pl使用实例：8.1数据包准备

$perlconfiguHomer.pl-list$perlconfiguHomer.pl-installmm10

8.2构建HOMERPeak/Positions文件#input.test.bed

#peakName#chromsome#startingPosition#endPosition#strand

1chr+2chr+3chr+4chr+5chr236538+6chr+7chr+8chr+9chr+10chr+

8.3运行程序

$perlfindMotifsGenome.plinput.test.bedmm10/homerResult/-size-len8,10,12

常用参数：-bg：自定义背景序列-size:用于motif寻找得片段大小，默认bp；-sizegiven设置片段大小为目标序列长度；越大需要得计算资源越多-len：motif大小设置，默认8,10,12；越大需要得计算资源越多-S：结果输出多少motifs,默认25-mis：motif错配碱基数，默认2bp-novopp：不进行反义链搜索motif-nomotif：关闭重投预测motif-rna:输出RNAmotif，使用RNAmotif数据库-h：使用超几何检验代替二项式分布-N：用于motif寻找得背景序列数目，default=max(50k,2xinput)；耗内存参数

参考：FindingEnrichedMotifsinGenomicRegions

往期精彩：

ChIP-Seq数据挖掘系列-1:Motif分析(1)-HOMER安装

ChIP-Seq数据挖掘系列-2:Motif分析(2)-HOMERMotif分析基本步骤

我们创建了生物信息学习交流群，如需进群，请长按下方

转载请注明：http://www.sonphie.com/jbjc/12671.html

上一篇文章： 23人死亡辽宁省发布传染病疫情辽宁人

下一篇文章：没有了