ChIPSeq数据挖掘系列3Mot

北京看白癜风最正规医院 http://www.sjqbdf.com/

findMotifsGenome.pl:在基因组区域中寻找富集Motifs

HOMER最初设计的目的用于ChIP-Seqpeaks中寻找富集motifs。

命令

findMotifsGenome.plpeak/BEDfilegenomeoutputdictory-size#[options]

1.设定寻找motif的区域大小(-size#or-sizegiven,default:)如果想在提供的peak中寻找motifs,使用参数-sizegiven。然而,对于转录因子peaks,大多数motifs被发现位于peak中心+/-50-75bp的范围内,所以最好根据peak的大小将寻找motif的区域设为固定值。

2.输入文件格式格式:HOMERpeak/Positions文件和BED格式文件

HOMERpeak文件有至少5列:

Column1:PeakID

Column2:染色体

Column3:起始位置

Column4:终止位置

Column5:链的方向(+/-or0/1,whe0="+",1="-")

BED格式文件至少有6列:

Column1:染色体

Column2:起始位置

Column3:终止位置

Column4:PeakID

Column5:notused

Column6:链的方向(+/-or0/1,whe0="+",1="-")

Peak/Position和BED两种格式之间可以相互转换,使用Homer自带脚本:pos2bed.pl或bed2pos.pl

3.自定义背景因为HOMER使用一个不同的motif寻找算法,因此使用不同的背景会产生不同的结果。例如,如果将某种实验的peak与另一种实验peak相比较,可以再创建一个peak/BED文件(参数:"-bgpeak/BEDfile"),将会对背景进行移除GC-bias操作和自动标准化。

4.findMotifsGenome.pl工作流程4.1确认peak/BED文件4.2根据peak/BED文件提取序列,过滤掉序列中N70%的序列。4.3计算peak对应序列GC/CpG含量4.4根据设定的大小准备背景序列用于寻找motif区域大小使用("-size#")设置。HOMER一般选取基因TSS+/-50kb区域分成设定大小;然后计算这些背景序列GC/CpG%储存起来用于后续分析。

4.5随机选择背景区域用于寻找motif因为HOMER使用一个不同的motif寻找算法,它需要使用背景序列区域作为对照。默认情况下,HOMER可能选择或peaks总数两倍的随机背景序列,可以使用参数-N#自定义。HOMER会选择和目标数据一致GC含量分布的序列作为背景序列。例如,目标序列是GC高含量的,那么背景序列也会如此。设定-bgpeak/BEDfile自定义背景,

4.6序列差异自动标准化自动标准化是HOMER用以移除由短寡聚序列引进的序列偏好性,主要用于消除某些特定基因组序列、实验误差和测序偏好引起的不平衡。HOMER假定目标数据和背景序列在1-mers,2-mers,3-mers,etc上是没有差异的。短寡聚序列长度是通过参数-nlen#设定。一个例子,目标数据和背景序列中As是一样的;先计算目标序列中各种短寡聚序列的偏好性,然后调整每条背景序列的权重来标准化这些偏好性,当然权重矫正是按照较小的步长一步一步进行矫正。如果目标序列富含A,那么背景序列中富含A的序列权重高于A含量一般的序列。

4.7检查已知motifs富集情况HOMER会检索已知motifs在目标序列和背景基因富集情况。结果输出到文件:knownResults.html

4.8重头预测motif默认情况,HOMER寻找长度为8,10,和12bp的motifs,可以通过-len#,#,#自定义。

5findMotifsGenome.pl结果文件

homerMotifs.motifs#:对应各个长度的motif结果

homerMotifs.all.motifs:各个长度的motif结果合并到了一起

motifFindingParameters.txt:文件保存了程序运行参数

knownResults.txt:已知motif的富集结果

seq.autonorm.tsv:短核苷酸自动矫正情况

homerResults.html:重新预测的motif的富集结果

peakMotifs.output

homerResults/dictory:对应homerResults.html中结果

knownResults.html:已知motif的富集结果

knownResults/dictory:对应knownResults.html中结果

6Interptingmotiffindingsults7motif寻找的一些重要参数

Maskedvs.UnmaskedGenome("-mask"orhg18vs.hg18r)一般使用masked版本

RegionSize("-size#","-size#,#","-sizegiven",default:)-size-,:peak上游bp,下游bp区域。根据不同的实验数据选择。

Motiflength("-len#"or"-len#,#,...",default8,10,12)如果要寻找长Motif,建议先寻找短的Motif(15bp);寻找长的Motif耗时和占据大量计算机资源,建议减小寻找Motif的区域,例如"-len20-size50"。

Mismatchesallowedinglobaloptimizationphase("-mis#",default:2)允许错配可以提升灵敏度,如果寻找12-15bpMotif,可以设置3-4bp的错配。

Numberofmotifstofind("-S#",default25)并不是越多越好。

NormalizeCpG%contentinsteadofGC%content("-cpg")考虑到HOMER可能卡在CGCGCGCG这样的motifs。

Regionlevelautonormalization("-nlen#",default3,"-nlen0"todisable)消除短寡聚核苷酸引入的不平衡。

Motiflevelautonormalization(-olen#,default0i.e.disabled)对Regionlevelautonormalization参数的补充。

Userdefinedbackgroundgions("-bgpeakfileofbackgroundgions")自定义背景序列

Hypergeometricenrichmentscoring("-h")findMotifsGenome.pl默认使用二项式分布对motifs打分,这是因为背景序列远远多于目标序列时,运算比较快。当背景序列比较少的时候,建议使用超几何检验的方法。

Findenrichmentofindividualoligos("-oligo")输出寡聚核苷酸富集情况到文件oligo.length.txt

ForcefindMotifsGenome.plto-pparsegenomeforthegivengionsize("-pparse").

Onlysearchformotifson+strand("-novopp")

SearchforRNAmotifs("-rna")

Maskmotifs("-maskmotiffile")

Optimizemotifs("-optmotiffile")

DumpFASTAfiles("-dumpFasta")根据peak文件输出target.fa和background.fa

8.findMotifsGenome.pl使用实例:8.1数据包准备

$perlconfiguHomer.pl-list$perlconfiguHomer.pl-installmm10

8.2构建HOMERPeak/Positions文件#input.test.bed

#peakName#chromsome#startingPosition#endPosition#strand

1chr+2chr+3chr+4chr+5chr236538+6chr+7chr+8chr+9chr+10chr+

8.3运行程序

$perlfindMotifsGenome.plinput.test.bedmm10/homerResult/-size-len8,10,12

常用参数:-bg:自定义背景序列-size:用于motif寻找得片段大小,默认bp;-sizegiven设置片段大小为目标序列长度;越大需要得计算资源越多-len:motif大小设置,默认8,10,12;越大需要得计算资源越多-S:结果输出多少motifs,默认25-mis:motif错配碱基数,默认2bp-novopp:不进行反义链搜索motif-nomotif:关闭重投预测motif-rna:输出RNAmotif,使用RNAmotif数据库-h:使用超几何检验代替二项式分布-N:用于motif寻找得背景序列数目,default=max(50k,2xinput);耗内存参数

参考:FindingEnrichedMotifsinGenomicRegions

往期精彩:

ChIP-Seq数据挖掘系列-1:Motif分析(1)-HOMER安装

ChIP-Seq数据挖掘系列-2:Motif分析(2)-HOMERMotif分析基本步骤

我们创建了生物信息学习交流群,如需进群,请长按下方

转载请注明:http://www.sonphie.com/jbjc/12671.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

    当前时间: