来源:云生信
研究背景:高通量芯片数据与蛋白质互作网络整合分析已经是生物信息常见的分析手段。如简单的从PPI背景网络提取目标基因连接的子网络,或者结合表达量计算基因表达上的相关性等。通过蛋白互作网络,我们可以研究目标基因可能参与的生物学功能;网络参数统计,如节点度、结束、最短路径等,以及模块划分,是得我们能够分析网络中的重要基因,这些基因既有可能对疾病的发生发展有着重要的影响。但是这些方法存在一个不足之处,我们只是从现有的信息分析,没有使用已有的疾病相关的知识,而这些先验信息可以帮助我们优化疾病相关基因的挖掘。
随机游走模型(randomwalk)最初被应用于图像分割,后来衍生到生物学网络分析,可以用于计算亮点之间的proximity。该模型的核心思想是从网络中某一节点(seed)出发(startingnode),沿着网络边向邻接节点游走,这种游走是随机的。从seed节点游走到某一节点的概率称为该节点与seed节点的亲和系数(affinityscore),这个值越高表示该节点与seed节点的关系越紧密。当然seed可以是一个节点,也可以是一群节点。重启随机游走模型(randomwalkwithrestart,RWR)是即可向neigbournodes游走,也可跳回startingnode。这里跳回starting节点的概率叫做restartprobablity,r。所以RWR模型需要三个输入,network,seed,restartprobablity.
人类孟德尔遗传病数据库(OnlineMendelianInheritanceinMan,OMIM)提供了综合、权威的关于疾病-基因的关系的数据库。我们可以根据这里提供的疾病相关的基因信息,结合芯片表达数据和蛋白质互作网络,使用RWR模型挖掘与疾病基因关系最为紧密的基因,而这些基因可能成为新的疾病相关靶点。这样子通过结合先验知识得到的新的疾病基因更有研究价值。
分析流程:.差异表达分析
原始芯片数据用affy包做背景校正和标准化。再根据芯片注释信息,将探针水平表达量取平均得到基因水平的表达量。接下来用Rpackagelimma做差异表达分析,p-value用BH方法校正,差异表达的阈值为adj.P.Val0.05and
logFC
≥.
2.OMIM数据库搜索CRCgene
从OMIM数据库搜索CRCgenes,并将这些genes作为RWR分析的seed。
3.PPI网络构建
从STRING数据下载左右蛋白的互作网络,并从中提取只有CRCgene和DGGs的子网络,seed_DEGs.ppi.
4.RWR分析
用Rpackagednet的函数dRWR做RWR分析,seed为CRCgene,网络为seed_DEGs.ppi,restartprobablity等于0.9.Drwr函数会反回一个只有一列的数值矩阵,这些数值表达是了每个基因与seed之间的affinityscore。我们选取affinityscore排名前50的节点做后续功能分析和靶药预测。
结果展示:
Table,coloreactalseedgenesfromOMIMdatabase
Gene/Locus
EntrezID
NAME
PLA2G2A
phospholipaseA2,groupIIA(platelets,synovialfluid)
NRAS
neuroblastomaRASviral(v-ras)oncogenehomolog
ODC
ornithinedecarboxylase
CTNNB
catenin(cadherin-associatedprotein),beta,88kDa
PIK3CA
phosphatidylinositol-4,5-bisphosphate3-kinase,catalyticsubunitalpha
FGFR3
fibroblastgrowthfactorreceptor3
TLR2
toll-likereceptor2
APC
adenomatouspolyposiscoli
MCC
mutatedincolorectalcancers
PTPN2
proteintyrosinephosphatase,non-receptortype2
PDGFRL
platelet-derivedgrowthfactorreceptor-like
RAD54B
RAD54homologB(S.cerevisiae)
TLR4
toll-likereceptor4
PTPRJ
proteintyrosinephosphatase,receptortype,J
CCND
cyclinD
MLH3
mutLhomolog3
AKT
v-aktmurinethymomaviraloncogenehomolog
BUBB
70
BUBmitoticcheckpointserine/threoninekinaseB
TP53
tumorproteinp53
FLCN
folliculin
AXIN2
axin2
DCC
deletedincolorectalcarcinoma
BAX
58
BCL2-associatedXprotein
AURKA
aurorakinaseA
EP
EAbindingproteinp
Figure2.PPIoftop50genes
Figure3.富集分析结果
-----
最后为大家安排两个数据挖掘精品课程,有着十年生物信息分析经验的宋老师,擅长高通量数据分析、项目开发与设计,拥有丰富的培训经验。
第0期测序与芯片高通量数据挖掘与分析学习班
上海班://2-3(号报到)
上海好望角饭店
通过该主题的学习,可以学会:
高通量公共数据的详细信息查找/下载;
在线做差异表达分析
在线blast分析
基因ID转换
通路map图制作
功能富集分析
蛋白互作分析
网络图的构建和美化。
全国TCGA,GEO生信高通量数据挖掘专题学习班
//9-20(8号报到)
上海浦东中兴和泰酒店
培训预期:
.通过整整两天的培训,掌握TCGA,GEO数据库的使用、下载及分析思路和实用操作知识点。
2.可以独立完成一篇基于公共数据库的高通量数据挖掘分析。
3.课后还可以赠送小时的全场串联视频,用于学员的复习。
4.赠送一份最近5年的高价值国自然标书(医药加高价值标书库里面选择)
5.讲师团队赠送TCGA数据库甲基化,基因表达谱整合分析报告与疾病mRNA+lncRNA分析报告
优惠政策:上面两个数据挖掘班,每个班学费是元/人,如两个班一起报,按照元/人。(学习费包含电子版教材、午餐,住宿费自理,保证学员完全掌握。)
医药加金牌学习班,不少培训科研专题已经有几十期了,不少学员都已经发了SCI或者拿了国自然,我们会提供完善的售后服务,讲师也会在白癜风吃什么中科白癜风医院