随着深度测序的技术发展, 海量组学数据库是被产生. 诸如癌症基因组图谱, DNA元素百科全书[the Encyclopedia of DNA Elements (ENCODE)], 癌症基因组计划[Cancer Genome Project (CGP)], cBioPortal, 国际癌症基因组联盟[International Cancer Genome Consortium (ICGC)], 基因型-组织表达科研联盟[Genotype-Tissue Expression (GTEx)]等收集了海量不同组织/不同癌症的组学数据.
癌症基因组数据的海量产生, 为计算生物学家供给了巨大的机会. 怎样从这些癌症基因组学数据中挖掘生物分子共表达模块是咱们面临的一大挑战.
本文运用最多的癌症基因组数据来自于TCGA数据库. TCGA计划起始于2005年, 运用基因组测序和生物信息学来分析癌症的基因突变和分子合作机制. TCGA应用高通量基因组分析技术, 更好地认识这种疾患的遗传基本, 加强诊断、 治疗和预防癌症的能力.
截止到2016年, TCGA数据库收集了30多种癌症的基因组数据. 每一种癌症包含突变、拷贝数变异、mRNA表达、miRNA表达、甲基化数据等(图~\ref{fig:1.3}). 日前下载TCGA上的数据重点是经过以下两个途径:
(1) TCGA官网 (GDC). 其优点是数据最全、 更新最快. 其缺点是每一个样本的数据都单独储存在一个文件中. 倘若要下载某一种癌症的RNA数据的话, 必须同期下载好几百个文件, 其下载速度亦很慢.
(2) Firehose数据库 (Broad GDAC Firehose). 其优点是这儿的数据亦源自于 TCGA的官网. 只不外, 服务器上对TCGA官网的数据进行了简单的合并, 将每种癌症相同类型的数据合并成一个文件, 使得其下载变得很方便. 咱们举荐读者运用Firehose数据库下载TCGA的数据.
倘若必须看感兴趣的几个基因在某种癌症的突变谱, 表达量或甲基化等状况, 那样以下的可视化网是非常适合的.
(1) c-Bioportal (cBioPortal for Cancer Genomics). 它整合了包含TCGA、 ICGC以及GEO等164种癌症的基因组数据. c-Bioportal亦供给友好的可视化界面: 能够展示基因的突变谱、 DNA拷贝数变化、 mRNA和miRNA的表达量变化、 DNA甲基化以及蛋白质表达的状况等. 另外, 亦能够结合病人的临床数据用于存活分析并画出相应的存活曲线. 以上的所有分析结果亦供下载.
(2) GEPIA (GEPIA (Gene Expression Profiling Interactive Analysis)). 它整合分析了TCGA的30多种癌症的基因表达数据和病人临床数据, 提供了对单个基因或一组基因存活分析的功能.
|