本文转载公众号医学数据库百科
TCGA、ICGC、GTEx 数据库都是啥?
咱们在进行数据库介绍,尤其是肿瘤关联数据库的时候,经常会说到说这个运用了 TCGA/GTEx 数据库的数据,那样这两个数据库到底是什么呢?为何会有用这两个数据库呢?另一呢,因为近期ICGC提的亦比较多,因此这儿亦就做一下简单的介绍。必须知道的是,这几个数据库属于原始数据储存数据库。咱们在这儿得到的都是相对原始的数据库,必须具备必定的数据分析能力。
TCGA
TCGA, 全叫作为The Cancer Genome Atlas(癌症基因组图谱)。经过其名叫作咱们就晓得这个数据库重点做的便是肿瘤关联的数据库。为何经常看到别人用这个数据库呢?还是由于这个数据库收集的信息全呀。
首要,针对科研病种而言,这个数据库包含了33个种肿瘤的数据。详细包含的癌种能够看后面的链接。
其次,数据库检测的数据类型多。针对同一个癌种,咱们能够得到这个癌种的: 表达数据、miRNA表达数据、甲基化数据、突变数据和拷贝数数据。倘若咱们运用GEO数据库检索某一个癌种,一样亦能够得到这些关联的数据。然则TCGA数据库宝贵的地区是,这个数据都是出自同一个人的。这般的话,咱们就能够科研不同组学之间的交叉反应了。例如突变针对表达的影响、甲基化和表达的关系等等。。。
另一,TCGA除了包含了不同测序的数据,同期针对每一个纳入的病人还包含了其临床的信息。更难能可贵的是,临床信息其中还包含了预后随访的信息。这个咱们就能够来分析以上的测序数据集和临床信息之间的关系了,例如分析基因表达和预后的关系等等。。。
PS: 其实GEO有的数据集亦有临床信息以及预后信息,然则这个得必须咱们慢慢的去寻找了。
ICGC
ICGC (https://dcc.icgc.org/), 全叫作International Cancer Genome Consortium(国际癌症基因组联盟)。这个数据库和TCGA的关系,便是ICGC数据库包含了TCGA的数据。另一呢,ICGC亦纳入了其他别的地区所做的队列的测序数据。因此倘若运用ICGC进行检索的话,咱们能够得到更加多的数据。
ICGC是一个储存原始数据的地区,咱们只必须检索相对应的重要词就能够得到详细的信息了。咱们能够检索疾患、基因名叫作或突变信息都能够。例如咱们检索 gastric cancer,咱们就能够得到这个联盟纳入的数据集。
咱们点击进去就能够看到每一个数据集仔细的信息。根据下图所示,咱们点开的这个就仅有突变的数据。
GTEx
GTEx,全叫作Genotype-Tissue Expression。这个数据库和TCGA和ICGC不同的是。TCGA和ICGC更加多的还是肿瘤关联的数据,而GTEx收集的是正一般人身上的组织来进行的测序,因此GTEx数据库包含的就只是正一般人的数据。
这个数据集的用处呢,一方面是能够科研正一般人不同组织之间的基因表达的区别。另一的一个呢,便是和TCGA联合运用。因为TCGA重点收集的还是癌症组织的数据,针对其正常的数据收集的相对来讲较少,因为正常样本少因此针对差异表达的结果可能就不是很准确。这个时候倘若咱们把GTEx的数据纳入进来。这般分析的结果就会准确有些了。
数据下载站点举荐
以上便是三个数据库内容的基本介绍,倘若想想要在关联的数据的话,各个数据库都供给了自己的下载方式。另一,非常多别的公司亦都供给了这个数据的下载链接,这个还是很举荐运用UCSC XENA (https://xenabrowser.net/hub/)。这儿汇总和日前常用的非常多公共数据库的原始数据,乃至包含今年刚发布的PCAWG的数据。
|