实用研究工具举荐 、详实生信软件教程分享、前沿创新组学文案诠释、独家生信视频教程颁布,欢迎关注微X公众号:基迪奥生物 (gene-denovo)
本文作者:Jusser
背景
人类癌症是一种高度多样化和繁杂的疾患,由拥有不同遗传、表观遗传和转录状态的癌细胞构成,形成异质功能的癌细胞群,这是癌症诊断和治疗的重点阻碍。例如,有些癌细胞拥有高增殖活性,有些拥有肿瘤侵袭性和转移能力,有些表现出干细胞样特性,而有些表现出“惰性”静止状态。这些功能异质的癌细胞在全部肿瘤进化过程中协同或竞争功效,引起不同的肿瘤表型。因此呢,全面、充分地认识癌细胞的功能状态至关要紧。
日前,基于单细胞测序技术为探索繁杂的生态系统(尤其是癌症)开辟了新办法,彻底改变了全部生物学科研的方式。它为以单细胞分辨率破译癌细胞的功能状态供给了前所未有的机会,从而使科研人员能够准确没偏见地探索癌细胞的功能异质性,并加深对癌细胞做为功能单元执行特定生物学功能的理解。但发掘大部分文案都是专注于收集scRNA-seq数据集,日前仍缺乏一个专门用于破译癌症单细胞功能状态的数据库。因此呢,哈尔滨医科大学的肖云老师和他的团队研发了CancerSEA数据库,旨在全面解码癌细胞在单细胞水平上的不同功能状态。
下面博主对该数据库的运用进行仔细介绍。
cancerSEA数据库拜访链接:
1、内容丰富的cancerSEA数据库
一进入数据库,映入眼帘的便是一丛花朵,花丛以血管做为枝干,间或分布有灰色的细胞。这14朵花对应的便是数据库供给了14种癌症关联功能状态(血管生成、细胞凋亡、细胞周期、细胞分化、DNA损害、DNA修复、EMT、细胞缺氧、炎症出现、癌细胞侵袭、转移、增殖、细胞静息、干细胞特性)。
图1 cancerSEA数据库首页如今,该数据库收集了72个单细胞数据集,共计25种人类癌症的41,900个癌症单细胞,供给了这14种癌症关联功能状态在不同癌症的单细胞功能状态的图谱,并在单细胞水平上将这些功能状态与18,895条蛋白编码基因(PCGs)和15,571条lncRNA相关起来,以促进对癌症细胞功能差异的机制理解[1]。
图2 14种功能状态和数据库统计图3 25种癌症中细胞数量的比例(图例为各样癌症名叫作缩写)下面博主就按照cancerSEA数据库的重点功能区:Search、Download分别进行介绍。
2、Search功能
搜索功能有3种方式:
第1种,输入基因名叫作,该种方式能够在自己科研的项目中筛选出有些与癌症关联的基因,此时能够输入一个基因ID来查看该基因的功能、基因在不同癌症中与14种状态的关联性、找到与关注的癌症关联的细胞状态;
图4 输入单个基因的搜索方式
第二种,选取癌症类型和功能整体来查找特定癌症类型中与此状态关联的PCG/lncRNA,该种方式能够在数据分析之前,先认识与科研癌症的某细胞状态关联的基因和lncRNA有那些,在后续分析中能够重点关注有些基因(顺带一提,在首页的花瓣亦能够直接点击对应的细胞状态进行查找);
图5 选取癌症和状态的搜索方式第三种是输入多基因或选取GO/KEGG/MSigDB数据库的通路基因集,该方式能够在数据分析过程中运用,例如得到一个基因集后,或富集分析完成后,得到关注的重点通路,查看该基因集或通路在不同癌症中与14种状态的关联性;
图6 输入基因集和通路的搜索方式这3种方式的查找结果包括4个部分,下面分别介绍:
第1部分 表示基因的基本信息,包含基因symbol号、ensembl号、别名、仔细的基因功能,点击ID可直接转到相应的数据库,为科研基因功能供给思路。
第二部分 表示查找的基因在不同癌症中跨14个状态的关联性(图7)。做为一个总览图,它既表现了基因在同一种癌症中对不同状态的促进和控制功效,又表现了基因在同种状态中对不同癌症的影响。例如,从该气泡图中咱们能够看出这个基因对stemness在AST中是显著负关联的(即控制功效),说明这个基因可能对星形胶质细胞瘤的复发起到控制功效。
图7 基因关联的细胞状态与不同癌症的关联性第三部分表示查找基因与某一癌症功能关联性。如图8所示,能够选取某一癌症进行基因与癌症关联性的分析,热图表示该基因与14种细胞功能关联性。左下表示与输入基因有明显关联性的功能状态被筛选出来,鼠标指到被筛选出的细胞状态峰值图时,右下角区域就会自动绘制散点图,表示P值和关联系数。相较于上一部分,这一部分的结果更为精细,将视野集中在单种肿瘤且明显关联的细胞状态上。这个功能就能够选取感兴趣的癌症进行仔细分析,筛选查找基因与关联性较高的细胞状态,为咱们科研基因与细胞状态供给思路。
图8 某一癌症与基因的关联性分析结果第四部分表示不同细胞亚群中的功能关联性。盒形图表示了用户选取的数据集细胞中基因或基因列表的表达分布状况。T-SNE表示基因在细胞的表达分布状况。从图9中能够看出,输入基因在大部分细胞中高表达,说明细胞有很强的肿瘤异质性,该部分让用户从全局认识基因在细胞中的表达水平供给方便。
图9 盒形图和tsne图展示基因的表达状况
3、Download功能
CancerSEA中的所有数据都能够在“Download“中下载,重点包括每一个单细胞数据集的功能状态配置文件和PCG/lncRNA表达谱以及功能状态基因列表。
下载癌症类型的表达量数据集,可对数据重新利用,亦能够与自己项目数据比较,挖掘更加多有用信息。
图10 数据集细胞状态得分及PCG、lncRNA表达量下载下载各细胞状态基因集,可预估自己的项目数据的各个细胞状态,可用GSVA和Seurat中的表达量权重评
图11 各细胞状态基因集下载4、总结
该数据库重点为癌症细胞异质性科研供给方便,探索癌细胞在单细胞水平上的不同功能状态,同期只必须经过点点点的方式就能够容易得到肿瘤细胞状态的关联信息,是不会代码者的福音。但实质应用中,咱们亦能够不仅局限在癌细胞,还能够将细胞状态估计应用在单细胞正常组织的分析项目,运用这14种状态基因集去预估细胞状态,或亦能够自己整理数据集,进行细胞状态的预估,将预估的细胞状态与拟时分析结合,例如找到干细胞的分化轨迹等。
参考^Huating Yuan, Min Yan, Guanxiong Zhang, Wei Liu, Chunyu Deng, Gaoming Liao, Liwen Xu, Tao Luo, Haoteng Yan, Zhilin Long, Aiai Shi, Tingting Zhao, Yun Xiao, Xia Li, CancerSEA: a cancer single-cell state atlas, Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D900–D908.
|