科学研究

良渚实验室沈宁团队GENOME MED发布单细胞水平识别体细胞突变的计算方法

发布日期:2023-12-22 点击次数:

癌症是由细胞的基因组突变引起的一系列改变,作用于细胞的基因组、表观组、转录组等多个层面。癌细胞的组织异质性与快速进化是肿瘤发展与治疗耐受的关键点与研究难点。

近年来,单细胞转录组(scRNA-seq)技术得到了飞速发展与广泛应用,在肿瘤组织转录表达谱的异质性与耐药进化方面取得了一系列进展。然而,单细胞基因组水平体细胞突变(somatic mutation)等基因组突变方面的检测分析,受单细胞基因组测序技术的发展限制依然存在重重困难。由于scRNA-seq实验本身在单细胞水平所覆盖的基因组区域较少,造成了可检测突变的稀疏性。而实验过程中又会引入大量伪信号与噪音信号,进一步增加了在这一数据类型中高精准度检测体细胞突变的难度。


图片1.png


2023年12月18日,良渚实验室研究员沈宁、博士生张天韵在Genome Medicine上发表了题为De novo identification of expressed cancer somatic mutations from single-cell RNA sequencing data的研究论文报道了一种高精确度(precision)直接从scRNA-seq数据中提取体细胞突变的算法框架RESA(Recurrently Expressed SNV Analysis)。

该算法在多种类型的不同来源的癌症单细胞数据集上进行测试,均取得了较高的精确度。该算法可以应用于癌症的肿瘤异质性与耐药机制研究,实现单细胞水平表达量变化与体细胞突变的双重检测,推进肿瘤单细胞水平基因型到表型变化的理解与认知,对肿瘤分子机制研究、临床诊断、以及个性化治疗方案的制定都有重要意义。


图片2.png


由于癌细胞以克隆方式实现快速复制,因此表达的体细胞突变具有cross-cell recurrence,而伪信号则更偏向随机分布且同时在多个细胞中出现的概率较低。基于该假定,研究人员开发了RESA(Recurrently Expressed SNV Analysis)算法。

RESA算法主要分为三个阶段:初步变异检测,过滤和识别突变,以及建模再过滤。第一步将测序原始数据与基因组进行比对,并调用突变识别算法。在这一阶段,为了最小化比对和突变鉴定算法的bias,研究人员应用了两组独立read mapping和variant calling组合,确保初步鉴定的候选突变并非由数据处理算法偏差导致。第二步,研究人员通过对一系列条件进行过滤筛选,包括cross-cell recurrence数量,将候选突变分为三组,高度可信的体细胞突变或噪音信号,等待后续建模预测的候选突变以及被过滤突变。

最后,研究人员将高可信度的体细胞突变定义为positive,可信的噪音定义为artefacts,建立分别包含质量相关特征和序列相关特征的联合逻辑回归模型,并将该逻辑回归分类器应用于候选突变,进一步精准识别体细胞突变从而提高整个生信模型框架的灵敏度。

研究人员分别在三个组织样本的模拟数据集中对RESA进行了评估,发现RESA可以稳定实现0.86的精确度。此外,在涵盖不同实验技术和条件下产生的15个癌症细胞系数据中,RESA的精确度也要远优于其他体细胞检测算法。这表明了RESA在适应特定细胞类型方面的灵活性,以及RESA在实验条件下的鲁棒性。


图片3.png


研究人员进一步分析了黑色素瘤的基于人源性肿瘤移植模型(Patient-derived xenograft,PDX),模型对四个时间点的单细胞数据集进行RAF/MEK抑制耐药性研究。这四个时间点T0、phase1、phase2、phase3,分别对应肿瘤治疗前,肿瘤缩小期,微小残留病(MRD)和复发期。通过RESA,研究人员成功检测到了575个体细胞突变,并对应到了524个基因上,其中包含黑色素瘤的重要驱动突变BRAF V600E。

为了更好研究具有表达特征的突变,研究人员识别了阶段特异性的含有体细胞突变的基因,并对检测到的基因进行癌症特征基因富集,发现了包括紫外线反应,上皮到间充质转化(epithelial to mesenchymal transition, EMT)通路等。综上所述,表达的体细胞突变可能以阶段特异性和突变特异性的方式扰乱肿瘤通路和特征,揭示了表达与突变的肿瘤内异质性之间的复杂关系。


图片4.png


综上,该研究建立了一个整合的生物信息算法框架,实现从单细胞转录组测序数据中直接并高精确度提取体细胞突变信息,可以用于单细胞水平体细胞突变与转录组表达变化的整合分析,并且证明了该算法在肿瘤异质性与耐药机制研究中的价值。该研究为癌症领域单细胞水平基因型与表型关联的异质性与进化研究提供了方便有效的工具,为临床诊断提供了新的方向。 

                    

良渚实验室研究员沈宁为本文的通讯作者,沈宁团队博士生张天韵为本文的第一作者。研究受到了浙江大学计算机学院王海帅研究员,浙江大学爱丁堡大学联合学院郭伟教授,北京大学席瑞斌教授,良渚实验室郭红山研究员的大力支持,并获得了浙江省领军型创新创业团队的支持。


招聘

良渚实验室沈宁课题组围绕“组学与精准医学分析算法开发与应用”开展临床转化密切相关的研究,运用生物信息学数据整合分析与人工智能算法,并结合实验筛选平台进行药物研发与精准治疗。

课题组目前有多项具有重要应用价值的课题正在推进,与著名医学专家主导的实验室有合作关系,诚招具有实验生物、计算生物背景的博士后和研究助理。

详细招聘信息见:https://person.zju.edu.cn/shenning

简历投递(有意者请将个人简历等材料发送至):shenningzju@zju.edu.cn

原文链接:https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-023-01269-1       


微信图片_20231124171451.jpg