一、单细胞测序行业概述
细胞是生物学的基本单位,研究人员正更加努力地尝试将它们进行单个分离、研究和比较。更大更复杂的人类细胞基因组。单细胞测序是指DNA研究中涉及测序单细胞微生物相对简单的基因组,更大更复杂的人类细胞基因组。
目前,最常见的单细胞测序的应用是在肿瘤研究上。来自美国和英国的研究人员近日利用单细胞基因组扩增、测序和装配,从海洋样本中鉴定出一个单细胞细菌。单细胞测序方法即single cell sequencing(SNS),能准确定量一个单细胞核中基因拷贝数目。由于癌细胞中基因组部分被删除,或者扩增,从而引起关键基因的缺失,或者表达过量,干扰正常细胞生长,因此利用这种方法就能分析基因拷贝数目,从而诊断癌症。
单细胞测序技术是指在单个细胞水平上,对基因组、转录组、表观组进行高通量测序分析的一项技术。它能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用,正成为生命科学研究的焦点。
二、单细胞测序行业发展现状分析
随着第二代测序(next generation sequencing,NGS)技术和第三代测序( third generation sequencing,TGS)技术的飞速发展,引起生物研究领域的巨大变革。以前,需要从大量细胞中获取足够多的DNA进行测序,因此测序结果是这些细胞"整体"的表征。然而,由于细胞异质性,相同表型的细胞的遗传信息可能存在显著性差异,很多低丰度的信息会在整体表征中丢失。为了弥补传统高通量测序的局限性,单细胞测序技术应运而生。
值得注意的是,受数据样本量小、人工干预多、过度依赖marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。针对以上问题,论文中首次提出“基于大规模预训练语言模型的单细胞转录组细胞类型注释算法”,即“scBERT”模型,首次将“transformer”(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。
单细胞技术已经成为现代生命科学研究中不可或缺的有力工具,通过单细胞技术得到的数据没有掩盖细胞群体的内在异质性,随着其在分离、标记、通量和深度等方面的进步,该技术将会提供更深刻的生物学观点。随着对单细胞测序的研究越来越成熟,生物制药和生物技术公司开发市场产品的规模将会持续增长。