赋能宏基因组测序技术 助力精准病原学诊断
——浅谈人工智能在病原微生物鉴定及其耐药表型预测方面的应用
作为全球十大死亡原因之一,感染性疾病严重威胁人类健康。然而,现有的病原检测技术无法充分满足临床诊断需求。目前,很多感染性疾病,如中枢神经系统感染、脓毒症及重症下呼吸道感染等,均缺乏明确的病原学诊断依据,因此可能导致广谱抗感染药物经验性用药情况发生,进而造成耐药性微生物富集。该困境的破局关键之一,是快速准确地鉴定病原微生物物种,并预测其潜在耐药表型。
近年来,人工智能技术在疾病预测、辅助诊断和健康管理等领域加速应用并落地,应用场景不断扩展。值得注意的是,人工智能深度学习模型与病原宏基因组高通量测序技术正在深度融合,将用于整合多种临床信息及海量生物基因序列等数据,在提升病原微生物鉴定和耐药表型预测准确度等方面潜力巨大。
□ 刘东来 王浩 李佳戈 许四宏
检测优势明显
宏基因组测序技术临床价值突出
核酸是生物遗传物质。通过对核酸进行测序,即测定核酸的序列,可以获取生物最核心的遗传信息,从而有效鉴定包括病原微生物在内的各类生物种属。
病原宏基因组高通量测序技术(以下简称宏基因组测序技术),因具有无需对病原体进行分离培养、检测范围广、无需靶向扩增、灵敏度高等特点,可一次性直接对样本所包含的细菌、真菌、病毒、寄生虫乃至未知的病原体等微生物进行高精度、高维度分析研究。该技术广泛应用于微生物组研究及临床微生物检测等领域,是继显微镜发明以来人类认识微生物世界的又一革命性突破,打破了传统微生物检验的局限。当前,宏基因组测序技术是有望满足临床对感染性疾病诊疗“快速、准确、全面” 需求的技术路线之一。
在一项于2008年发表的回顾性研究中,研究者利用宏基因组测序技术,在三名接受同一器官捐赠者的器官移植患者体内,检测出一种新的沙砾病毒,又通过微生物培养、PCR、免疫组化和血清学检测等方法验证了该检测结果。该研究首次表明,宏基因组测序技术作为一种新工具,可以有效鉴别引起急、慢性传染病的致病微生物。
近年来,基于宏基因组测序技术应用的研究论文数量呈指数级增长,且该技术逐渐应用于临床。2014年,有研究人员报告一例罕见的慢性神经肽螺旋体病,患者病情在急性发作后持续数月。然而,采用传统的脑脊液培养、血清学检测、PCR等方法均未能检测出致病微生物。在对脑脊液样本中的宏基因组测序数据进行分析时,研究者识别出钩端螺旋体的序列,并又通过血清学检测和PCR等方法得到证实。自此,宏基因组测序技术临床应用序幕正式拉开。
此外,宏基因组测序技术在个性化用药治疗方面同样具有重要的临床价值。基于宏基因组测序技术对病原微生物的耐药基因进行检测,再经过严格的生物信息分析流程,进一步预测该病原微生物的耐药表型,从而指导临床进行精准治疗。与以往使用的对微生物进行无差别杀伤的广谱药物相比,宏基因组测序技术辅助诊断能够精准狙击病原微生物,不仅能降低药物滥用风险,还能提升治疗有效性,将副作用降到最低。
整合临床信息
推动实现感染性疾病精准诊断
测序技术是信息科学与生命科学交叉融合的重要媒介之一,将微生物研究精度从群体延伸至单碱基水平,与此同时,海量的多组学数据得到了积累。对生命科学研究人员而言,如何从这些高维数据中挖掘出有用信息无疑是一种挑战。
自Al phaGo人机围棋大战等事件发生以来,人工智能得到了越来越多的关注。海量复杂的宏基因组测序数据,正是人工智能施展本领的绝佳领域。通过挖掘信息的潜在关联,构建逻辑认知,将所有与病原学诊断相关的不同种类信息连接起来,得到一个关系网络,进而从“关系”的角度多维度分析问题。目前,人工智能虽已逐渐应用于协助诊断、慢性病管理、预测预后等临床图像和声音分析领域,但在宏基因组测序这个新兴领域的应用才刚刚开始,发展空间巨大。
在病原微生物诊断方面,通过将人工智能技术与临床信息有效结合,能够改善宏基因组测序技术的局限性,从而精准分析出患者样本中的核酸信息(如人类基因、人体微生物基因等)和环境信息(如微生物组成等),并与疾病特征相关联,这或将成为感染性疾病快速诊断和对症治疗的关键一环。
感染性疾病往往是多因素共同作用的结果。通过应用人工智能技术,可以对国内外结构各异的微生物组项目数据进行深度挖掘与整合,构建详细的“微生物—疾病”网络关联图谱,进而由点及面,甚至全维度地审视微生物与疾病的相互作用过程。宏基因组测序数据是对环境中百万级别的核苷酸序列进行测序,并通过物种注释后得到的结果。其内容包括个体信息和环境信息,疾病状态可以通过临床实验室检测数据等进行描述。
总之,人工智能技术的应用可以对宏基因组测序数据与临床实验室的其他检测数据进行关联分析,从而有助于鉴别新型生物标志物、预测临床感染(如脓毒症等)的发生和预后,并辅助临床决策。持续优化人工智能系统,使其随数据更新不断进化,将能协助经验丰富的研究人员或临床医生制定个性化的精准诊疗方案。
辅助挖掘测序数据
显著提升耐药表型预测准确率
在病原微生物耐药表型预测方面,人工智能技术通过对测序数据深入挖掘,可以有效提升预测准确率。2020年末,人工智能系统AlphaFold 2凭借其在蛋白质三维结构预测的超高准确度,入选《自然》和《科学》两大顶级综合期刊评选的十大年度科学突破,为生命科学问题的研究提供了强大的技术支撑。
传统的生物信息学算法直接使用原始序列数据进行比对,并未深入挖掘生物序列本身的语义信息。由于生物序列长度较长且包含非连续数值,采用传统方法很难将生物序列转化为容易处理的数据表征。并且,传统的机器学习方法依赖人为定义及计算的特征,特征计算过程带来的噪声或错误如果在分析流程中不断传递,将会影响模型表现。
近年来,在自然语言处理领域兴起的预训练模型也引起其他更多领域的广泛关注。使用预训练模型能够学习数据的通用表征,显著降低下游任务训练成本,提升下游任务中的模型表现。以BERT,GPT-3和悟道为代表的通用型自然语言处理人工智能模型,可以融合各种类型序列数据,几乎不需要进行调试,即可应用于常规翻译、创作等领域。
基于深度学习的算法具有“端到端”的特点,在研发阶段依托已知的、带标注的生物序列数据组成的训练集,借助预训练模型可从生物序列数据中提取通用语法语义表征,由于生物序列数据具有与文本数据相似的特性,自然语言处理人工智能模型也可适用于生物序列数据。考虑到深度学习算法的黑盒特性,数据自身的噪声、错误可能会对产品质量带来更高风险,因此,在该类产品的研发过程中,需要开展严谨的数据标注与数据集质控。
生物序列,即蛋白质一级结构、DNA序列、RNA序列等,蕴含了生命的规则,提供了了解生物化学过程的数据来源。通过预训练模型学习序列数据,可能会预测到新的生物学性质,以及在缺乏生物学机制解释的场景下,拓展对序列之间的相互作用及相关性的认识。目前,已有研究使用了类似技术,对耐药基因开展表型预测,并达到了良好结果。例如,在临床最为关注的鲍曼不动杆菌的耐药表型预测中,基于使用深度学习方法构建的模型,预测准确率可达到90%以上。
同时,国内团队的研究进展也紧跟国际发展趋势。例如,广州呼吸健康研究院和广州金域医学检验集团股份有限公司正在联合开发呼吸系统疾病人工智能医疗器械数据库;予果生物科技(北京)有限公司等单位正在联合开发血流感染病原微生物及其耐药表型辅助分析系统;金匙医学科技有限公司等单位正在联合开发基于宏基因组测序技术的细菌耐药表型人工智能分析系统等。
伴随人工智能技术的迭代升级,宏基因组测序技术加速从单一菌种研究延伸至多物种联合研究,从环境微生物研究拓展到人体微生物研究,从传统实验室步入一线临床。随着测序技术的不断发展,宏基因组学研究的应用愈加广泛和重要。越来越多的临床研究及案例显示,宏基因组测序技术在临床诊断领域具有较高的可行性等诸多优势,将逐渐成为病原学诊断的重要工具。
(作者单位:中国食品药品检定研究院)