广东省医学会医学科研实验室建设与管理学分会|SCI论文解读

SCI论文解读（10）：人工智能精确诊断儿科疾病

发布单位：广东省医学会医学科研实验室建设与管理学分会 / 阅读：2650 次 / 2021/5/17 8:01:15

刘广建，广东省人民医院医学研究部副研究员，毕业于华南理工大学生物医学工程专业。主要研究方向为健康医疗数据的智能化应用，致力于人工智能辅助诊疗产品的研发和数据驱动型智慧医疗体系的建设，在机器学习、医学自然语言处理、知识图谱、分子药物设计等关键技术的研发上具有丰富的研究经验。主持国家自然科学基金1项、广东省自然科学基金1项、国家重点研发计划研究任务1项。发表论文20余篇，其中第一或通讯作者SCI/EI论文14篇，最高发表于Nature Medicine并入选“2019年中国百篇最具影响国际学术论文”；申报发明专利3项，授权发明专利1项、实用新型专利1项。2019年获评“广州市高层次人才”和“广州市高层次卫生人才”。作为学术骨干参与“人工智能辅助诊断产品在儿童医院门急诊临床场景的应用”项目，先后获评中国医学科学院“2019年度中国医学重大进展”、国家卫健委“医疗健康人工智能应用落地30最佳案例”、国家卫健委医院管理研究所“2019全国医疗人工智能创新奖——创意创新奖”、中国健康产业创新平台“奇璞奖”提名奖和中国妇幼保健协会“2020年人工智能临床应用和研发优秀案例”。

1. 引言

随着时间的推移，医疗信息变得越来越复杂。近年来，疾病实体、诊断检测、生物标志物以及治疗方式的范围均呈指数增长。随之而来，临床决策也变得更加复杂，需要大量数据点的综合。在当前的数字时代，电子健康记录（electronic health record，EHR）代表了一个巨大的电子数据点库，以呈现种类繁多的临床信息。人工智能（artificial intelligence，AI）方法已成为挖掘EHR数据的潜在有力工具，有助于疾病诊断和管理，模仿甚至可能增强人类医师的临床决策。

为了对任何给定的患者进行诊断，医师通常使用假设演绎推理的方法。从主诉开始，然后医师询问与该主诉有关的针对性问题。从这个最初较小的特征集中，医师进行鉴别诊断并决定接下来要获取哪些特征（疾病史、体格检查、实验室检验和/或影像检查），以便在鉴别诊断集合中保留或排除某些诊断。当最有用的特征被识别出来，使得其中一个诊断的概率达到预定的可接受水平时，停止该过程，并接受这一诊断。有可能只需少量特征就可以达到可接受的诊断确定水平，而无需处理整个特征集。因此，医师可被认为是一种疾病分类器。

在本研究中，我们设计了一个AI系统，使用机器学习从EHR记录中提取临床相关特征，以模拟人类医师的临床推理。在医学中，机器学习方法已经在基于图像的诊断中表现出强大的能力，特别是在放射学、皮肤病学和眼科学中，但是对HER文本数据的分析面临着许多困难的挑战。这些挑战包括海量数据、高维度、数据稀疏性以及医疗数据中的偏差或系统误差。这些挑战使得难以使用机器学习方法来进行准确的模式识别和生成预测性的临床模型。

在本文中，我们提出一个集成了先验医学知识和数据驱动模型的HER文本数据挖掘框架。首先开发了一种基于深度学习的自然语言处理系统，以提取临床相关信息，然后建立了基于所提取临床特征的诊断系统。最后，将该框架应用于大型儿科人群，以验证基于AI的方法的诊断能力。

2. 结果展示

1）非监督诊断分组

诊断系统在没有预先定义的人类诊断标签作为输入的情况下，无监督聚类仍然能够检测临床特征的趋势以产生相对合理的分组结构。

Fig. 1 Unsupervised clustering of NLP extracted textual features from pediatric diseases.

2）使用自然语言处理技术（Natural Language Processing，NLP）重组医疗记录

由具有超过25年临床实践经验的高级医师，打造临床信息模板（schema），并人工注释HER以训练NLP信息提取模型。NLP模型在EHR记录的注释上取得了优异的结果。

Extend Tab. 1 Performance of the natural language processing (NLP) model.

3）分层诊断模型

在使用深度NLP信息提取模型注释百万余份EHR记录之后，使用逻辑回归分类器建立分层诊断系统。该诊断系统主要基于解剖学分类例如器官系统进行分层诊断。这是为了模仿医师推理中使用的传统框架，其中基于器官的方法可用于进行鉴别诊断。逻辑回归分类器可直接识别相关的临床特征，并易于提高诊断分类的透明度。

Fig. 2 Hierarchy of the diagnostic framework in a large pediatric cohort.

我们的诊断系统在分层诊断的所有级别中均获得了很高的准确度（表1）。在将患者诊断分类为广泛器官系统的第一层级，准确度从胃肠疾病的0.85到神经精神疾病的0.98，中位准确度为0.90。即使在更深层次的诊断分类中，该系统仍保持类强大的性能。

4）AI与人类医师的比较

我们还使用来自一个独立儿科患者队列的11,926条记录，比较了我们的AI模型和人类医师之间的诊断表现。我们的模型获得的平均F1得分高于两个初级医师组，但低于三个高级医师组。这一结果表明，这种AI模型可能有助于初级医师诊断，但并不必然胜过有经验的医师。

3. 研究思路

4. 总结

本研究中，我们提出了一个基于AI的NLP模型，该模型可以处理EHR中医师记录的自由文本，以准确预测儿科患者的主要诊断。该模型最初由一组注释文本来训练，这些注释文本由专家团队的医师和信息学研究人员手工注释。经过训练，NLP信息提取模型使用深度学习技术自动注释来自中国一个医疗中心的140多万次门诊记录。通过深度NLP模型提取和注释的临床特征，使用逻辑回归分类器来预测每次门诊的主要诊断。该系统在所有器官系统和子系统中实现了出色的性能，与医师初始诊断相比，其预测诊断表现出高水平的准确性。

原文链接：https://www.nature.com/articles/s41591-018-0335-9 （Nature Medicine， IF = 36.13）

特别鸣谢：

本文转自：GD省医公共实验室公众号：

欢迎投稿：MLCMGD@163.com

Prev：广州市第一人医院中心实验室的简介

Next：广东省过敏反应与免疫重点实验室简介