利弊争辩 – 反方:人工智能不是大力丸

Piyush Mathur(医学博士、美国重症医学会会员)

相关文章:

正方:人工智能 (AI) 在医疗照护中的应用


本次利弊辩论在题为“患者病情恶化2019 Stoelting 会议上进行:早期识别、快速干预和抢救失败的终止”。以下两位作者在将人工智能用于管理医院背景下病情恶化的患者方面具有专业知识。

人工智能 (AI) 被认为有希望解决医疗照护面临的许多问题,如预测发病率和死亡率,以及在诊断方面,均胜过医生。在现实中,尽管有越来越多的研究,但经临床验证的人工智能算法数量有限。尽管美国食品和药物管理局批准的人工智能应用程序的数量在增长,但这些应用程序的实施和广泛使用仍面临挑战。计算机科学家 Rodney Brooks 描述了人工智能预测面临的一些挑战。这些挑战包括高估或低估解决方案、有想象力的神奇算法、应用规模和性能限制等。1,2

AI 性能限制在诊断 AI 解决方案中尤为重要。许多使用人工神经网络的研究人员声称,其可以改进诊断,并胜过临床医生,就如同通过 X 光胸透直观诊断疾病一样。3 通常,这些自我限制的窄谱算法可检测病变,如肺不张或渗出(基于 X 光胸透)。尽管声称有很高的准确性,但是这些应用程序却很难复制和推广。4 在机器学习的其他方法中,计算机算法可通过临床医生标记的数据进行学习。在许多支持这些算法的、可公开获取的 X 光胸透数据集中,放射科医师将病变标记为渗出、肿块、肺不张等。这些临床医师评估被认为是“金标准”,但发现评级者之间有明显差异,5导致产生了误标记数据集这一困扰。通过这些误标记数据集创建的算法很可能导致其结果出现重大错误,这可能会混淆临床医生的决策。

基于 AI 的疾病预测同样存在问题。在 Tomasev 等对急性肾损伤预测进行的研究中,通过数据集本身引入了预测偏倚。他们的美国退伍军人事务数据库仅包含 6.4% 的女性患者;这些患者的模型性能低于其余的患者。6 即使在为医疗照护管理人员或保险公司开发的管理数据集和解决方案中,偏差仍然是一个挑战。正如 Obermeyer 等证实的,这些偏差可以在算法开发的水平上引入,但也可基于使用的数据集或算法执行的方式。7 这些发生偏差的算法可导致我们的患者接受不恰当的、不安全的治疗。

实际上,较差的预测值继续限制了经过充分研究的 AI 算法的采用。基于“曲线下面积” ( “模型拟合”的统计学反映) 的结果已被广泛用于报告这些算法的准确性。但是,还应当考虑其他多个参数,包括敏感性和阳性预测值。如没有良好的预测值和可复制的结果,AI 算法不太可能被临床医生采用。8

人工智能算法的可扩展性和可推广性是医疗照护领域内的另一大挑战。虽然电子健康记录是采用其中许多算法的主要手段,但不良的接口界面、对 IT 团队的支持有限以及缺乏集成解决方案,仍然限制了其采用。

一些组织的营销和炒作也产生了负面影响,并导致许多临床医生对 AI 失去了信任。一些经过充分研究的突破被大肆宣传,以利用当前与 AI 相关的市场价值。在伦敦风险投资公司 Marsh & McLennan Companies, Inc. (MMC) 对使用 AI 的欧洲初创公司进行的一项调查中,40% 的初创公司实际上并未将 AI 用作其产品的一部分。9

AI 确实有希望为医疗照护提供可能更安全的解决方案 — 通过以有效和可重复的方式使用不断增加的数据体量。但是要让这一潜力得以发挥,需要临床医生的领导和严格的临床验证,同时还要开发和部署AI算法(表1)。

表 1:使 AI 有效应用于医疗照护的解决方案

以患者和照护人员为中心的做法不会造成伤害
临床医生领导
严格的模型开发和测试
可解释的或可解读的解决方案 – 避免黑箱
可推广性和可扩展性的临床验证
成本—效益高的解决方案

我们仍处在医疗照护用 AI 算法的研究和开发早期阶段。很明显,AI 已呈指数级增长,而且在不久的将来,这种增长速度可能会继续下去。我们需要投入临床、信息技术和财政资源来有效利用这些卓越的算法。临床医师,尤其是放射医师和肿瘤医师,已经在引领许多人工智能算法的开发,以避免准备不充分的解决方案悄悄潜入他们的工作环境。麻醉专业人员和围术期医生已率先采用新技术,生活在数据丰富的环境中,他们还需要领导研究、开发和部署可持续AI算法,以便为患者提供更安全的照护。

 

Mathur 博士是俄亥俄州克利夫兰市克利夫兰诊所麻醉学研究所全身麻醉科的在职麻醉师/重症监护医师和质量改进官。


作者没有利益冲突需要披露。


参考文献

  1. Brooks R. https://www.technologyreview.com/s/609048/the-seven-deadly-sins-of-ai-predictions/. MIT technology review. 2017. Accessed December 9, 2019.
  2. Panetta K. https://www.gartner.com/smarterwithgartner/5-trends-appear-on-the-gartner-hype-cycle-for-emerging-technologies-2019/. Accessed August 29, 2019.
  3. Rajpurkar P, Irvin J, Ball RL, et al. Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists. PLoS Med. 2018;15:e1002686.
  4. Zech JR, Badgeley MA, Liu M, et al. Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLoS Med. 2018;15:e1002683.
  5. Oakden-Rayner L. Exploring large-scale public medical image datasets. Acad Radiol. 2019.
  6. Tomasev N, Glorot X, Rae JW, et al. A clinically applicable approach to continuous prediction of future acute kidney injury. Nature. 2019;572:116–119.
  7. Obermeyer Z, Powers B, Vogeli C, et al. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366:447–453.
  8. Ginestra JC, Giannini HM, Schweickert WD, et al. Clinician perception of a machine learning-based early warning system designed to predict severe sepsis and septic shock. Crit Care Med. 2019;47:1477–1484.
  9. Olson P. https://www.forbes.com/sites/parmyolson/2019/03/04/nearly-half-of-all-ai-startups-are-cashing-in-on-hype/#454f99e7d022. Forbes. Accessed March 4, 2019.