目的探索可解释机器学习方法在疾病预测中的应用。方法本研究以脓毒血症死亡风险预测为例,从重症监护医学数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅳ中采集符合纳排标准的19903例脓毒血症(sepsis-3)患者的临床数据,利用决策树、逻辑回归、随机森林、XGBoost、轻量梯度提升机(light gradient boosting machine,LightGBM)模型分别构建脓毒血症死亡预测模型。在此基础上,利用全局可解释方法(特征重要性、部分依赖图、个体条件期望、全局代理模型)和局部可解释方法(局部代理模型和Shapely值)对复杂机器学习模型进行解释,探索影响脓毒血症患者预后的危险因素。结果解释性差的机器学习模型的预测性能[模型LightGBM、随机森林、XGBoost的曲线下面积(area under curve,AUC)值分别为0.913、0.892、0.872]高于具有内在解释性的模型(逻辑回归模型AUC=0.779,决策树模型AUC=0.791),并利用全局解释性方法、局部可解释性方法两种类型的解释方法对机器学习模型决策过程进行解释。结论利用全局解释性方法可以解释在整个特征空间内机器学习模型的响应趋势,利用局部可解释性方法可以解释机器学习模型对特定病例的决策过程。
与医生面对面交流是传统的健康信息传递方式,当前通过网络搜索健康信息已非常普遍[1-2]。美国皮尤研究中心(Pew Research Center)“互联网与美国人生活”项目(Internet &American Life Pro-ject)2010年调查显示,美国80%的用户使用互联网的目的是查询健康信息[3]。我国第八次全国科学素养调查显示,82.7%的公民对“医学与健康”相关的信息最感兴趣,尽管我国公民将互联网作为获取科技信息的渠道的比例低于电视、报纸、与人交谈(26.6%),但比2005年(6.4%)提高了20个百分点[4]。2012年,我国公民健康素养监测首次纳入健康信息素养,强化公众主动获取健康信息的意识和技能,包括居民获取医疗卫生信息、处理媒体健康信息、理解药品说明书、理解医学科普文章等方面的能力。但居民健康信息素养水平仅为18.16%[5]。目前,国内外很多临床医生、科学家、研究机构、医院或商业机构都在创办并维护健康信息网站。但国内健康信息发布与传播缺乏统一监管,其信息质量、可靠性、可读性等得不到有效保障。