基金项目: 国家自然科学基金地区基金项目(编号:82560019); 癌症、心脑血管、呼吸和代谢性疾病防治研究国家科技重大专项(编号:2023ZD0506100);兵团指导科技计划项目(编号:2023ZD019);
作者:陈琳;赵璐娜;周玥;王盼盼;李京坤;张文文;张欣欣;邬超;刘冬
关键词:慢性阻塞性肺疾病;风险预测模型;机器学习;逻辑回归;类别不平衡;筛查;
DOI:专辑:医药卫生科技
〔摘 要〕 目的 构建并评估多种机器学习模型用于预测个体罹患慢性阻塞性肺疾病(COPD)的风险,为早期筛查和干预提供数据支持。方法 选取823例研究对象,其中COPD高风险组142例,低风险组681例。收集人口统计学特征、吸烟史、症状(如咳嗽、气短)及慢性阻塞性肺疾病筛查问卷评分等数据。采用4种机器学习算法——逻辑回归、随机森林、支持向量机和XGBoost构建风险预测模型。采用5折交叉验证评估模型性能,评价指标包括准确率、精确率、召回率、F1分数、受试者工作特征曲线下面积(AUC-ROC)和平均精度(AP)。另,进行了特征重要性分析。结果 逻辑回归模型表现出最佳性能(AUC=0.982,AP=0.939),随机森林模型次之(AUC=0.975,AP=0.890)。特征重要性分析显示,吸烟史、呼吸急促症状和体重是关键预测因子。所有模型在识别低风险人群方面均表现出色(精确度>0.93),但在识别高风险人群的能力上存在差异。结论 机器学习模型能有效预测COPD的高风险人群。逻辑回归模型展现出最优的综合性能,能高效识别COPD高危人群,可作为有价值的临床辅助筛查工具。不同模型因其性能特点差异而适用于不同的临床筛查场景,为构建分层、智能化的COPD筛查路径提供了具体的决策依据。