期刊文章详细信息
基于支持向量机与XGboost的成年人群肿瘤患病风险预测研究
Risk Prediction of Cancer in Adult Population Based on Support Vector Machine versus XGboost
文献类型:期刊文章
MA Qianqian;SUN Dongxun;SHI Jinming;HE Xianying;ZHAI Yunkai(The First Affiliated Hospital of Zhengzhou University,Zhengzhou 450052,China;National Engineering Laboratory for Internet Medical Systems and Applications,Zhengzhou 450052,China;School of Management Engineering,Zhengzhou University,Zhengzhou 450001,China)
机构地区:[1]郑州大学第一附属医院,河南省郑州市450052 [2]河南省郑州市互联网医疗系统与应用国家工程实验室,450052 [3]郑州大学管理工程学院,河南省郑州市450001
基 金:河南省高校科技创新团队支持计划项目(20IRTSTHN028);国家重点研发计划项目(2017YFC0909900);河南省重大科技专项(151100310800)。
年 份:2020
卷 号:23
期 号:12
起止页码:1486-1491
语 种:中文
收录情况:BDHX、BDHX2017、CAS、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:背景肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大。但随着医疗大数据的产生,传统的统计预测方法逐渐无法满足需求,有必要尝试开展机器学习等新方法在肿瘤预测领域的应用。目的探讨支持向量机与XGboost和逐步Logistic回归分析在成年人群肿瘤患病风险中的预测价值。方法本研究时间为2011—2015年,数据来源于中国健康与营养调查(CHNS),以我国12个地区(黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆)城乡成年(≥18岁)常住居民为对象,经过数据清理,最终纳入19410人为本研究对象。将研究对象按2∶1分为训练集和测试集,基于逐步Logistic回归分析的变量筛选策略,在训练集上分别建立逐步Logistic回归分析、支持向量机、XGboost肿瘤患病风险预测模型,并在测试集上进行验证。通过比较各模型受试者工作特征曲线(ROC曲线)下面积(AUC),分析各模型预测肿瘤患病风险的性能。结果19410例研究对象中,被诊断为肿瘤患者262例(1.35%)。训练集(n=12919)中含有174例肿瘤患者,测试集(n=6491)含有88例肿瘤患者。逐步Logistic回归分析、支持向量机、XGboost在测试集中预测成年人群患肿瘤的正确率分别为72.96%[95%CI(71.86%,74.04%)]、99.54%[95%CI(99.34%,99.69%)]、70.05%[95%CI(68.92%,71.16%)],AUC分别为76.75%[95%CI(72.35%,81.14%)]、86.32%[95%CI(81.64%,91.00%)]、79.03%[95%CI(74.96%,83.10%)]。支持向量机、XGboost预测成年人群患肿瘤的AUC与Logistic回归模型比较,差异有统计学意义(Z值分别为-2.519、-2.138,P值分别为0.012、0.032);XGboost预测成年人群患肿瘤的AUC低于支持向量机,差异有统计学意义(Z=2.081,P=0.037)。结论支持向量机相较于逐步Logistic回归分析预测成年人群肿瘤患病风险的正确率、灵敏度、特异度、AUC等指标较好,而XGboost未见明显优势,但考虑到逐步Logistic回归分析操作
关 键 词:肿瘤 健康状况 逐步Logistic回归分析 支持向量机 XGboost 预测
分 类 号:R739.9]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...