期刊文章详细信息
应用随机森林和支持向量机对三阴性乳腺癌基因数据的降维和筛选
Dimensionality Reduction and Screening of Triple Negative Breast Cancer Related Genes Using Random Forest and Support Vector Machine
文献类型:期刊文章
Qin Pu;Guo Zhiwang;Guo Weiheng(Department of Epidemiology and Statistics,School of Public Health,Hebei Medical University(050017),Shijiazhuang)
机构地区:[1]河北医科大学公共卫生学院流行病与卫生统计学教研室,050017 [2]河北省环境与人群健康重点实验室 [3]河北医科大学公共卫生学院劳动卫生与环境卫生教研室
年 份:2020
卷 号:37
期 号:3
起止页码:389-394
语 种:中文
收录情况:BDHX、BDHX2017、CSCD、CSCD2019_2020、JST、RCCSE、ZGKJHX、核心刊
摘 要:目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。
关 键 词:高维转录组数据 随机森林 支持向量机 向前变量选择法
分 类 号:R737.9] TP181[临床医学类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...