期刊文章详细信息
基于正则化KL距离的交叉验证折数K的选择
A Selection Criterion of Fold K in Cross-validation Based on Regularized KL Distance
文献类型:期刊文章
CHU Rong-yan;WANG Yu;YANG Xing-li;LI Ji-hong(School of Mathematical Sciences,Shanxi University,Taiyuan 030006,China;School of Modern Educational Technology,Shanxi University,Taiyuan 030006,China;School of Software,Shanxi University,Taiyuan 030006,China)
机构地区:[1]山西大学数学科学学院,山西太原030006 [2]山西大学现代教育技术学院,山西太原030006 [3]山西大学软件学院,山西太原030006
基 金:山西省应用基础项目研究计划(201901D111034,201801D211002);国家自然科学基金资助项目(61806115)。
年 份:2021
卷 号:31
期 号:3
起止页码:52-57
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不是这样。因此,可以通过度量训练集和测试集的分布一致性来进行K折交叉验证折数K的选择。直观地,KL(Kullback-Leibler)距离是一种合适的度量方法,因为它度量了两个分布之间的差异。然而直接基于KL距离进行K的选择时,从多个数据实验结果发现随着K的增加KL距离也在增大,显然这是不合适的。为此,提出了一种基于正则化KL距离的K折交叉验证折数K的选择准则,通过最小化此正则KL距离来选择合适的折数K。进一步多个真实数据实验验证了提出准则的有效性和合理性。
关 键 词:K折交叉验证 折数K的选择 KL(Kullback-Leibler)距离 正则化 机器学习
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...