期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京师范大学中文信息处理研究所,北京100875 [2]北京师范大学文学院,北京100875
基 金:863计划(2012AA011104)资助
年 份:2015
卷 号:51
期 号:2
起止页码:262-268
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CAS、CSCD、CSCD2015_2016、EI、IC、INSPEC、JST、MR、PROQUEST、RCCSE、RSC、SCOPUS、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础,并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量,通过卡方检验进行词语特征选择,最后基于朴素贝叶斯和支持向量机算法构造文本分类器,取得较好的题材分类效果。此外,还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设,为相关诗歌本体研究提供了科学依据。
关 键 词:唐诗 题材 文本分类 卡方检验 朴素贝叶斯 支持向量机
分 类 号:I207.22]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...