期刊文章详细信息
文献类型:期刊文章
LI Hailin ZOU Jinchuan(Department of Information Systems, Huaqiao University, Quanzhou 362021, China Research Center of Applied Statistics and Big Data, Huaqiao University, Xiamen 361021, China)
机构地区:[1]华侨大学信息管理系,福建泉州362021 [2]华侨大学现代应用统计与大数据研究中心,福建厦门361021
基 金:国家自然科学基金项目(61300139);福建省自然科学基金项目(2015J01581);华侨大学中青年教师科研提升计划项目(ZQN-PY220);华侨大学研究生科研创新能力培育计划项目(1511307006)
年 份:2017
卷 号:12
期 号:4
起止页码:556-562
语 种:中文
收录情况:BDHX、BDHX2014、CSCD、CSCD2017_2018、IC、JST、RCCSE、ZGKJHX、核心刊
摘 要:针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法,通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明,新方法在聚类与分类实验中均能取得较好的实验结果,相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。
关 键 词:文本挖掘 语义分析 分类词典 关键词提取 词语编码 相似性度量 聚类 分类
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...