登录    注册    忘记密码

期刊文章详细信息

一种基于词共现的文档聚类算法    

Document Clustering Algorithm Based on Word Co-occurrence

  

文献类型:期刊文章

作  者:常鹏[1,2] 冯楠[1] 马辉[3]

机构地区:[1]天津大学管理与经济学部,天津300072 [2]天津大学信息与网络中心,天津300072 [3]天津城市建设学院管理工程系,天津300384

出  处:《计算机工程》

基  金:国家自然科学基金资助项目(70901054)

年  份:2012

卷  号:38

期  号:2

起止页码:213-214

语  种:中文

收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、ZGKJHX、普通刊

摘  要:为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。

关 键 词:文档聚类 文档模型 词共现 文档相似度 聚类增益  

分 类 号:TP301.6]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心