期刊文章详细信息
文献类型:期刊文章
机构地区:[1]天津大学管理与经济学部,天津300072 [2]天津大学信息与网络中心,天津300072 [3]天津城市建设学院管理工程系,天津300384
基 金:国家自然科学基金资助项目(70901054)
年 份:2012
卷 号:38
期 号:2
起止页码:213-214
语 种:中文
收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、ZGKJHX、普通刊
摘 要:为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。
关 键 词:文档聚类 文档模型 词共现 文档相似度 聚类增益
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...