期刊文章详细信息
基于频繁项集的海量短文本聚类与主题抽取 ( EI收录)
Mass of Short Texts Clustering and Topic Extraction Based on Frequent Itemsets
文献类型:期刊文章
机构地区:[1]武汉大学计算机学院,武汉430072 [2]武汉大学深圳研究院,广东深圳518057 [3]软件工程国家重点实验室(武汉大学),武汉430072
基 金:国家自然科学基金项目(61472291;61303115;61272110);2013年深圳知识创新计划基础研究项目
年 份:2015
卷 号:52
期 号:9
起止页码:1941-1953
语 种:中文
收录情况:AJ、BDHX、BDHX2014、CSA-PROQEUST、CSCD、CSCD2015_2016、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。
关 键 词:海量 短文本 频繁项集 聚类 主题抽取
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...