期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国科学技术大学计算机科学与技术学院,合肥230027 [2]安徽省计算与通讯软件重点实验室,合肥230027 [3]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
基 金:国家重点基础研究发展计划(973计划)(2004CB318109);国家高技术研究发展计划(863计划)(2007AA11Z240);教育部新世纪优秀人才支持计划(NCET-07-0787)资助~~
年 份:2009
卷 号:35
期 号:7
起止页码:896-902
语 种:中文
收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、EI(收录号:20093212244567)、IC、INSPEC、JST、MR、PUBMED、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:网络短文本聚类是网络内容安全的一种主要处理方法.然而,中文网络短文本固有的关键词词频低、存在大量变形词等特点,使得难以直接使用现有面向长文本的聚类算法.本文提出了一种面向中文网络短文本的基于免疫网络调节的聚类算法.首先,利用抽取的中文词语的N-gram片段的拼音序列来组成一个中文网络短文本的特征表示,从而缓解关键词词频过低和存在变形词对聚类的影响;然后,将网络短文本集构建为一个动态网络,利用免疫网络学习机制来自动发现网络短文本之间的内在关联,获得合适的聚类结果.测试实验表明,相对于传统的聚类方法如K-means,本文的算法能够得到更好的中文网络短文本聚类效果.
关 键 词:网络内容安全 中文网络短文本 聚类 免疫网络
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...