期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京理工大学信息科学技术学院计算机科学工程系,北京100081 [2]中国公安大学信息安全工程系,北京100038
年 份:2005
卷 号:25
期 号:4
起止页码:337-340
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、INSPEC、JST、MR、RCCSE、RSC、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.
关 键 词:停用词 中文停用词表 联合熵
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...