期刊文章详细信息
文献类型:期刊文章
机构地区:[1]东北大学自然语言处理实验室,沈阳110004
基 金:国家自然科学基金和微软亚洲研究院联合资助项目(60203019);国家自然科学基金项目(60473140);国家教育部科学技术研究重点项目(104065)~~
年 份:2005
卷 号:42
期 号:12
起止页码:2155-2160
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%·
关 键 词:文本分类 知识获取 领域知识 文本表示
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...