登录    注册    忘记密码

期刊文章详细信息

基于关键短语的文本分类研究    

Text Categorization Based on Key Phrases

  

文献类型:期刊文章

作  者:刘华[1]

机构地区:[1]暨南大学华文学院海外华语研究中心,广东广州510610

出  处:《中文信息学报》

基  金:国家语言资源监测资助项目(L2004-01-01-04)

年  份:2007

卷  号:21

期  号:4

起止页码:34-41

语  种:中文

收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊

摘  要:文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。

关 键 词:计算机应用 中文信息处理 文本分类 关键短语  文本表示 特征项  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心