期刊文章详细信息
文献类型:期刊文章
机构地区:[1]暨南大学华文学院海外华语研究中心,广东广州510610
基 金:国家语言资源监测资助项目(L2004-01-01-04)
年 份:2007
卷 号:21
期 号:4
起止页码:34-41
语 种:中文
收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
关 键 词:计算机应用 中文信息处理 文本分类 关键短语 文本表示 特征项
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...