期刊文章详细信息
文献类型:期刊文章
机构地区:[1]东北大学自然语言处理实验室,辽宁沈阳110004
基 金:国家自然科学基金;微软亚洲研究院联合资助项目 (6 0 2 6 0 319);教育部科学技术研究重点资助项目 (10 4 0 6 5 ) ;国家自然科学基金资助项目 (6 0 4 714 0 )
年 份:2005
卷 号:19
期 号:2
起止页码:86-92
语 种:中文
收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明 ,在相同的手工训练语料的条件下 ,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势 ,仅使用每类10 0篇种子训练集 ,分类结果的F1值为 70 5 6 % ,比传统模型高出 4 70 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。
关 键 词:计算机应用 中文信息处理 文本分类 最大熵模型 权重因子
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...