期刊文章详细信息
基于改进HTML-Tree的中文网页特征向量提取方法
A method of feature selection for Chinese Web page based on improved HTML-Tree
文献类型:期刊文章
机构地区:[1]上海交通大学图像通信与信息处理研究所,上海200240 [2]上海市数字媒体处理与传输重点实验室,上海200240
基 金:国家自然科学基金CNGI项目(CNG1-04-15-2A);上海市科学技术委员会资助项目(05DZ22102)
年 份:2009
卷 号:33
期 号:1
起止页码:10-14
语 种:中文
收录情况:ZGKJHX、普通刊
摘 要:中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键。经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取。该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献。经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度。
关 键 词:HTML-Tree 特征向量 网页分类
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...