登录    注册    忘记密码

期刊文章详细信息

基于结构与文本关键词相关度的XML网页分类研究  ( EI收录)  

An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency

  

文献类型:期刊文章

作  者:袁家政[1] 须德[1] 鲍泓[2]

机构地区:[1]北京交通大学计算机与信息技术学院,北京100044 [2]北京联合大学信息技术研究所,北京100101

出  处:《计算机研究与发展》

基  金:教育部科学技术研究重点项目(2002KJ124);北京市优秀人才培养资助项目(20051D0502206)~~

年  份:2006

卷  号:43

期  号:8

起止页码:1361-1367

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CSA-PROQEUST、CSCD、CSCD2011_2012、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘  要:针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法·算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类·实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题·

关 键 词:XML分类  文档结构 关键词特征  支持向量机

分 类 号:TP311.135.4]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心