登录    注册    忘记密码

期刊文章详细信息

基于语义相关度主题爬虫的语料采集方法    

Corpus Collection Based on Semantic Relevancy Focused Crawler

  

文献类型:期刊文章

作  者:周昆[1,2] 王钊[3] 于碧辉[1,2]

ZHOU Kun;WANG Zhao;YU Bi-Hui(University of Chinese Academy of Sciences,Beijing 100049,China;Shenyang Institute of Computing Technology,Chinese Academy of Sciences,Shenyang 110168,China;Center for Information Technology,Shenyang State Tax Bureau,Shenyang 110013,China)

机构地区:[1]中国科学院大学,北京100049 [2]中国科学院沈阳计算技术研究所,沈阳110168 [3]沈阳市国家税务局信息中心,辽宁沈阳110013

出  处:《计算机系统应用》

年  份:2019

卷  号:28

期  号:5

起止页码:190-195

语  种:中文

收录情况:CSA、IC、ZGKJHX、普通刊

摘  要:针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.

关 键 词:生语料采集  语义相关度主题爬虫  页面信息相关度  URL结构信息  

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心