期刊文章详细信息
文献类型:期刊文章
Pan Xiaoying;Chen Liu;Yu Huimin;Zhao Yizhe;Xiao Kangning(School of Computer Science&Technology,Xi’an University of Posts&Telecommunications,Xi’an 710121,China;Shaanxi Key Laboratory of Network Data Analysis&Intelligent Processing,Xi’an University of Posts&Telecommunications,Xi’an 710121,China)
机构地区:[1]西安邮电大学计算机学院,西安710121 [2]西安邮电大学陕西省网络数据分析与智能处理重点实验室,西安710121
基 金:国家自然科学基金资助项目(61373116)。
年 份:2020
卷 号:37
期 号:4
起止页码:961-965
语 种:中文
收录情况:AJ、BDHX、BDHX2017、CSCD、CSCD_E2019_2020、EBSCO、IC、JST、PROQUEST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊
摘 要:随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。
关 键 词:网络爬虫 主题爬虫 相似度 网页内容 链接分析
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...