期刊文章详细信息
文献类型:期刊文章
机构地区:[1]海军指挥学院信息战研究系,江苏南京211800
年 份:2011
卷 号:28
期 号:11
起止页码:264-267
语 种:中文
收录情况:CSA、CSA-PROQEUST、CSCD、CSCD_E2011_2012、IC、JST、ZGKJHX、普通刊
摘 要:为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。
关 键 词:主题网络爬虫 爬行策略 二次爬行 相关度分析
分 类 号:TP311]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...