登录    注册    忘记密码

期刊文章详细信息

基于网页内容相似度改进算法的主题网络爬虫    

Focused Crawler Based on Improved Algorithm of Web Content Similarity

  

文献类型:期刊文章

作  者:魏晶晶[1] 杨定达[2] 廖祥文[2]

机构地区:[1]福建江夏学院电子信息科学系,福建福州350108 [2]福州大学数学与计算机科学学院,福建福州350108

出  处:《计算机与现代化》

基  金:福建省自然科学基金资助项目(2010J05133);福建江夏学院青年项目(2010C046);福州大学科技专项启动基金(2010-XQ-22)

年  份:2011

期  号:9

起止页码:1-4

语  种:中文

收录情况:IC、ZGKJHX、普通刊

摘  要:主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。

关 键 词:搜索引擎 主题网络爬虫 相似度 向量空间模型 HTML标签

分 类 号:TP301.6]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心