期刊文章详细信息
文献类型:期刊文章
机构地区:[1]福建江夏学院电子信息科学系,福建福州350108 [2]福州大学数学与计算机科学学院,福建福州350108
基 金:福建省自然科学基金资助项目(2010J05133);福建江夏学院青年项目(2010C046);福州大学科技专项启动基金(2010-XQ-22)
年 份:2011
期 号:9
起止页码:1-4
语 种:中文
收录情况:IC、ZGKJHX、普通刊
摘 要:主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
关 键 词:搜索引擎 主题网络爬虫 相似度 向量空间模型 HTML标签
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...