登录    注册    忘记密码

期刊文章详细信息

基于发布时间的新闻网页去重方法研究    

Research on duplicated news webpages deletion method based on issue time

  

文献类型:期刊文章

作  者:罗永莲[1] 张永奎[2]

机构地区:[1]晋中学院计算机科学与技术学院,山西晋中030600 [2]山西大学计算机与信息技术学院,太原030006

出  处:《计算机工程与应用》

基  金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) ;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041);山西省留学回国人员基金项目(No.2002004)。

年  份:2007

卷  号:43

期  号:6

起止页码:119-121

语  种:中文

收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊

摘  要:网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。

关 键 词:新闻网页 主题内容抽取  网页去重 权值计算

分 类 号:TP393]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心