期刊文章详细信息
文献类型:期刊文章
机构地区:[1]晋中学院计算机科学与技术学院,山西晋中030600 [2]山西大学计算机与信息技术学院,太原030006
基 金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) ;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20041041);山西省留学回国人员基金项目(No.2002004)。
年 份:2007
卷 号:43
期 号:6
起止页码:119-121
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。
关 键 词:新闻网页 主题内容抽取 网页去重 权值计算
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...