期刊文章详细信息
文献类型:期刊文章
机构地区:[1]南京农业大学信息管理系,南京,210095 [2]南京大学信息管理系,南京,210093 [3]南京信息工程大学图书馆,南京,210044
年 份:2005
卷 号:24
期 号:1
起止页码:87-92
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSSCI、CSSCI2004_2005、INSPEC、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值.在我们的Web文本挖掘系统中,进行加权的对比实验表明,此权重方案优于前人的方案.
关 键 词:标引 权方 学科 词频统计 教育 文章标题 题名 WEB文本挖掘 中文网页 网页内容
分 类 号:G633.6[教育学类] TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...