期刊文章详细信息
文献类型:期刊文章
机构地区:[1]长春工业大学计算机科学与工程学院,长春130012 [2]长春工业大学软件职业技术学院,长春130012
基 金:吉林省科技厅自然科学基金资助项目(20130101060JC)
年 份:2014
卷 号:32
期 号:1
起止页码:88-94
语 种:中文
收录情况:AJ、CAS、CSA、CSA-PROQEUST、IC、INSPEC、JST、RCCSE、ZGKJHX、普通刊
摘 要:为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本特征项加权方法 TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进,在此基础上结合网页的半结构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法。经实验验证,该方法可有效提高主题网页的召回率和准确率。
关 键 词:词频-逆向文件频率 向量空间模型 特征项 相关度计算 信息增益
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...