会议论文详细信息
文献类型:会议
作者单位:[1]中国人民大学数据工程与知识工程国家教育部重点实验室 [2]中国人民大学信息学院
基 金:国家自然科学基金No.60603046,60673138;国家高技术研究发展计划(863)No.2008AA01Z120;国家教育部博士点基金No.20090004110002~~
会议文献:NDBC2010第27届中国数据库学术会议论文集A辑二
会议名称:NDBC2010第27届中国数据库学术会议
会议日期:20101013
会议地点:中国北京
主办单位:中国计算机学会数据库专业委员会
出版单位:《计算机科学与探索》杂志社、科学出版社
出版日期:20101013
学会名称:中国计算机学会数据库专业委员会
语 种:中文
摘 要:Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEBSPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。
关 键 词:Web spam检测方法 内容作弊 链接作弊 Co-Training算法
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...