期刊文章详细信息
文献类型:期刊文章
机构地区:[1]大连理工大学信息检索研究室,辽宁大连116024
基 金:国家自然科学基金资助项目(60673039;60973068);国家社科基金资助项目(08BTQ025);国家863高科技计划资助项目(2006AA01Z151);教育部留学回国人员科研启动基金;高等学校博士学科点专项科研基金资助项目(20090041110002)
年 份:2011
卷 号:25
期 号:1
起止页码:41-47
语 种:中文
收录情况:BDHX、BDHX2008、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。
关 键 词:BLOG 博文 LDA 主题 垃圾评论
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...