期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京拓尔思信息技术股份有限公司,北京100101
基 金:国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304);国家自然科学基金项目"网页内容真实性评价研究"(项目编号:61171159);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037);国家科技支撑计划课题"增强型搜索引擎关键技术研究与示范"(项目编号:2011BAH11B03)的研究成果之一
年 份:2013
期 号:2
起止页码:57-62
语 种:中文
收录情况:BDHX、BDHX2011、CSSCI、CSSCI2012_2013、RWSKHX、核心刊
摘 要:从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
关 键 词:突发事件 突发词 文本过滤 绝对聚类
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...