期刊文章详细信息
文献类型:期刊文章
TANG Shuang;ZHANG Lingxiao;ZHAO Junfeng;XIE Bing;ZOU Yanzhen(School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;Key Laboratory of High Confidence Software Technologies, Ministry of Education, Beijing 100871, China;Peking University Information Technology Institute (Tianjin Binhai), Tianjin 300450, China)
机构地区:[1]北京大学信息科学技术学院,北京100871 [2]高可信软件技术教育部重点实验室,北京100871 [3]北京大学(天津滨海)新一代信息技术研究院,天津300450
基 金:国家自然科学基金Nos.61472007;91646107~~
年 份:2019
卷 号:13
期 号:5
起止页码:742-752
语 种:中文
收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD2019_2020、IC、JST、ZGKJHX、核心刊
摘 要:随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性。
关 键 词:主题建模技术 潜在狄利克雷分布(LDA) 结构化数据分析 可视化
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...