登录    注册    忘记密码

期刊文章详细信息

基于语义的档案数据智能分类方法研究    

Research on Archive Data Intelligent Classification Based on Semantic

  

文献类型:期刊文章

作  者:霍光煜[1] 张勇[1,2] 孙艳丰[1] 尹宝才[1]

HUO Guangyu;ZHANG Yong;SUN Yanfeng;YIN Baocai(Multimedia and Intelligent Software Technology Laboratory,Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;Beijing Transportation Research Center,Beijing 100055,China)

机构地区:[1]北京工业大学信息学部多媒体与智能软件技术北京市重点实验室,北京100124 [2]北京市交通信息中心,北京100055

出  处:《计算机工程与应用》

基  金:北京市科技计划(Z171100004417023)。

年  份:2021

卷  号:57

期  号:6

起止页码:247-253

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、ZGKJHX、核心刊

摘  要:随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息。此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性。面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析。采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联。针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类。在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性。

关 键 词:LDA特征表示  文本聚类 FastText文本分类  档案管理

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心