期刊文章详细信息

基于语义的档案数据智能分类方法研究
Research on Archive Data Intelligent Classification Based on Semantic

文献类型：期刊文章

作　　者：霍光煜[1] 张勇[1,2] 孙艳丰[1] 尹宝才[1]

HUO Guangyu;ZHANG Yong;SUN Yanfeng;YIN Baocai(Multimedia and Intelligent Software Technology Laboratory,Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;Beijing Transportation Research Center,Beijing 100055,China)

机构地区：[1]北京工业大学信息学部多媒体与智能软件技术北京市重点实验室,北京100124 [2]北京市交通信息中心,北京100055

出　　处：《计算机工程与应用》

基　　金：北京市科技计划(Z171100004417023)。

年　　份：2021

卷　　号：57

期　　号：6

起止页码：247-253

语　　种：中文

收录情况：AJ、BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、ZGKJHX、核心刊

摘　　要：随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息。此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性。面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析。采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联。针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类。在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性。

关键词：LDA特征表示文本聚类 FastText文本分类档案管理

分类号：TP391]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

基于语义的档案数据智能分类方法研究
Research on Archive Data Intelligent Classification Based on Semantic

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

基于语义的档案数据智能分类方法研究 Research on Archive Data Intelligent Classification Based on Semantic

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

基于语义的档案数据智能分类方法研究
Research on Archive Data Intelligent Classification Based on Semantic