登录    注册    忘记密码

期刊文章详细信息

基于BERT模型的中文短文本分类算法    

Chinese Short Text Classification Algorithm Based on BERT Model

  

文献类型:期刊文章

作  者:段丹丹[1] 唐加山[1] 温勇[1] 袁克海[1,2]

DUAN Dandan;TANG Jiashan;WEN Yong;YUAN Kehai(College of Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Department of Psychology,University of Notre Dame,South Bend 46556,USA)

机构地区:[1]南京邮电大学理学院,南京210023 [2]圣母大学心理学系,美国南本德46556

出  处:《计算机工程》

基  金:南京邮电大学横向科研项目(2018外095)。

年  份:2021

卷  号:47

期  号:1

起止页码:79-86

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CAS、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊

摘  要:针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。

关 键 词:中文短文本分类  基于Transformer的双向编码器表示  Softmax回归模型  TextCNN模型  word2vec模型  

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心