期刊文章详细信息
文献类型:期刊文章
DUAN Dandan;TANG Jiashan;WEN Yong;YUAN Kehai(College of Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Department of Psychology,University of Notre Dame,South Bend 46556,USA)
机构地区:[1]南京邮电大学理学院,南京210023 [2]圣母大学心理学系,美国南本德46556
基 金:南京邮电大学横向科研项目(2018外095)。
年 份:2021
卷 号:47
期 号:1
起止页码:79-86
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CAS、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊
摘 要:针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。
关 键 词:中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...