登录    注册    忘记密码

期刊文章详细信息

ChatGPT中文性能测评与风险应对    

ChatGPT Performance Evaluation on Chinese Language and Risk Measures

  

文献类型:期刊文章

作  者:张华平[1] 李林翰[1] 李春锦[1]

Zhang Huaping;Li Linhan;Li Chunjin(School of Computer Science,Beijing Institute of Technology,Beijing 100081,China)

机构地区:[1]北京理工大学计算机学院,北京100081

出  处:《数据分析与知识发现》

基  金:北京市自然科学基金(项目编号:4212026);基础加强计划技术领域基金(项目编号:2021-JCJQ-JJ-0059)的研究成果之一。

年  份:2023

卷  号:7

期  号:3

起止页码:16-25

语  种:中文

收录情况:BDHX、BDHX2020、CSCD、CSCD_E2023_2024、CSSCI、CSSCI2023_2024、NSSD、RCCSE、RWSKHX、SCOPUS、ZGKJHX、核心刊

摘  要:【目的】简要介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大。【结果】ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85%以上的准确率,在闭卷问答上出现事实性错误的概率较高。【局限】将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现。由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性。【结论】ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限。

关 键 词:语言模型 ChatGPT  人工智能

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心