登录    注册    忘记密码

专利详细信息

一种虚拟数字人的交互方法及装置       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN202311612001.7

申 请 日:20231129

发 明 人:张金山 张桓 尹建伟

申 请 人:浙江大学 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)

申请人地址:310058 浙江省杭州市西湖区余杭塘路866号

公 开 日:20240227

公 开 号:CN117612529A

代 理 人:刘静

代理机构:杭州求是专利事务所有限公司

语  种:中文

摘  要:本发明公开了一种虚拟数字人的交互方法及装置,包括初始化语义不完整标志位和声音采集和图像采集,使用语音活动检测算法,检测降噪后的有效用户声音是否为人声,将客户端中用户的声音转换成文字,并根据语义不完整标志位进行预处理,并判断保存的文本语义是否完整,进行流式回复生成或生成针对语义完整的问句,并调整语义不完整标志位;进行语音生成并加入虚拟数字人的待生成列表和连续帧图片生成,生成正在说话的虚拟人头部身体连续帧图片或是沉默的虚拟人头部身体连续帧图片;将生成的图像和语音传输到客户端进行展示并从采集阶段重新循环。本发明能够降低噪音的误识别率,保证用户语句的语义完整并提高语音的生成速度。

主 权 项:1.一种虚拟数字人的交互方法,其特征在于,该方法包括以下步骤:/nS1、初始化语义不完整标志位;/nS2、进行虚拟数字人交互循环,具体为:/nS2.1、声音采集和图像采集,通过人眼注视屏幕检测算法判断此时采集的声音是否为有效用户声音,并对有效用户声音进行降噪;/nS2.2、使用语音活动检测算法,检测降噪后的有效用户声音是否为人声,直至检测到的人声与之前累积的人声拼接后时长大于等于识别阈值;/nS2.3、对大于识别阈值的人声片段进行识别,若能够识别则将人声保存为文本,若无法识别则丢弃语音并结束循环;/nS2.4、根据语义不完整标志位进行预处理,并判断保存的文本语义是否完整,对有完整语义的语音进行流式回复生成,对标点进行截断并将语义不完整标志位设置为false;对无完整语义的语音生成针对语义完整的问句,进行标点截断并将语义不完整标志位设置为ture;/nS2.5、对标点截断后的文本进行语音生成并加入虚拟数字人的待生成列表,根据待生成列表进行连续帧图片生成,生成正在说话的虚拟人头部身体连续帧图片或是沉默的虚拟人头部身体连续帧图片;/nS2.6、将生成的图像和语音传输到客户端进行展示,并转到步骤S2.1重新进行声音采集和图像采集。/n

关 键 词:语义  标志位  连续帧  虚拟数字  语义完整  客户端  人头部  虚拟  预处理  语音活动检测 降低噪音  声音采集  声音转换 图片生成  图像采集  文本语义 用户语句  有效用户  语音传输 语音生成  初始化  误识别  降噪  流式  算法  回复  语音 采集  图像  保存  说话  检测  图片 展示  保证  

IPC专利分类号:G10L15/22;G10L15/18;G10L15/26;G10L21/0208

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心