专利详细信息

一种虚拟数字人的交互方法及装置

文献类型：专利

专利类型：发明专利

是否失效：否

是否授权：否

申请号：CN202311612001.7

申请日：20231129

发明人：张金山张桓尹建伟

申请人：浙江大学浙江大学软件学院(宁波)管理中心(宁波软件教育中心)

申请人地址：310058 浙江省杭州市西湖区余杭塘路866号

公开日：20240227

公开号：CN117612529A

代理人：刘静

代理机构：杭州求是专利事务所有限公司

语　　种：中文

摘　　要：本发明公开了一种虚拟数字人的交互方法及装置，包括初始化语义不完整标志位和声音采集和图像采集，使用语音活动检测算法，检测降噪后的有效用户声音是否为人声，将客户端中用户的声音转换成文字，并根据语义不完整标志位进行预处理，并判断保存的文本语义是否完整，进行流式回复生成或生成针对语义完整的问句，并调整语义不完整标志位；进行语音生成并加入虚拟数字人的待生成列表和连续帧图片生成，生成正在说话的虚拟人头部身体连续帧图片或是沉默的虚拟人头部身体连续帧图片；将生成的图像和语音传输到客户端进行展示并从采集阶段重新循环。本发明能够降低噪音的误识别率，保证用户语句的语义完整并提高语音的生成速度。

主权项：1.一种虚拟数字人的交互方法，其特征在于，该方法包括以下步骤：/nS1、初始化语义不完整标志位；/nS2、进行虚拟数字人交互循环，具体为：/nS2.1、声音采集和图像采集，通过人眼注视屏幕检测算法判断此时采集的声音是否为有效用户声音，并对有效用户声音进行降噪；/nS2.2、使用语音活动检测算法，检测降噪后的有效用户声音是否为人声，直至检测到的人声与之前累积的人声拼接后时长大于等于识别阈值；/nS2.3、对大于识别阈值的人声片段进行识别，若能够识别则将人声保存为文本，若无法识别则丢弃语音并结束循环；/nS2.4、根据语义不完整标志位进行预处理，并判断保存的文本语义是否完整，对有完整语义的语音进行流式回复生成，对标点进行截断并将语义不完整标志位设置为false；对无完整语义的语音生成针对语义完整的问句，进行标点截断并将语义不完整标志位设置为ture；/nS2.5、对标点截断后的文本进行语音生成并加入虚拟数字人的待生成列表，根据待生成列表进行连续帧图片生成，生成正在说话的虚拟人头部身体连续帧图片或是沉默的虚拟人头部身体连续帧图片；/nS2.6、将生成的图像和语音传输到客户端进行展示，并转到步骤S2.1重新进行声音采集和图像采集。/n

关键词：语义标志位连续帧虚拟数字语义完整客户端人头部虚拟预处理语音活动检测降低噪音声音采集声音转换图片生成图像采集文本语义用户语句有效用户语音传输语音生成初始化误识别降噪流式算法回复语音采集图像保存说话检测图片展示保证

IPC专利分类号：G10L15/22;G10L15/18;G10L15/26;G10L21/0208

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

专利详细信息

一种虚拟数字人的交互方法及装置

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：