专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202410534066.2
申 请 日:20240430
申 请 人:山东海量信息技术研究院
申请人地址:250000 山东省济南市高新技术开发区国家信息通信国际创新园
公 开 日:20240531
公 开 号:CN118114773A
代 理 人:刘翠香
代理机构:北京集佳知识产权代理有限公司
语 种:中文
摘 要:本发明涉及计算机技术领域,公开了一种文本生成方法、装置、设备及计算机程序产品,包括:获取由至少两种不同类型的神经网络混合组成的文本生成模型的整体架构信息;利用整体架构信息结合对应的计算设备信息,对模型进行按层切分;根据切分后的设备分配情况,将当前训练阶段的反向传播部分的梯度计算过程和前一训练阶段的计算过程进行合并,确定交由前一训练阶段分配的计算设备共同计算,以生成流水线并行调度策略;采用该策略对模型进行训练,并将待处理文本数据输入至训练好的模型,输出相应的文本生成结果。这样可以节约计算设备,显著减少计算设备间的数据传输过程,缩短通信时间,实现流水线并行训练和推理上的加速,提高硬件运算效率。
主 权 项:1.一种文本生成方法,其特征在于,所述方法包括:获取由至少两种不同类型的神经网络混合组成的文本生成模型的整体架构信息;其中,不同类型的神经网络在前向传播部分的梯度计算过程对应的计算设备不同;利用所述文本生成模型的整体架构信息结合对应的计算设备信息,对所述文本生成模型中的神经网络进行按层切分,切分成多个分段;各分段与沿前向传播方向排序的各训练阶段一一对应;根据所述文本生成模型切分后的设备分配情况,将当前训练阶段的反向传播部分的梯度计算过程和前一训练阶段的计算过程进行合并,确定交由前一训练阶段分配的计算设备共同计算,以生成流水线并行调度策略;采用所述流水线并行调度策略对所述文本生成模型进行训练;将待处理文本数据输入至训练好的所述文本生成模型,输出相应的文本生成结果。
关 键 词:计算设备 文本生成 训练阶段 整体架构 流水线 计算机程序产品 计算机技术领域 数据传输过程 并行调度 并行训练 反向传播 计算过程 设备分配 神经网络 梯度计算 文本数据 信息结合 硬件运算 推理 输出 合并 节约 分配 通信
IPC专利分类号:G06N5/04; G06N3/084; G06N3/045; G06N3/08; G06F9/48
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...