专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202311336303.6
申 请 日:20231016
申 请 人:华扬联众数字技术股份有限公司
申请人地址:410000 湖南省长沙市岳麓区天顶街道环湖路1177号方茂苑(二期)13栋房产915室
公 开 日:20231219
公 开 号:CN117252184A
代 理 人:刘美莲
代理机构:北京维正专利代理有限公司
语 种:中文
摘 要:本申请涉及一种文本相似度的计算方法、装置、电子设备。该方法包括:获取待处理文本,将待处理文本预处理,得到文本关键词;根据每一文本关键词在待处理文本中出现的概率,确定待处理文本的文本信息熵;根据待处理文本,确定对比文本,将对比文本预处理,得到目标关键词;将文本关键词、目标关键词进行向量转化,分别得到对应的词向量以及目标词向量,利用词向量及目标词向量,计算余弦相似度;根据文本信息熵,将余弦相似度进行加权平均处理,得到处理后的相似度。通过确定待处理文本的相似度,利用文本信息熵,将得到的余弦相似度进行加权平均处理,可以使极差变小,更好地凸显相似度,从而提高相似度结果的准确性,减少计算误差。
主 权 项:1.一种文本相似度的计算方法,其特征在于,包括:获取待处理文本,并将所述待处理文本进行预处理,得到文本关键词;根据每一文本关键词在所述待处理文本中出现的概率,确定所述待处理文本的文本信息熵;根据所述待处理文本,确定对比文本,并将所述对比文本进行预处理,得到目标关键词;将所述文本关键词、所述目标关键词进行向量转化,得到所述文本关键词对应的词向量以及所述目标关键词对应的目标词向量,并利用所述词向量及所述目标词向量,计算余弦相似度;根据所述文本信息熵,将所述余弦相似度进行加权平均处理,得到处理后的相似度。
关 键 词:文本 文本关键词 余弦相似度 文本信息 相似度 向量 目标关键词 文本预处理 加权平均 词向量 目标词 文本相似度 相似度结果 电子设备 计算误差 变小 极差 概率 申请 转化
IPC专利分类号:G06F40/194;G06F40/279
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...