专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN202110611007.7
申 请 日:20210602
申 请 人:新东方教育科技集团有限公司
申请人地址:100080 北京市海淀区海淀中街6号9层
公 开 日:20210629
公 开 号:CN113051364A
代 理 人:彭久云
代理机构:11105 北京市柳沈律师事务所
语 种:中文
摘 要:本公开提供一种处理重复题目的方法与装置以及电子设备和存储介质,该方法包括:获取包括多个待选题目的题库;基于多个待选题目创建数据索引结构;获取目标题目,为目标题目创建索引比较对象集合;通过在数据索引结构中分别查找目标题目的索引比较对象集合中的每个复合特征,用以获取对应目标题目的重复题目的标识信息,其中,复合特征由对应题目的题干的词语特征与题目类型和/或科目构成。本公开通过将题目题干的词语特征与题目的题目类型和/或科目构成复合特征,并利用复合特征快速建立数据索引结构,以实现对所有题目的索引,从而能快速、准确地实现大规模题库的去重,避免人工干预,大量减少人力成本。
主 权 项:1.一种处理重复题目的方法,包括:获取包括多个待选题目的题库;基于所述多个待选题目创建数据索引结构,包括:获取所述多个待选题目中每个待选题目的至少一个第一复合特征,得到每个所述待选题目与对应第一复合特征的第一映射关系,其中,所述第一复合特征由对应的待选题目的题干的至少一个第一词语特征中的一个或多个与所述待选题目的题目类型和/或科目构成,使用所述多个待选题目中每个待选题目的每个第一复合特征以及基于所述多个待选题目中每个待选题目的第一映射关系,形成所述多个待选题目的所述数据索引结构;获取目标题目,为所述目标题目创建索引比较对象集合,包括:获取所述目标题目的题干的至少一个第二词语特征,通过将所述至少一个第二词语特征中的一个或多个与所述目标题目的题目类型和/或科目构成第二复合特征,得到第二复合特征集合,使用所述目标题目的所述第二复合特征集合以形成所述索引比较对象集合;通过在所述数据索引结构中分别查找所述目标题目的所述索引比较对象集合中的每个所述第二复合特征,用以获取对应所述目标题目的重复题目的标识信息。
关 键 词:题目 复合特征 数据索引结构 索引 词语特征 对象集合 题目类型 题库 题干 科目 标识信息 查找目标 存储介质 电子设备 获取目标 快速建立 人工干预 人力成本 重复 去重 创建
IPC专利分类号:G06F16/31(20190101);G06F40/289(20200101);G06K9/62(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...