专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201510138316.1
申 请 日:20150326
申 请 人:无锡中科泛在信息技术研发中心有限公司
申请人地址:214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座
公 开 日:20171128
公 开 号:CN104715049B
代 理 人:殷红梅;刘品超
代理机构:32104 无锡市大为专利商标事务所(普通合伙)
语 种:中文
摘 要:本发明提供一种基于本体词库的商品评论属性词抽取方法,包括下述步骤:步骤1,对评论文本预处理:首先将每条评论文本分割为不同的子句;其次,对每条评论的各个子句,结合属性词本体词库,进行分词,然后进行词性标注,去停用词,接着在子句中搜索名词作为该条评论的属性词候选集;步骤2,对属性词候选集中的属性词进行归类:步骤3,在各个属性词候选集中,合并属性词的同义词类:步骤4,经过对属性词候选集中的合并操作之后,将每个同义词类的中心词认定为属性词候选集对应的子句的属性词。本发明相比于传统的文本处理提取属性词的方法效率更高。
主 权 项:1.一种基于本体词库的商品评论属性词抽取方法,其特征在于,包括下述步骤:步骤1,对评论文本预处理:首先将每条评论文本分割为不同的子句;其次,对每条评论的各个子句,结合属性词本体词库,进行分词,然后进行词性标注,去停用词,接着在子句中搜索名词作为该条评论的属性词候选集;步骤2,对属性词候选集中的属性词进行归类:对具体一种商品,遍历与这种商品相关的所有商品评论的属性词候选集,各自对每个属性词候选集中的属性词进行归类操作;归类后,对每个属性词候选集,会生成若干同义词类,每个同义词类是属性词本体词库中某个对应的同义词类的子集;步骤3,在各个属性词候选集中,合并属性词的同义词类;步骤4,经过对属性词候选集中的合并操作之后,将每个同义词类的中心词认定为属性词候选集对应的子句的属性词;步骤2中,对属性词候选集中的属性词进行归类操作的方法为:查找属性词本体词库,获取并返回词语w所在同义词类的中心词W;将中心词W代表的同义词类确定为词语w的同义词类;步骤3中,合并的方法为:属性词候选集中,如果两个同义词类A和B的中心词是属性词本体词库中处于同一层次的词,且具有相同的上一层词语,且同义词类A和B内的词语数量都小于设定阈值,则将同义词类A和B合并,合并后新的同义词类的中心词是同义词类A和B的中心词在属性词本体词库中上一层的词语;如果两个同义词类A和B的中心词在属性词本体词库的层次关系上是从属关系,且同义词类A和B内的词语数量都小于设定阈值,则将同义词类A和B合并,合并后新的同义词类的中心词是同义词类A和B的中心词在属性词本体词库的层次关系上位于从属关系上层的中心词。
关 键 词:同义词 评论文本 候选集 词库 预处理 词性标注 合并操作 商品评论 文本处理 传统的 停用词 中心词 分词 归类 评论 抽取 搜索 合并 分割
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...