专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201510138316.1
申 请 日:20150326
申 请 人:无锡中科泛在信息技术研发中心有限公司
申请人地址:214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座
公 开 日:20150617
公 开 号:CN104715049A
代 理 人:殷红梅;刘品超
代理机构:无锡市大为专利商标事务所(普通合伙)
语 种:中文
摘 要:本发明提供一种基于本体词库的商品评论属性词抽取方法,包括下述步骤:步骤1,对评论文本预处理:首先将每条评论文本分割为不同的子句;其次,对每条评论的各个子句,结合属性词本体词库,进行分词,然后进行词性标注,去停用词,接着在子句中搜索名词作为该条评论的属性词候选集;步骤2,对属性词候选集中的属性词进行归类:步骤3,在各个属性词候选集中,合并属性词的同义词类:步骤4,经过对属性词候选集中的合并操作之后,将每个同义词类的中心词认定为属性词候选集对应的子句的属性词。本发明相比于传统的文本处理提取属性词的方法效率更高。
主 权 项:1.一种基于本体词库的商品评论属性词抽取方法,其特征在于,包括下述步骤: 步骤1,对评论文本预处理:首先将每条评论文本分割为不同的子句;其次,对每条评论的各个子句,结合属性词本体词库,进行分词,然后进行词性标注,去停用词,接着在子句中搜索名词作为该条评论的属性词候选集; 步骤2,对属性词候选集中的属性词进行归类:对具体一种商品,遍历与这种商品相关的所有商品评论的属性词候选集,各自对每个属性词候选集中的属性词进行归类操作;归类后,对每个属性词候选集,会生成若干同义词类,每个同义词类是属性词本体词库中某个对应的同义词类的子集; 步骤3,在各个属性词候选集中,合并属性词的同义词类; 步骤4,经过对属性词候选集中的合并操作之后,将每个同义词类的中心词认定为属性词候选集对应的子句的属性词。
关 键 词:属性词 子句 同义词 词库 预处理 词性标注 文本处理 文本分割 中心词 合并 分词 抽取 名词 文本 认定
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...