专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201510138097.7
申 请 日:20150326
申 请 人:无锡中科泛在信息技术研发中心有限公司
申请人地址:214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座
公 开 日:20150624
公 开 号:CN104731923A
代 理 人:殷红梅;刘品超
代理机构:无锡市大为专利商标事务所(普通合伙)
语 种:中文
摘 要:本发明提供一种互联网商品评论挖掘本体词库的构建方法,包括下述步骤:步骤1,属性词本体词库的构建:获取商品评论,按照商品类别,利用分词方法和词性标注方法提取名词,形成属性词本体词库;步骤2,评价词本体词库的构建:步骤3,否定词本体词库的构建:收集否定词,构建否定词本体词库;步骤4,搭配情感词本体词库的构建:根据网上各种基于类别的商品评论,对评论中的搭配特征词配上相对应的搭配情感词,从而构建搭配情感词本体词库;步骤5,程度副词本体词库的构建:收集程度副词,所述程度副词用于修饰情感词,并给各程度副词赋予强度级别和强度值;步骤6,停用词本体词库的构建。本发明能有效地提升查询效率和命中率。
主 权 项:1.一种互联网商品评论挖掘本体词库的构建方法,其特征在于,包括下述步骤: 步骤1,属性词本体词库的构建:获取商品评论,按照商品类别,利用分词方法和词性标注方法提取名词,形成属性词本体词库; 步骤2,评价词本体词库的构建:分别构建褒义词本体词库和贬义词本体词库; 步骤3,否定词本体词库的构建:收集否定词,构建否定词本体词库; 步骤4,搭配情感词本体词库的构建:根据网上各种基于类别的商品评论,对评论中的搭配特征词配上相对应的搭配情感词,从而构建搭配情感词本体词库; 步骤5,程度副词本体词库的构建:收集程度副词,所述程度副词用于修饰情感词,并给各程度副词赋予强度级别和强度值; 步骤6,停用词本体词库的构建:对获取的商品评论进行分词,对每条评论计算各个词语的特征频率TF,TF为词语在评论文本中出现的频率,选出TF高的词语;针对每个词语,计算文档频率DF,DF是评论文本集中含有特征词语的文本个数与总文本数的比值,选出DF高的词语,在这些词语中人工选出停用词。
关 键 词:词库 程度副词 搭配 情感 属性词 查询效率 词性标注 分词方法 强度级别 商品类别 强度值 特征词 命中率 修饰 名词 互联网 挖掘 评价
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...