登录    注册    忘记密码

期刊文章详细信息

专利文本主题建模中领域停用词自动选取研究    

Automatic Selection of Domain-Specific Stopwords in Topic Model of Patent Text

  

文献类型:期刊文章

作  者:俞琰[1,2] 赵乃瑄[1]

Yu Yan;Zhao Nianxuan(Information Service Department, Nanjing Teeh University, Nanjing 211816;Computer Science department, Southeast University Chengxian College, Nanjing 211816)

机构地区:[1]南京工业大学信息服务部,南京210009 [2]东南大学成贤学院电子与计算机学院,南京211816

出  处:《图书情报工作》

基  金:教育部人文社科规划项目项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073);国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一

年  份:2018

卷  号:62

期  号:11

起止页码:120-126

语  种:中文

收录情况:BDHX、BDHX2017、CSSCI、CSSCI2017_2018、JST、RCCSE、RWSKHX、ZGKJHX、核心刊

摘  要:[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。

关 键 词:专利文本  主题建模 领域停用词  自动选取  

分 类 号:G202]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心