维普机构智库
产品简介
维普机构智库,是以成果展示、长期保存、开放获取、计量评价为设计理念,以提升机构学术影响力为建设目标,以大数据分析和处理为技术保障,以“机构森林体系”为发展方向的,为机构学科建设和智库建设服务的综合性一体化知识组织与传播平台。
适用单位
机 构:文献展示、学科建设、知识管理
科研处:业绩考评、情报服务、决策参考
图书馆:知识服务、资源拓展
学 者:成果整理、学术推广
产品架构
平台底层架构采用的是Apache基金会开发的Hadoop架构,该架构是一种能够对大量数据进行分布式处理的云计算软件框架。能够以一种可靠、高效、可伸缩的方式进行数据处理。
产品竞争力
市场层面
1.数据资源优势
多年数据库提供商背景,可根据用户需求定制并预装对象化数据,最大限度的节省数据化人力成本,帮助用户建立高质量的数据仓库。
2.一体化产品方案
打破自建仓储平台缺乏外界数据对比的尴尬现状,解决传统机构库的信息孤岛问题。搭建基于大数据平台的云端机构森林体系,覆盖全国数千个机构实体。保障开放资源持续共享利用,满足用户多对象多指标的计量及决策需求。
产品层面
1.强大的数据处理能力
● 大数据计算
主题词表、机构词典、作者词典等7个维度指标,涉及10亿量级的数据关系运算。大数据平台让全方位多指标的计量评价成为现实。
● 数据分析处理
实现文档的规范撰写和碎片数据的自动抽取,将的非结构化模板数据快速标引为聚合的、对象化的元数据,提高碎片化信息的聚合能力。
2.灵活的产品形态设计
● 定制个性化门户
支持个性化定制和扩展的门户系统,通过定制整体界面、栏目和内容发布的服务形式,构建个性化资源发布、知识服务等形式的网站应用。
● 按需分配管理权限
提供灵活的用户权限管理功能,实现多重角色自由分配。为图书馆、教务处、科研处多部门协同工作提供可能。
● 自由云端数据修订
提供完善的数据对象添加、管理、审核、发布功能,满足用户对云端数据的修订需求。
3.全方位科研管理服务
集合数千个独立机构知识库,提供对科研产出和分析报告的整合展示,用科研计量评价报告归纳研究脉络,用主题、学者、机构勾勒学科发展情况。立足机构知识库,面向学科服务。
基本功能
1.成果展示
不仅提供了单一机构的资源层面的展示更是揭示了该机构在同地区、同学科的影响力展示,机构、作者等均作了对象化处理,能够更精确地揭示某个对象的实际情况,可以很直观的揭示同名作者、机构合并等情况的处理
♦ 全方位多角度的成果展示
♦ 对象化信息分别展示
2.计量评价
不只是做到发文层面的统计分析,而是基于发文和被引两方面的综合评价分析
基于大数据平台的独有的机构与机构之间的竞争力分析能力。
♦ 机构的整体评估
♦ 对象化绩效评估
♦ 多对象对比分析
3.长期保存
提交成果或直接提交作者、机构等对象数据
提交的数据与现有的对象化数据关联匹配或者重新生成新的对象
管理或者修改已提交的数据
未匹配的数据推送给用户进行认领
通过审核、发布的权限控制机制保证用户数据修订的准确性
♦ 成果管理
♦ 对象化数据管理
♦ 通知、认领
4.开放获取
以免费平台的方式面向终端用户开放,帮助机构推广
与Google、百度合作渠道进行数据对接,快速扩散机构科研产出
以独立机构库、学科联盟和地区联盟等多种方式搭建产品框架,满足多样用户需求。
特色功能
1.多类型元数据支持
系统整合了全网公开发布的期刊、学位论文、会议论文、专利、专著、标准、科技成果、产品样本、科技报告、政策法规等中外文文献元数据3亿余条,资源覆盖了近20年来国内产出中外文文献资源的95%。支持对用户特色资源的个性化整合,云服务周更新。
2.数据质量及规范
♦ 元数据质量
厚数据在源文献达到15个字段深度,参考文献达到10个字段深度。内容丰富的元数据不仅能满足检索需求,也能满足计量分析,数据挖掘需求。
♦ 元数据规范
元数据不存在以量充质,交叉重复现象,对整合的不同来源的数据,都完成了唯一ID的归并去重。更可以通过丰富的知识对象数据颗粒,来实现完全透明可行的分析检验。
3.开放性词表维护
♦ 全新机构树架构
采用机构树架构体系,通过树状结构,直观维护机构层级关系、合并关系等组织架构变更情况
♦ 机构词典维护
我们利用模式匹配、机构实体识别等方法结合数据编辑的人工处理,完成了机构标准名称规范以及各种曾用名表达式及机构变更关联,形成了基础的机构词典建立。
机构库后台的机构词典维护功能,可自主更新机构的曾用名、别名、简称、变更名、英文缩写的使用情况,并能设定各种机构表达方式使用的时间范围,所修改的词典数据直接影响底层数据生成。
♦ 学者词典维护
我们从文献元数据中提取作者,并构建作者特征(机构、主题、合作者、传媒、基金等),利用机器学习算法(朴素贝叶斯、近邻传播等)实施作者重名消歧,再用多种经验规则修正完善,形成了基础的学者词典。
机构库后台的学者词典维护功能,可自主更新学者的中文名称及其对应的各种外文缩写的使用情况,并能设定各种表达方式使用的时间范围,所修改的词典数据直接影响底层数据生成。
♦ 主题词表维护
我们基于MESH词表原理建立起了中文主题词表,综合利用了卡方检验、词频筛选、马尔科夫模型、信息熵、潜在语义分析、模式识别等方法来帮助用户使用大数据。
机构库的后台的主题词表编辑功能,用户可直接在后台对我们的现有词表进行修正,从而干预前台展示效果。
4.数据挖掘
♦ 数据关系挖掘
基于海量元数据资源,通过对数百亿数据关系的挖掘,解析出多个维度的文献资源知识对象——学科、主题、学者、机构、传媒、资助等,其中挖掘整理了近千万人物、20万机构、200万主题和数万个资助及传媒,同时呈现的10亿数据关系可以方便用户通过平台得以直观使用。
♦ 数据关系分析
通过对知识对象做唯一标识、深入挖掘、粒度分析,从而建立起蕴藏于各类文献之间,不同知识对象的直接关联。并依据这些关联关系构建可分析的对象化图谱。
服务模式
1.远程包年使用
无需提供服务器,直接使用远程平台和服务,平台数据统一维护更新。
2.“远程+本地”模式
搭建本地系统,数据服务采用云服务模式。
3.联盟模式
多个机构采用远程模式联合建设,实现资源共享和共同服务。
常见问答
1.机构智库用户的参与程度
机构智库推出之初就是利用维普的上亿级别的元数据资源,为用户预先建立一套基本数据框架,覆盖机构大部分的公开出版的成果。用户只需要在我们已经搭建好的基础上完善本机构的数据,并不需要从无至有的全新建设。这是与市面上其他类似产品的根本性差异。
2.资源类型
机构智库的评价体系主要是基于期刊(包括国内期刊和国外期刊)进行的,但并不是说机构智库就只有期刊资源,其他类型的资源(包括用户的)也是可以由用户自行提交到机构库中进行展示和评价的。
3.数据的所有权问题
机构智库的数据所有权是属于客户的,维普是充当的平台供应商和数据供应商的角色。
4.产品价格体系
产品分平台服务费和数据维护费两部分。平台维护费用按年收费,数据维护费用按数据加工条数收费。