期刊文章详细信息
文献类型:期刊文章
Luo Pengcheng
机构地区:[1]北京大学信息管理系,北京100871 [2]北京大学图书馆,北京100871 [3]延世大学融合医学系,韩国首尔03722
基 金:国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的成果,项目编号:20ATQ007。
年 份:2022
卷 号:45
期 号:7
起止页码:49-56
语 种:中文
收录情况:BDHX、BDHX2020、CSSCI、CSSCI2021_2022、JST、NSSD、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:[目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序。[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考。[局限]仅在英文人文社科数据集上进行模型效果验证。
关 键 词:信息检索 数据集搜索 科学数据 神经网络 学习排序 BERT SimCSE
分 类 号:TP311.13] TP18[计算机类] G252.7[图书情报与档案管理类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...