期刊文章详细信息
中文电子病历的分词及实体识别研究
Healthcare Data Mining: Word Segmentation and Named Entity Recognition in Chinese Electronic Medical Record
文献类型:期刊文章
Wang Ruojia;Cho Sang;Wang Jimin(Department of information management, Peking University, Beijing 100871;Institute of Ocean Research, Peking University, Beijing 100871)
机构地区:[1]北京大学信息管理系,北京100871 [2]北京大学海洋研究院,北京100871
年 份:2019
卷 号:63
期 号:2
起止页码:34-42
语 种:中文
收录情况:BDHX、BDHX2017、CSSCI、CSSCI2019_2020、JST、RCCSE、RWSKHX、ZGKJHX、核心刊
摘 要:[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
关 键 词:电子病历 中文分词 实体识别 健康医疗大数据 AC自动机 条件随机场
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...