期刊文章详细信息
基于词典信息的先秦汉语全文词义标注方法研究
A Study in Dictionary-Based All-word Word Sense Disambiguation for Pre-Qin Chinese
文献类型:期刊文章
机构地区:[1]南京大学计算机软件新技术国家重点实验室,江苏南京210093 [2]南京师范大学语言信息科技研究中心,江苏南京210097
基 金:先秦文献词汇知识挖掘资助项目(2010JDXM023);211项目"先秦汉语词汇统计与知识检索";国家社会科学基金资助项目(10&ZD117;10CYY021;08BYY054)
年 份:2012
卷 号:26
期 号:3
起止页码:65-71
语 种:中文
收录情况:BDHX、BDHX2011、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。
关 键 词:词义消歧 义项标注 古汉语 自然语言处理
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...