期刊文章详细信息
基于统计抽词和格律的全宋词切分语料库建立
The Establishment of the Annotated Corpus of Song Dynasty Poetry Based on the Statistical Word Extraction and Rules and Forms
文献类型:期刊文章
机构地区:[1]厦门大学软件学院,福建厦门361005 [2]厦门大学人工智能研究所,福建厦门361005
基 金:国家自然科学基金资助项目(60373080)
年 份:2007
卷 号:21
期 号:2
起止页码:52-57
语 种:中文
收录情况:BDHX、BDHX2004、CSCD、CSCD2011_2012、JST、RCCSE、ZGKJHX、核心刊
摘 要:全宋词切分语料库的建立是计算机研究宋词的基础。本文对宋词中“词”的界定提出了自己的看法,并在综合考虑统计抽词方法和基于诗词格律切分方法各自优点的基础上,提出建立全宋词切分语料库的新方法。我们首先通过统计抽词来抽取结合程度较强的二字词,并结合相关资源建立词表;在此基础上,结合宋词的格律特点按照一定的规则来对全宋词进行了切分。实验证明,本文中的方法具有较好的效果。
关 键 词:计算机应用 中文信息处理 宋词 语料库 统计抽词 格律
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...