期刊文章详细信息
文献类型:期刊文章
机构地区:[1]北京语言大学汉语水平考试中心,北京100083 [2]中国传媒大学应用语言学研究所,北京100024
基 金:国家社科基金项目(No.09BYY024);211工程项目~~
年 份:2009
卷 号:45
期 号:29
起止页码:25-27
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础。
关 键 词:文本聚类 语体特征 语言结构 汉语口语 汉语书面语
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...