会议论文详细信息
文献类型:会议
作者单位:清华大学人文学院中国语言文学系,北京100084
会议文献:中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)论文集
会议名称:中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
会议日期:20151113
会议地点:广州
主办单位:中国中文信息学会
出版日期:20151113
语 种:中文
摘 要:本文选用鲁迅的33篇小说与冰心的50篇小说为语料,通过对小说文本篇幅长度、平均段落长度、句长分布、词汇丰富度、标点使用的统计分析,发现鲁迅的小说篇幅长度变化大,平均段落与句子长度较短,词汇丰富度高;冰心小说反之。通过前1000个高频词的层次聚类实验发现,鲁迅小说多以乡土为背景,冰心小说多着眼于家庭。通过基于SVM的文本分类实验,发现冰心在小说历时创作的过程中,标点和词类的使用风格发生变化;鲁迅在不同题材小说的创作中,仅标点的使用风格变化较大,词类、二元标点以及二元词类的使用风格较为一致。
关 键 词:小说风格 统计 层次聚类 文本分类
分 类 号:H087]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...