会议论文详细信息
文献类型:会议
作者单位:合肥学院计算机科学与技术系网络与智能信息处理重点实验室安徽合肥230601中国科学院合肥物质科学研究院安徽合肥230031内蒙古大学计算机学院内蒙古呼和浩特010021
会议文献:第十一届全国人机语音通讯学术会议论文集
会议名称:第十一届全国人机语音通讯学术会议
会议日期:2011年10月16日
会议地点:西安
主办单位:中国中文信息学会,中国声学学会,中国语音学会
语 种:中文
摘 要:平行网页文本中除了互为对照的内容,还存在一 些无关的噪声,因此利用网页结构相似的方法解决平行网 页中句对齐问题受到一定的限制.通过引入互译词典或同 类词典的方法可以提高句对齐质量,但是双语词典的规模 是有限的,不能覆盖所有对应的词汇.本文利用基于向量 空间模型提供的相似度计算方法对平行网页文本进行句 子对齐.在向量空间模型中,网页文本中的句子为一维空 间中的向量,选取实词作为特征项,利用CHI 统计量计 算词汇关联度,采用TF-IDF 算法计算特征项权重,采用 COSINE 距离计算句子向量之间的相似度,解决平行网页文 本句对齐问题.以蒙古文-中文平行网页为实验对象,设计 了相关实验.实验结果证实了本文方法的有效性.
关 键 词:平行网页文本 句子对齐 向量空间模型 CHI统计量 蒙古文 中文
分 类 号:T]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...