登录    注册    忘记密码

专利详细信息

一种文本处理方法及系统       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN201310090249.1

申 请 日:20130320

发 明 人:戴明洋

申 请 人:新浪网技术(中国)有限公司

申请人地址:100080 北京市海淀区北四环西路58号理想国际大厦20层

公 开 日:20130626

公 开 号:CN103176953A

代 理 人:黄志华

代理机构:11291 北京同达信恒知识产权代理有限公司

语  种:中文

摘  要:本发明公开了一种文本处理方法及系统,用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。

主 权 项:1.一种文本处理方法,其特征在于,包括:对文本进行分词处理,得到所述文本中的各单元词;针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;根据识别出的实体词对所述文本进行处理。

关 键 词:单元词  文本处理 文本处理系统  实体识别  文本 解码 路径长度  属性识别  词性 分词 算法  

IPC专利分类号:G06F17/21(20060101)

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心