专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201310090249.1
申 请 日:20130320
申 请 人:新浪网技术(中国)有限公司
申请人地址:100080 北京市海淀区北四环西路58号理想国际大厦20层
公 开 日:20130626
公 开 号:CN103176953A
代 理 人:黄志华
代理机构:11291 北京同达信恒知识产权代理有限公司
语 种:中文
摘 要:本发明公开了一种文本处理方法及系统,用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。
主 权 项:1.一种文本处理方法,其特征在于,包括:对文本进行分词处理,得到所述文本中的各单元词;针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;根据识别出的实体词对所述文本进行处理。
关 键 词:单元词 文本处理 文本处理系统 实体识别 文本 解码 路径长度 属性识别 词性 分词 算法
IPC专利分类号:G06F17/21(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...