专利详细信息

一种文本处理方法及系统

文献类型：专利

专利类型：发明专利

是否失效：否

是否授权：否

申请号：CN201310090249.1

申请日：20130320

发明人：戴明洋

申请人：新浪网技术(中国)有限公司

申请人地址：100080 北京市海淀区北四环西路58号理想国际大厦20层

公开日：20130626

公开号：CN103176953A

代理人：黄志华

代理机构：11291 北京同达信恒知识产权代理有限公司

语　　种：中文

摘　　要：本发明公开了一种文本处理方法及系统，用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词，针对每个单元词，根据该单元词中的字以及该单元词确定该单元词的词性，并据此确定该单元词的实体词属性，根据每个单元词的实体词属性识别文本中的实体词，根据识别出的实体词对文本进行处理。通过上述方法，文本处理系统是以单元词为单位进行实体识别的，因此可以有效缩短采用CRF算法解码时的路径长度，提高实体识别的效率和准确性，从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。

主权项：1.一种文本处理方法，其特征在于，包括：对文本进行分词处理，得到所述文本中的各单元词；针对每个单元词，根据该单元词中的字以及该单元词确定该单元词的词性；根据该单元词的词性以及该单元词确定该单元词的实体词属性；根据每个单元词的实体词属性识别所述文本中的实体词；根据识别出的实体词对所述文本进行处理。

关键词：单元词文本处理文本处理系统实体识别文本解码路径长度属性识别词性分词算法

IPC专利分类号：G06F17/21(20060101)

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

专利详细信息

一种文本处理方法及系统

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：