期刊文章详细信息
文献类型:期刊文章
Wu Shan;Li Yingxiang;Xu Hongyan;Zhang Shixia;Shi Yijun(School of Intelligent Technology,Tianfu College of Southwest University of Finance&Economics,Mianyang Sichuan 621000,China;College of Communication Engineering,Chengdu University of Information Technology,Chengdu 610103,China;The 5th Electronic Research Institute of MIT,Guangzhou 510507,China)
机构地区:[1]西南财经大学天府学院智能科技学院,四川绵阳621000 [2]成都信息工程大学通信工程学院,成都610103 [3]工业和信息化部电子第五研究所,广州510507
基 金:国家自然科学基金资助项目(61804032);院士基金资助项目(ZHD201806)。
年 份:2021
卷 号:38
期 号:6
起止页码:1678-1682
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊
摘 要:通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤。通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L)。实验结果表明,本算法其查准率为100%,查全率约为87%~100%。
关 键 词:改进的Trie树 确定有穷自动机(DFA) 敏感词过滤 最小匹配规则
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...