期刊文章详细信息
文献类型:期刊文章
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650051 [2]云南省计算机技术应用重点实验室智能信息处理研究所,云南昆明650051
基 金:国家自然科学基金资助项目(60863011);云南省自然科学基金重点资助项目(2008CC023);云南省中青年学术和技术带头人后备人才基金资助项目(2007PY01-11)
年 份:2011
卷 号:29
期 号:1
起止页码:157-161
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CAB、CAS、CSA、CSA-PROQEUST、IC、PROQUEST、RCCSE、WOS、ZGKJHX、ZMATH、ZR、核心刊
摘 要:专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别。首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集。然后,采用不同学习算法对在不同特征上的页面进行主页识别,寻找最有效的分类特征和主页识别学习算法。最后,对不同特征、不同算法进行测试,实验结果表明,采用J48算法,结合链接与网页内容特征,中文专家实体主页识别取得了较好的效果,其识别准确率达到了81.05%。
关 键 词:中文专家实体 主页识别 链接特征 网页特征 J48
分 类 号:TP391.3]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...