期刊文章详细信息
文献类型:期刊文章
机构地区:[1]云南大学信息学院计算机科学与工程系,云南昆明650000
基 金:国家自然科学基金资助项目(61562090)
年 份:2017
卷 号:27
期 号:12
起止页码:103-107
语 种:中文
收录情况:JST、RCCSE、ZGKJHX、普通刊
摘 要:通过分析和研究网络爬虫访问网页内容的行为,针对恶意网络爬虫伪装成浏览器访问网站难以甄别、网站日志检测工具不支持匿名网络爬虫检测等问题,总结了一些基于机器人排斥协议和基于爬虫行为的恶意网络爬虫检测算法。通过这些网络爬虫检测算法的启发,提出一种基于爬虫行为的检测匿名爬虫算法。该算法主要根据人为访问网站与网络爬虫访问网站时间的长短、访问的周期等,对网络爬虫进行检测,同时对算法进行了实验验证。实验数据来自一个服务器的网络日志。应用Python对实验数据进行处理,从而对网络匿名爬虫进行检测,并与当前主流的匿名网络爬虫检测算法进行比较。结果表明,该算法能够检测出并发量小的匿名的网络爬虫。
关 键 词:网络爬虫 网络机器人排斥协议 网站访问行为 匿名爬虫检测
分 类 号:TP393.08]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...