登录    注册    忘记密码

期刊文章详细信息

基于Python的Web信息获取方法研究    

Research of Web Text Information Access Method Based on Python

  

文献类型:期刊文章

作  者:魏冬梅[1] 何忠秀[1] 唐建梅[1]

机构地区:[1]西华大学计算机与软件工程学院,四川成都610039

出  处:《软件导刊》

基  金:西华大学2016年重点实验室开放基金项目(szjj2016-043);西华大学2016年教育教学改革项目(2016)

年  份:2018

卷  号:17

期  号:1

起止页码:41-43

语  种:中文

收录情况:普通刊

摘  要:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。

关 键 词:PYTHON 信息获取 网络爬虫 正则表达式

分 类 号:TP301]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心