期刊文章详细信息
文献类型:期刊文章
机构地区:[1]南京审计大学信息化办公室,江苏省南京市211815 [2]江苏师范大学信息化建设与管理处,江苏省徐州市221116
基 金:江苏高校哲学社会科学研究项目(2020SJA0354);江苏省高等学校教育技术研究会高校教育信息化研究课题(2019JSETKT060);南京审计大学2020年度高教所课题(2020JG051)。
年 份:2021
期 号:12
起止页码:187-189
语 种:中文
收录情况:普通刊
摘 要:本文阐述了互联网文本数据采集能力是目前各种数据集成、应用系统关注的一项核心支撑能力,在各种系统开发中有着重要的作用。各种网站、Web应用系统的文本数据的获取方式存在一定规律性和相似性,网站文本数据的利用,诸如NLP相关研究的价值较高。因此,研究面向互联网文本数据采集的框架具有重要的现实意义,并且能够提供分布式、组件化和配置化的框架能力。
关 键 词:文本数据采集 Scrapy 定时调度 分布式采集
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...