期刊文章详细信息
基于网络爬虫技术的健康医疗大数据采集整理系统
A collecting and processing system for health care big data based on web crawler technology
文献类型:期刊文章
机构地区:[1]山东大学公共卫生学院生物统计学系,山东济南250012 [2]山东大学齐鲁生物医学大数据研究中心,山东济南250012 [3]康评健康医疗大数据科技有限公司,山东济南250101 [4]山东大学计算机科学与技术学院,山东济南250101
基 金:国家自然科学基金(81273177)
年 份:2017
卷 号:55
期 号:6
起止页码:47-55
语 种:中文
收录情况:BDHX、BDHX2014、CAB、CAS、IC、JST、RCCSE、ZGKJHX、核心刊
摘 要:目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。
关 键 词:网络爬虫 数据库系统 聚焦爬虫 数据采集 数据解析 数据整理
分 类 号:R319[基础医学类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...