3.2 规范选取关键词 开展网络信息监测,直接关系到数据的可用性,甚至影响到数据分析和防控方案制定,因此选取搜索词需要更加严谨。近年来,研究热点聚焦于 探索监测的新方法,运用对网络数据流的分析,预测疾病高发时段。当前研究表明,基于网络数据的 监测系统在人群传染病监测中起到了很大的作用, 但在兽医领域应用较少。Guernier在动物疫病应 用上作出了尝试,根据高频搜索词条成功制定了有 效防控政策。谷歌公司在搜索词的选取上主要依据 线性模型的拟合和验证,对搜索词进行过滤,保证 了流感模型预测的准确性 。 3.3 结构化数据有待规范 当前监测和调研体系产生的结构化数据存在一些问题,如格式不统一、质量参差不齐、输入汇总繁琐、数据对比与获取困难等。建议制定行业规范,建立日常的实验室检测、诊断和现场调查等一手数据采集和上报的数据标准规范。例如,进行重大动物疫病防控信息报送工作,开发标准化的临床观察数据现场记录系统,提高数据兼容性。辽宁省制定了《辽宁省畜牧兽医部门统计管理办法》和《辽 宁省畜牧兽医信息工作量化考核暂行办法》等管理办法,加大对系统数据源头采集者,包括村兽医和乡镇动物防疫监督所的监管人员,通过建立严格的数据收集和录入制度,明确责任,确保数据录入及时、准确 。 3.4 构建大型智能模型系统 解决非结构化数据的挖掘利用,应该依靠构建大型智能模型系统,从处理结构化数据向处理繁多的非结构化数据拓展,开发能够识别和处理非结构化数据的方法。 3.5 完善数据的存储和安全 大数据时代,如何做好数据存储和安全工作,合理利用数据,注重研究对象隐私保护,是一项新的挑战。谷歌公司注重对研究对象隐私的保护,所有患病数据均无法与确切的个人信息关联(包括 ID、IP 和具体地址)。依据谷歌隐私保护政策,所有超过 9 个月的原始网站搜索日志均会被隐去隐私信息,这种保护研究对象隐私的做法值得借鉴。 |