随着动物疫病防控工作不断深入,数据资源更加丰富。从监测对象来看,包括动物疫病数据和对动物造成健康危害的风险因素数据。从数据产生方式来看,包括流行病学调查流调信息,实验室获取的生物学信息,动物疫病的有关社会舆论信息等。从信息形式上看,包括便于处理的结构化数据和目前难以开发利用的非结构化信息,如视频、音频和图片等。这些信息具备典型的大数据特征,即体量大、数据类型繁多、产生速度快和价值密度低。 随着计算机和网络技术的快速发展,各领域的数据呈现爆炸性增长,单纯依靠传统的数据分析方法,已经无法应对大量数据的分析要求。大数据的开发对于深入认识疫病风险因素、加强疫病监测和提高预测预警能力,以及促进动物健康具有重要作用。利用大数据,最重要的就是挖掘数据,将传统动物疫病数据分析方法与处理大量数据的复杂算法相结合。本文对国内外大数据开发技术在兽医领域的应用情况进行了综述,以期为进一步探索大数据在我国动物疫病防控中的应用与开发提供思路。 1 动物疫病防控大数据挖掘技术框架 动物疫病防控数据库是数据挖掘的基础,基于数据库的分析挖掘流程包括 3 个步骤,即数据采集、数据集成存储和数据分析应用。 1.1 数据采集 动物疫病相关数据,包括传染病监测数据(了解疫病流行情况和病毒变异情况)、宠物就诊电子病历数据、医学检验数据、医学影像数据和通过现场调查获取的健康风险因素数据等,大部分来自各级动物疫病预防控制中心、动物卫生监督所、诊断实验室和宠物医院等。另外与动物疫病防控相关的数据还涉及自然环境数据、地理信息数据和文献等。 该类数据一般借助自然环境、地理信息研究相关科研院所或大型网络数据库获取。动物疫病相关的舆情信息往往借助网络爬虫获取。网络爬虫是当前获取泛网络信息的主流搜索技术,是按照一定规则,自动抓取万维网信息的程序或者脚本,有广度优先和深度优先两种策略。借助面向动物疫病的智能聚焦网络爬虫算法,有选择地搜索网络,定向抓取与动物疫病时空信息相关的网页资源,可为动物疫病防控提供切实可用的信息。 1.2 数据集成存储 数据集成是将多个数据源中的数据结合起来,存放到一致的数据存储(如数据仓库)中的过程。通过清洗、集成、转换和消减等预处理技术,可以提高数据质量。数据集成是将多模式的数据源组合在一起,为下一步数据挖掘分析做准备。在后续挖掘分析中,需要确定挖掘任务,制定挖掘计划,提取数据库中的相关数据子集,并将数据变换成适合挖掘的形式。 1.3 数据挖掘分析 数据挖掘的目的是从数据中提取有用、信息,面向用户提供目标导向知识或分析服务。大数据属于全样本和非实验观察数据,与传统抽样统计方式有所不同,大数据可能不满足正态性、独立性和方差齐性的模型分析前提条件,存在高噪声现象,因此大数据挖掘是对统计分析方法的延伸和扩展,其分析产生的结果可能比“统计显著”更接近真实意义的“显著”。大数据分析技术没有固定的算法和模型,必须结合具体业务和需求,有针对性地研发适合业务本身的算法和模型。常见的大数据挖掘方法主要有神经网络分析、关联分析、决策树、最近邻分类器、贝叶斯分类器、随机森林、传统的统计分析方法和可视化分析等。数据可视化分析以图形、图像和虚拟现实,等方式展现原始数据间的复杂关系、潜在信息及发展趋势,从而使数据呈现方式直观有效,包括报表、图形、地图等,可帮助动物疫病防控工作者更好地利用掌握的资源信息,如动物调运路线、疫病分布范围、时空变化趋势和聚集性等,为病因探索提供帮助,也可更通俗易懂地为公众展现分析结果。机器学习方法是近几年人工智能领域的热门课题,是让计算机模拟人类的学习过程。机器通过学习获得智能分析能力,可以搜集舆情信息、计算模型参数,甚至是进行疫病诊断。以机器学习为代表的人工智能方法可为大数据挖掘提供有力支持。 |