1
引言
空气污染对人类及其生存环境造成的危害与影响,已逐渐为人们所认识。近年来我国地区空气污染加剧,其中雾霾污染正演变成为我国城市大气中主要污染之一,引起了普通民众和科学界的广泛关注。空气污染对城市居民的健康风险、由此造成的经济损失以及对居民的健康影响都是不可估量的。空气污染主要通过三条途径危害人体:一是人体表面接触后受到伤害,二是食用含有大气污染物的食物和水中毒,三是吸入污染的空气后患了种种严重的疾病。不仅如此,空气污染危害生物的生存和发育,大气污染物对仪器、设备和建筑物等,都有腐蚀作用,空气污染还造成臭氧层破坏、酸雨腐蚀和全球气候变暖[1]。世界卫生组织和联合国环境组织发表的一份报告说:“空气污染已成为全世界城市居民生活中一个无法逃避的现实。”如果人类生活在污染十分严重的空气里,那就将在几分钟内全部死亡。工业文明和城市发展,在为人类创造巨大财富的同时,也把数十亿吨计的废气和废物排入大气之中,人类赖以生存的大气圈却成了空中垃圾库和毒气库。因此,大气中的有害气体和污染物达到一定浓度时,就会对人类和环境带来巨大灾难。
自从计算机开始应用于可视化技术以后,人们发现了许多新颖的可视化技术,现有的技术也得到了改进。新技术和新平台的出现,使可视化技术可以实现用户与可视化数据之间的交互,从采集分析数据到呈现数据可视化也做到一体化实现。中国近几十年来经济发展迅速,矿物能源大量消耗以及环境保护措施的欠缺,导致中国许多地区发生了严重的环境空气污染和水环境污染。空气污染是一个非常复杂的系统问题,它不仅要考虑人为与自然排放,同时也要考虑到当地气象以及区域气候条件的影响。伴随着大数据时代的来临,促进了更加智能的数据可视化工具的出现,云计算和虚拟化技术的不断发展使得大数据在应用层面更加丰富,再加以数据可视化,这样的大数据分析才更有意义,效率也才会更高。本文提出了以大数据分析为基础的空气质量数据可视化思路,对掌握城市空气质量在时间和空间维的变化发展趋势,对污染控制、环境管理和公共事业发展均有一定的理论意义与实用价值。
2
大数据
2.1
大数据的特征
大数据是一个体量特别大,数据类别特别大,超过传统数据库系统处理能力的数据集。大数据首先是指数据体量(volumes)大,指大型数据集,至少在10TB规模以上,一般达到PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式包括了半结构化和非结构化数据;接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理;最后一个特点是指数据真实性(Veracity)高,比如社交数据、企业内容、交易与应用数据等新数据源。
Velocity
快速的数据流转
Volume
海量的数据规模
Variety
多样的数据类型
图1
描述大数据特征的3个V
3V是大数据时代的显著特征,这些特征正在给现在的IT企业带来巨大挑战。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.2
基于Hadoop的大数据分析技术
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以可靠、高效、可伸缩的方式进行数据处理,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它具有高可靠性、高扩展性、高效性、高容错性,并且成本较低。Hadoop的组成如图2所示,其中MapReduce和Hdfs是Hadoop的核心。Hdfs是分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,Hdfs就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等[2]。MapReduce用于大规模数据集(大于1TB)的并行运算,通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性,每个节点会周期性的返回它所完成的工作和最新的状态[3]。
图2
Hadoop的组成
3空气质量的数据分析可视化
3.1
数据可视化
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。数据分析可视化旨在利用数据挖掘和数据分析能力基础之上,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互