城市供水大数据价值挖掘与应用研究
0 引言
近年来,大数据信息技术在世界范围内持续升温,大数据已经成为一种新的国家战略资源,受到国内外社会各界的高度关注
我国城市供水行业经过多年的发展,信息化水平不断提升,期间积累了从水源、水厂、管网到二次供水全过程的海量供水数据。但由于城市供水数据来源分散,数据采集标准不一,且各供水信息化系统相互孤立,城市供水大数据多源异构问题突出,严重制约了城市供水数据的有效利用及城市供水信息化建设的发展
1 城市供水大数据要求、来源及特征
1.1 城市供水大数据要求
城市供水监管的有效性依赖于可靠的城市供水大数据分析结果。在利用供水大数据开展城市供水监管之前,城市供水主管部门或供水单位必须保证数据的完整性、准确性和及时性,从而保障分析结果的科学性和有效性。随着城市供水数据的不断积累、信息化系统的不断完善、数据质量的不断提升,城市供水单位应定期及时更新相关数据,不断提高数据质量,以确保数据的时效性。此外,用于分析的城市供水大数据应满足多层次和多角度的数据分析需求,以适应城市供水监管目标的多样性。
1.2 城市供水大数据来源
城市供水过程涉及水源取水、水厂制水、管网输水、二次供水等多个环节,供水数据来源多样。既有城市供水主管部门或城市供水单位的内部数据,如各类统计报表数据,以及水质、水量、水位、管网水压、流量、噪声、现场照片、视频等在线设备发送的实时远传数据;又有通过与环保、水利等相关部门的信息共享,并通过运用先进的网络爬虫等技术,获取政府机构、企业等组织提供的与供水服务相关的公开数据,如供水水质数据、供水事故信息、人口数据、用水户建筑信息数据等。网络公开数据抓取工作流程见图1。
1.3 城市供水大数据特征
1.3.1 数据海量化
大数据是信息时代的主要技术之一,目前已经广泛应用在各行各业当中
1.3.2 数据利用低效化
目前,城市供水企业建立的大量信息化系统之间互不兼容,且与政府监管平台未进行有效整合,不同信息系统之间难以进行信息交流和共享,导致日益增长的海量城市供水数据的处理与流转仅限于企业内部或部门内部,政府部门无法及时准确地获取企业设施能力、运行情况、水质监测预警等关键的监管信息。城市供水大数据的信息壁垒和数据孤岛现象突出,导致大量城市供水数据的传输途径严重不畅,数据难以统筹协调使用,数据价值得不到充分的挖掘和分析。
2 城市供水大数据价值挖掘与分析平台架构
城市供水监管中数据信息庞大,数据源高度分散,数据价值难以被挖掘,传统的数据存储、管理和利用方式难以为继。因此,在对城市供水监管中的大数据进行分析和应用时,需构建城市供水大数据的分析平台。根据设计、应用和保密等需求,城市供水大数据分析平台可分为基础设施层、数据层、应用层和展示层等构件。平台架构具体如图2所示。
2.1 基础设施层
基础设施层主要包括存储设备、计算设备、网络设备、机房配套等相关软硬件基础设施。
2.2 数据层
数据层主要提供包括数据采集、传输、存储、挖掘处理等功能,其中数据采集由物联感知信息采集系统、数据共享系统、网络爬虫系统等组成;数据传输将物联感知、填报共享、网络爬虫等途径产生的数据,通过互联网、移动网络、卫星、超短波电台等渠道进行传输;数据存储是将各类数据信息存储于相应数据库中,多采用分布式存储的方式,实现对供水大数据的管理、调用、共享和更新,为应用层对数据的使用提供调取服务,对于结构化数据通过清洗、转换、集成处理后,加载到数据库中;对于非结构化数据,例如供水业务相关的图片、音频视频、文档文件等,通过合适的处理技术优化后存储于数据库中;数据挖掘处理是从海量的城市供水数据中通过统计、机器学习、模式学习等算法寻找其中隐藏的信息和规律的过程。
2.3 应用层
应用层包括日常监管、实时监控、安全评估、监测预警、决策支持等业务系统。通过访问结构化数据和非结构化数据进行信息读取和展现,各业务系统通过清晰的工作流程、科学的业务逻辑、标准化的海量数据、灵活的统计分析方法、统一的用户认证,实现城市供水的各项业务功能。
2.4 展示层
展示层是将应用层的分析结果,通过文字、图表、报表等表现方式,向供水主管部门、供水单位、供水用户等进行可视化展现。
3 城市供水大数据价值挖掘方法与应用
3.1 数据价值挖掘方法
3.1.1 价值挖掘方法分类
城市供水大数据的价值挖掘是从海量的、关系模糊的供水数据中挖掘出潜在的数据规律,挖掘数据特征是开展供水大数据价值应用的重要基础。机器学习是挖掘、利用大数据价值的关键技术。根据城市供水大数据的特征,可将城市供水大数据价值挖掘的机器学习分为监督学习、无监督学习和半监督学习。
(1)监督学习。监督学习是利用已知类别的样本数据(标注数据)调整运算参数,使其达到所要求性能,发现和总结数据间的关联关系,并产生推理功能,从而可利用模型基于给定输入变量对输出变量进行较准确的预测。监督学习主要包括分类和回归分析两种,目前,典型的监督学习算法包括逻辑回归、决策树、朴素贝叶斯、随机森林、支持向量机、神经网络等。
(2)无监督学习。无监督学习的数据没有标注信息,利用已有的样本数据对样本进行分析。无监督学习包括聚类分析、关联分析等。其中,聚类分析算法包括K均值聚类、层次聚类、密度聚类等;关联分析算法包括Apriori、频繁模式增长(FP-growth)等。
(3)半监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习同时利用大量的未标注数据和少量的标注数据。典型的算法包括自训练算法、半监督支持向量机、生成式方法等。
3.1.2 价值挖掘方法选择
在对城市供水大数据进行价值挖掘和分析时,需要根据城市供水监管的应用场景和应用目的选择合适的算法。不存在一个能够解决所有问题的算法,一种算法也并不能总是优于另外一种。因此,城市供水大数据的价值挖掘方法选择应根据数据量大小、数据结构、数据特征、分析目的综合比选。
3.2 数据价值挖掘应用分析
城市供水大数据价值挖掘与分析的目的是为城市供水主管部门或供水单位提供决策辅助,进一步提高城市供水的数字化监管水平。从应用场景上看,城市供水大数据价值挖掘应用主要分为水源和水厂大数据应用、供水管网大数据应用和供水用户服务信息大数据应用。
3.2.1 水源和水厂大数据价值挖掘应用分析
对城市供水水源水厂水质、水厂工艺等大数据进行采集、存储、信息挖掘和分析,一是可解决传统手段难以解决的海量数据管理问题;二是可对水质风险来源、时空变化规律、危害程度等进行有效的识别和判定,实现对水源水厂水质等风险的有效预警,并提出风险的最优处置方案;三是可通过对水质与水厂工艺大数据的联合建模分析,实时调整和优化不同水质特点和风险下的水厂处理工艺,从而保障水厂的安全稳定运行。
3.2.2 供水管网大数据价值挖掘应用分析
通过梳理供水管网运行风险、管网漏损等影响因素,采用适宜的分析方法,对城市供水管网风险评估和漏损控制等场景进行模拟预测。模拟预测结果可作为城市供水管网修复或更新改造、管网漏损控制的决策依据,从而提高城市供水单位业务运行管理的精确性和高效性。
3.2.3 供水用户服务信息大数据价值挖掘应用分析
以城市供水主管部门及供水单位对供水用户的服务经验为基础,以公众反馈的供水客服、网络舆情等数据作为数据应用的核心,运用大数据分析手段,充分挖掘城市供水中水质、水量、水压等方面服务痛点的成因,并针对性给出解决方案。为城市主管部门或城市供水单位掌握公众舆情、提高监管精度、提升供水服务质量提供了数据支撑。
4 小结
大数据带来的巨大价值已经受到各单位和部门的高度重视。城市供水全过程涉及多个环节,在此过程中积累了大量数据,但这些日益增长的数据价值并没有得到充分的挖掘和利用。在此背景下,本文从数据积累、分析和应用方面提出了城市供水监管中大数据的价值挖掘手段,为保障城市供水安全,提高城市供水服务质量提供了决策依据。
[1]龙虎,李娜.大数据分析处理与平台架构技术研究[J].电脑编程技巧与维护,2019(3):88-90.
[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[3]信昆仑,钱昊,陶涛.移动互联及大数据技术在供水行业管理中的应用分析[J].给水排水,2014,40(9):162-164.
[4]梁涛,何琴,韩超,等.智慧水务中城镇供水基础信息数据库构建研究[J].给水排水,2020,46(6):152-156.
[5]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].图像编码与软件,2015,28(2):127-130.
[6]朱炯名.基于智慧水务的供水大数据采集架构分析研究[J].软件工程,2018,21(9):5-7.