基于BP神经网络与用户投诉信息的供水管网污染源定位

作者：孙炼信昆仑颜合想陶涛

单位：同济大学环境科学与工程学院

摘要：在供水管网缺乏水质在线监测设备的城市，用户投诉信息可作为供水管网污染源定位的重要依据。研究利用BP神经网络模式识别原理，提出一种基于用户投诉的污染源定位方法。该方法通过水力水质延时模拟确定每个候选污染源对应的管网污染物扩散模式，然后考虑投诉的滞后性，在污染物到达时间的基础上附加随机滞后时间构造投诉样本。对于复杂环状供水管网，通过4个模拟污染事件表明，BP神经网络对水源污染和非水源污染均具有良好的污染源识别能力，它可利用实时用户投诉信息缩小污染源候选范围，提高城市对管网污染的应急响应能力。

关键词：供水管网污染源定位用户投诉模式识别神经网络

作者简介：作者简介：孙炼,通讯处：200092上海市杨浦区四平路1239号,E-mail:1730485@tongji.edu.cn,电话：15221558927;
基金：基金：国家自然科学基金（51678425）; 国家重点研发计划项目（2016YFC0400602）;

0 引言

城市供水管网是居民获得饮用水的主要途径,供水系统安全直接影响居民用水安全,也是保障社会稳定和经济发展的重要因素。近年来,我国很多城市的供水管网面临突发水质污染事故的威胁。当污染事故发生时,需迅速对污染源进行准确定位,才能及时阻断污染的传播并对受污染的管网进行修复。污染源的定位追踪技术是一种反演技术,即通过部分已知输出状态推求输入状态。对于有水质监测系统的城市,国外学者们已经提出很多行之有效的方法对污染源进行定位^[1,2,3]。但是,目前国内仍有一些城市存在供水管网水质监测信息不足或准确性较低的问题,此时用户投诉信息可作为反映管网污染物分布的重要信息。信昆仑等^[4]于2014年提出以候选节点发生污染后的用户水质投诉顺序为基础构造模式识别神经网络,从而确定污染物注入位置,并于同年^[5]提出用概率理论分析方法比较不同候选污染源节点发生污染情况下的投诉概率,以确定最有可能的污染源节点。

本研究针对利用用户投诉信息模式识别定位管网污染源问题,提出一种新的样本构造方法,污染事件中用户投诉信息的时空分布特征可看作是某个污染源节点所对应的特定分布模式,首先确定每类候选污染源节点对应的管网污染物扩散矩阵,考虑用户投诉滞后性构造用户投诉样本,用于训练和评估神经网络模型,进而识别真实用户投诉模式对应的污染源,并结合多个污染情形对该方法的有效性做进一步验证分析。本方法的主要目的是根据用户投诉的时间顺序不断缩小污染源候选范围并进行定位,以提高城市对管网污染的应急响应能力。

1 方法介绍

不同的污染源位置对应不同的管网水质响应模式,也对应不同的用户投诉模式。用户投诉信息包含了节点和时间两部分,可以将某一污染源对应的所有用户投诉信息经过筛选处理后构造用户投诉样本^[4]。通过MATLAB调用EPANET Toolkit水质模拟工具箱依次对不同的污染注入节点进行水力水质延时模拟,获得污染物在管网中的扩散模式,在污染物到达时间的基础上附加随机的投诉滞后时间,构造用户投诉样本,作为神经网络模型的输入,模型训练、评估完成后即可进行污染源定位,见图1。

1.1 污染源候选节点分类

Cristo等^[2]于2008年找到候选污染源集合,信昆仑等^[5]于2014年提出改进污染矩阵法,只提取用户投诉节点的水质信息,筛选出候选污染源节点集合,本文利用该方法查找候选节点。

研究发现,一些候选污染源节点的污染物扩散模式比较接近,因此需要对集合进行分类。通过计算切比雪夫距离^[6]对候选污染源节点进行划分,模式特征相似的节点归为一类。设分别向两个候选污染源节点p和q投加污染物,污染物到达各个投诉节点的相对时间向量分别为t=(t₁,t₂,…,t_n)和tt=(tt₁,tt₂,…,tt_n),计算两向量的元素平均值,见式(1)。

图1 方法流程

Fig.1 Flow chart of the method

式中———向量t元素平均值,h;

———向量tt元素平均值,h;

n———投诉节点个数;

t_i———候选节点p投加的污染物到达投诉节点i的相对时间,h;

tt_i———候选节点q投加的污染物到达投诉节点i的相对时间,h。

对进行处理,见式(2)。

式中t′_i———更新后候选节点p投加的污染物到达投诉节点i的相对时间,h;

tt′_i———更新后候选节点q投加的污染物到达投诉节点i的相对时间,h。

经过式(2)处理后得到t′=(t′₁,t′₂,…,t′_n)和tt′=(tt′₁,tt′₂,…,tt′_n)。若t′和tt′满足条件(3),2个候选污染源节点划归为同一类,否则,则为不同类。

1.2 神经网络的样本构建

本研究选择BP神经网络分析用户投诉的模式识别问题,基本结构为输入层-隐藏层-输出层,用于训练和评估神经网络的训练样本按下述方式构造。

用MATLAB调用EPANET Toolkit水质模拟工具箱,在某个时间点分别向每一个污染源候选节点持续注入一定浓度的污染物,对管网进行24h延时模拟,可获得管网各节点不同时刻的水质状况。假定当污染物浓度大于人体对污染物的感知限时,节点所在的用户才能够感知水质异常并有可能投诉。模拟得到污染发生后各投诉节点最早感知到污染的时间,考虑用户投诉时间与污染真实发生时间之间存在一定的滞后,假设滞后时间服从正态分布^[4](Δt～N(μ,σ²),步长:30min),将该滞后量以噪声的形式加入节点开始污染时刻,得到用户随机投诉样本。如图2所示,污染时间分布反映污染物到达各个用户投诉节点的最早时间,投诉样本1～6则是在该分布的时间纵轴基础上附加每个投诉节点对应的随机滞后时间从而生成的随机投诉样本。然后将各投诉样本构造为元素为0和1的48×n矩阵,48和n分别表示时间历时0～24h(步长:30min)和投诉节点个数,其中1表示在某节点某时刻有用户投诉,0表示无用户投诉。本研究将用于构造训练样本的均值μ设为3,标准差σ设为2.0,采用拉丁超立方抽样对正态分布进行随机采样,产生各个投诉节点的滞后时间。

图2 模拟用户投诉模式

Fig.2 Simulated consumer complaint patterns

各类投诉矩阵非零元素的时间纵轴的平均值不一致会对神经网络模型训练效果和识别准确性造成一定影响,为避免这种影响,本研究对非零元素的时间纵轴进行标准化处理,见式(4)和(5),使得各投诉矩阵非零元素的时间纵轴的平均值保持一致。

式中T_i———矩阵各非零元素的时间纵轴值,30min;

———原矩阵非零元素的时间纵轴平均值,30min;

T_i,new———更新后各非零元素的时间纵轴值,30min。

经过处理后,所有非零元素时间纵轴的平均值为24,最终得到如式(6)所示的稀疏矩阵A。

令列向量P=[p₁,p₂,p₃,…,p_n]^T,P即为神经网络的输入样本,输入层神经元的个数为48×n。设候选污染源分类集合数为y,则输出层神经元为y,输出样本可表达为式(7)。

在利用实际投诉信息构造污染事件投诉模式之前,需要对投诉信息进行如下预处理:(1)对于同一节点的重复投诉,取最早投诉时间作为节点投诉时间;(2)Tao等^[7]提出,可将1h作为时间步长来划分所有节点的投诉时间,本研究采用30min对节点投诉时间做近似处理。

2 案例研究

以EPANET自带供水管网案例Net3^[8]为例进行污染源定位算例分析,该管网模型包含节点97个(其中2个水源节点,3个网中水塔节点),管段119条,管网拓扑结构如图3所示。本研究假定污染物为保守型物质,即仅随水体迁移扩散而不发生反应,污染物注入质量浓度为ρ₀=25mg/L,并以等质量浓度持续注入24h,人体对污染物的感知限ρ_L=1.0mg/L。模拟过程中,水力步长设为30min,水质步长设为5min。

图3 污染事件(A)和(B)的候选节点分类结果和污染扩散模式

Fig.3 Candidate nodes classification and contaminant propagation patterns in contamination event(A)and(B)

图4 污染事件(C)和(D)的候选节点分类结果和污染物扩散模式

Fig.4 Candidate nodes classification and contaminant propagation patterns in contamination event(C)and(D)

2.1 模式识别有效性评估

首先,基于管网节点的水龄分布随机选择模拟投诉的位置。为研究节点水龄整体变化情况,在EPANET中设置模拟的总历时为12h进行水力水质模拟。为验证模式识别方法的有效性,模拟四种不同情形的污染投诉事件,每个事件中随机选择的模拟投诉节点均满足各节点的水龄在污染区域内均匀分布:(A)污染发生于水源点;(B)污染发生于管网中间某点;(C)投诉集中于环状管网末梢;(D)投诉集中于树状管网末梢。4个污染事件的具体投诉信息见表1。

根据章节1.1改进污染矩阵的方法得到候选污染源节点集合,4个污染事件的候选节点分类结果以及每类对应的污染物到达投诉点时间模式(简称:污染扩散模式)分别见图3和图4。在污染事件(A)(B)(C)中,候选污染源节点在各个投诉节点产生的污染扩散模式存在较为明显的差异,按模式能显著地划分候选节点,后续可通过模式识别的方法确定污染源所在分类集合;在污染事件(D)中,大部分候选节点在树状管网末梢的投诉节点呈现相似的时间分布模式,计算可得集合分类数为2,且真实污染源所在类包含38个候选节点,无法进一步缩小范围,在此情形下基于模式识别的定位方法效果不佳。因此,在水力条件较复杂的环状管网中,基于用户投诉模式识别的污染源定位方法具有较强的可行性。

对污染事件(A)(B)(C)进行污染源定位,EPANET模拟时假设污染发生时间为0∶00,按章节1.2提出的方法构造带噪声的样本,每类候选节点生成2 000个训练样本和800个验证样本,对神经网络模型进行训练和验证。训练过程的超参数设置如下:隐藏层神经元的个数为100,初始学习率为0.1,衰减系数为0.99,全连接层采用L2正则化,正则化系数设为0.001,训练迭代次数为20 000。在前3个案例中,训练损失值均随着迭代次数的增加呈整体下降趋势,不断趋于0,即模型对各训练样本有较强的收敛性。调用训练完成后的模型进行验证,得到准确率分别为99.1%、99.8%、99.9%,说明该模型对滞后时间Δt呈正态分布的样本具有较高的预测准确率。将表1中3个事件的用户投诉样本输入相应的神经网络模型进行污染源定位,预测集合均与预先假设的污染源所在节点集合相吻合。

表1 污染事件投诉信息
Tab.1 Complaint information in contamination events

2.2 模型适应性评估

投诉滞后时间Δt受用户用水时间、用水量和投诉习惯的影响^[5]。上述案例中构造的训练样本满足滞后时间Δt～N(μ,2.0²),现设计服从不同正态分布的投诉滞后时间Δt对模型进行测试,以评估BP神经网络对投诉信息不确定性的泛化能力。假定Δt服从不同标准差的正态分布,标准差σ在区间[1,4]上均匀分布,每类候选污染源生成800个测试样本。在污染事件(A)(B)(C)中,BP神经网络模型的测试准确率如表2所示。结果表明,随着各投诉点滞后时间离散程度的增加,模型预测准确率不断降低。计算污染事件(A)(B)(C)中各类候选节点污染物扩散模式的协方差矩阵(相关系数),各矩阵中相关系数的最大值分别为0.970,0.886 1,0.857 7,对比发现,预测准确率及其降幅大小与各类候选节点的污染物扩散模式相似度有关,相似度越高,模型发生误判的可能性越大,同时投诉滞后时间的不确定性对模型预测的影响越显著,从而降低污染源定位的准确率。

表2 不同正态分布噪声下的预测准确率
Tab.2 Prediction accuracies under noise obeying different normal distribution

2.3 用户投诉数量的影响

用户投诉点的数量和位置影响污染源的候选节点数和模式分类数。以污染事件(A)为例,按用户投诉的时间先后顺序进行分析,候选点个数和集合分类数随投诉点个数的变化如图5所示,分析结果表明:候选污染源节点数量不仅取决于用户投诉点数,还受到投诉节点的位置影响,个别投诉点可大范围缩小候选区域,如第2个投诉点261发生投诉后,候选节点数从27降至20,此后的投诉点对缩小候选范围无明显作用;同时,随着投诉点数量增加,各候选节点模式之间的差异性逐渐显现,并在个别投诉点处模式呈现明显差异,如第4个投诉点151发生投诉后,分类数从1增加至4,而当用户投诉数继续增加时,模式分类数将趋于平稳。因此,在真实投诉事件中,利用投诉时间较早的某些节点可对污染源进行定位,实现对管网污染事故的应急响应。

图5 污染事件(A)中候选点数量和分类数的变化趋势

Fig.5 Trends in the number of candidate nodes and the number of classifications in contamination event(A)

3 结语

针对国内城市给水管网水质监测系统不完善的现状,本研究采用用户投诉模式识别进行污染源定位,并提出一种新的投诉样本构造方式,该方法的目的是根据污染事故发生后的实时用户投诉信息,不断缩小污染源的识别范围,指导污染事故的响应决策。方法首先对各类候选污染源节点在用户投诉点的污染扩散情况进行水力水质延时模拟,然后考虑用户投诉时间的滞后性,在污染物到达节点时间的基础上附加随机滞后时间(Δt)构造神经网络的输入样本,对模型进行训练和验证,并评估了模型的泛化能力。4个模拟污染事件分析结果证明,在水力条件复杂的环状管网中,神经网络模式识别对于水源污染和非水源污染均具有良好的污染源识别能力,且对投诉滞后时间的不确定性具有一定的鲁棒性。案例研究表明,当用户投诉滞后时间的标准差小于3.0时,该方法定位污染源发生位置的准确率可达90%以上。因此,在管网水质在线监测设备尚不完善的城市,可用该方法实现对污染源位置的快速定位,增强城市对管网水质突发事故的应急响应能力。

参考文献

[1]Laird C D,Biegler L T,Waanders B B G.Mixed-integer approach for obtaining unique solutions in source inversion of water networks[J].Journal of Water Resources Planning&Management,2006,132(173):242-251．

[2]Cristo C D,Leopardi A.Pollution source identification of accidental contamination in water distribution networks[J].Journal of Water Resources Planning&Management,1998,134(2):197-202．

[3]Shen H,Mcbean E.False negative/positive issues in contaminant source identification for water-distribution systems[J].Journal of Water Resources Planning&Management,2012,138(3):230-236．

[4]信昆仑，刘龙，陶涛，等．基于用户水质投诉信息的供水管网污染源追踪定位技术[J]．天津大学学报，2014,47(4):336-342．

[5]信昆仑，项宁银，陶涛，等．基于用户水质投诉信息的供水管网污染源追踪定位[J]．同济大学学报，2014,42(2):283-286．

[6]Abello J,Pardalos P M,Resende M G C.Handbook of massive data sets[M].US:Springer,2002．

[7]Tao T,Huang H D,Xin K L,et al.Identification of contamination source in water distribution network based on consumer complaints[J].Journal of Central South University,2012,19(6):1600-1609．

[8]De Sanctis A E,Shang F,Uber J G,et al.Real-time identification of possible contamination sources using network backtracking methods[J].Journal of Water Resources Planning and Management,2010,136(4):444-453.

Contamination source identification in water distribution network based on neural network and consumer complaint information

Sun Lian Xin Kunlun Yan Hexiang Tao Tao

(School of Environmental Science and Engineering,Tongji University)

Abstract: In water distribution networks without water quality sensors,consumer complaint information is an alternative to identify the contamination source.The research proposes a new methodology using pattern recognition of neural networks.The procedure starts with the extended hydraulic and water quality simulation to obtain the distribution mode of each class of candidate nodes.Then considering the hysteretic nature of complaint,the random lag time is added to the arrival time of contaminants to construct complaint samples.Four cases have demonstrated their effectiveness for both water source contamination and ordinary contamination in looped pipe networks.It uses real-time user complaint information to narrow the candidate range of contamination sources and improve the city's emergency response ability to pipeline pollution.

Keywords: Water distribution network; Contamination source identification; Consumer complaints; Pattern recognition; Neural network;

1381 1 1