基于BP神经网络与用户投诉信息的供水管网污染源定位
0 引言
城市供水管网是居民获得饮用水的主要途径,供水系统安全直接影响居民用水安全,也是保障社会稳定和经济发展的重要因素。近年来,我国很多城市的供水管网面临突发水质污染事故的威胁。当污染事故发生时,需迅速对污染源进行准确定位,才能及时阻断污染的传播并对受污染的管网进行修复。污染源的定位追踪技术是一种反演技术,即通过部分已知输出状态推求输入状态。对于有水质监测系统的城市,国外学者们已经提出很多行之有效的方法对污染源进行定位
本研究针对利用用户投诉信息模式识别定位管网污染源问题,提出一种新的样本构造方法,污染事件中用户投诉信息的时空分布特征可看作是某个污染源节点所对应的特定分布模式,首先确定每类候选污染源节点对应的管网污染物扩散矩阵,考虑用户投诉滞后性构造用户投诉样本,用于训练和评估神经网络模型,进而识别真实用户投诉模式对应的污染源,并结合多个污染情形对该方法的有效性做进一步验证分析。本方法的主要目的是根据用户投诉的时间顺序不断缩小污染源候选范围并进行定位,以提高城市对管网污染的应急响应能力。
1 方法介绍
不同的污染源位置对应不同的管网水质响应模式,也对应不同的用户投诉模式。用户投诉信息包含了节点和时间两部分,可以将某一污染源对应的所有用户投诉信息经过筛选处理后构造用户投诉样本
1.1 污染源候选节点分类
研究发现,一些候选污染源节点的污染物扩散模式比较接近,因此需要对集合进行分类。通过计算切比雪夫距离

式中
n———投诉节点个数;
ti———候选节点p投加的污染物到达投诉节点i的相对时间,h;
tti———候选节点q投加的污染物到达投诉节点i的相对时间,h。
对

式中t′i———更新后候选节点p投加的污染物到达投诉节点i的相对时间,h;
tt′i———更新后候选节点q投加的污染物到达投诉节点i的相对时间,h。
经过式(2)处理后得到t′=(t′1,t′2,…,t′n)和tt′=(tt′1,tt′2,…,tt′n)。若t′和tt′满足条件(3),2个候选污染源节点划归为同一类,否则,则为不同类。

1.2 神经网络的样本构建
本研究选择BP神经网络分析用户投诉的模式识别问题,基本结构为输入层-隐藏层-输出层,用于训练和评估神经网络的训练样本按下述方式构造。
用MATLAB调用EPANET Toolkit水质模拟工具箱,在某个时间点分别向每一个污染源候选节点持续注入一定浓度的污染物,对管网进行24h延时模拟,可获得管网各节点不同时刻的水质状况。假定当污染物浓度大于人体对污染物的感知限时,节点所在的用户才能够感知水质异常并有可能投诉。模拟得到污染发生后各投诉节点最早感知到污染的时间,考虑用户投诉时间与污染真实发生时间之间存在一定的滞后,假设滞后时间服从正态分布
各类投诉矩阵非零元素的时间纵轴的平均值不一致会对神经网络模型训练效果和识别准确性造成一定影响,为避免这种影响,本研究对非零元素的时间纵轴进行标准化处理,见式(4)和(5),使得各投诉矩阵非零元素的时间纵轴的平均值保持一致。


式中Ti———矩阵各非零元素的时间纵轴值,30min;
Ti,new———更新后各非零元素的时间纵轴值,30min。
经过处理后,所有非零元素时间纵轴的平均值为24,最终得到如式(6)所示的稀疏矩阵A。

令列向量P=[p1,p2,p3,…,pn]T,P即为神经网络的输入样本,输入层神经元的个数为48×n。设候选污染源分类集合数为y,则输出层神经元为y,输出样本可表达为式(7)。


在利用实际投诉信息构造污染事件投诉模式之前,需要对投诉信息进行如下预处理:(1)对于同一节点的重复投诉,取最早投诉时间作为节点投诉时间;(2)Tao等
2 案例研究
以EPANET自带供水管网案例Net3

图3 污染事件(A)和(B)的候选节点分类结果和污染扩散模式
Fig.3 Candidate nodes classification and contaminant propagation patterns in contamination event(A)and(B)

图4 污染事件(C)和(D)的候选节点分类结果和污染物扩散模式
Fig.4 Candidate nodes classification and contaminant propagation patterns in contamination event(C)and(D)
2.1 模式识别有效性评估
首先,基于管网节点的水龄分布随机选择模拟投诉的位置。为研究节点水龄整体变化情况,在EPANET中设置模拟的总历时为12h进行水力水质模拟。为验证模式识别方法的有效性,模拟四种不同情形的污染投诉事件,每个事件中随机选择的模拟投诉节点均满足各节点的水龄在污染区域内均匀分布:(A)污染发生于水源点;(B)污染发生于管网中间某点;(C)投诉集中于环状管网末梢;(D)投诉集中于树状管网末梢。4个污染事件的具体投诉信息见表1。
根据章节1.1改进污染矩阵的方法得到候选污染源节点集合,4个污染事件的候选节点分类结果以及每类对应的污染物到达投诉点时间模式(简称:污染扩散模式)分别见图3和图4。在污染事件(A)(B)(C)中,候选污染源节点在各个投诉节点产生的污染扩散模式存在较为明显的差异,按模式能显著地划分候选节点,后续可通过模式识别的方法确定污染源所在分类集合;在污染事件(D)中,大部分候选节点在树状管网末梢的投诉节点呈现相似的时间分布模式,计算可得集合分类数为2,且真实污染源所在类包含38个候选节点,无法进一步缩小范围,在此情形下基于模式识别的定位方法效果不佳。因此,在水力条件较复杂的环状管网中,基于用户投诉模式识别的污染源定位方法具有较强的可行性。
对污染事件(A)(B)(C)进行污染源定位,EPANET模拟时假设污染发生时间为0∶00,按章节1.2提出的方法构造带噪声的样本,每类候选节点生成2 000个训练样本和800个验证样本,对神经网络模型进行训练和验证。训练过程的超参数设置如下:隐藏层神经元的个数为100,初始学习率为0.1,衰减系数为0.99,全连接层采用L2正则化,正则化系数设为0.001,训练迭代次数为20 000。在前3个案例中,训练损失值均随着迭代次数的增加呈整体下降趋势,不断趋于0,即模型对各训练样本有较强的收敛性。调用训练完成后的模型进行验证,得到准确率分别为99.1%、99.8%、99.9%,说明该模型对滞后时间Δt呈正态分布的样本具有较高的预测准确率。将表1中3个事件的用户投诉样本输入相应的神经网络模型进行污染源定位,预测集合均与预先假设的污染源所在节点集合相吻合。
2.2 模型适应性评估
投诉滞后时间Δt受用户用水时间、用水量和投诉习惯的影响
2.3 用户投诉数量的影响
用户投诉点的数量和位置影响污染源的候选节点数和模式分类数。以污染事件(A)为例,按用户投诉的时间先后顺序进行分析,候选点个数和集合分类数随投诉点个数的变化如图5所示,分析结果表明:候选污染源节点数量不仅取决于用户投诉点数,还受到投诉节点的位置影响,个别投诉点可大范围缩小候选区域,如第2个投诉点261发生投诉后,候选节点数从27降至20,此后的投诉点对缩小候选范围无明显作用;同时,随着投诉点数量增加,各候选节点模式之间的差异性逐渐显现,并在个别投诉点处模式呈现明显差异,如第4个投诉点151发生投诉后,分类数从1增加至4,而当用户投诉数继续增加时,模式分类数将趋于平稳。因此,在真实投诉事件中,利用投诉时间较早的某些节点可对污染源进行定位,实现对管网污染事故的应急响应。

图5 污染事件(A)中候选点数量和分类数的变化趋势
Fig.5 Trends in the number of candidate nodes and the number of classifications in contamination event(A)
3 结语
针对国内城市给水管网水质监测系统不完善的现状,本研究采用用户投诉模式识别进行污染源定位,并提出一种新的投诉样本构造方式,该方法的目的是根据污染事故发生后的实时用户投诉信息,不断缩小污染源的识别范围,指导污染事故的响应决策。方法首先对各类候选污染源节点在用户投诉点的污染扩散情况进行水力水质延时模拟,然后考虑用户投诉时间的滞后性,在污染物到达节点时间的基础上附加随机滞后时间(Δt)构造神经网络的输入样本,对模型进行训练和验证,并评估了模型的泛化能力。4个模拟污染事件分析结果证明,在水力条件复杂的环状管网中,神经网络模式识别对于水源污染和非水源污染均具有良好的污染源识别能力,且对投诉滞后时间的不确定性具有一定的鲁棒性。案例研究表明,当用户投诉滞后时间的标准差小于3.0时,该方法定位污染源发生位置的准确率可达90%以上。因此,在管网水质在线监测设备尚不完善的城市,可用该方法实现对污染源位置的快速定位,增强城市对管网水质突发事故的应急响应能力。
参考文献
[4]信昆仑,刘龙,陶涛,等.基于用户水质投诉信息的供水管网污染源追踪定位技术[J].天津大学学报,2014,47(4):336-342.
[5]信昆仑,项宁银,陶涛,等.基于用户水质投诉信息的供水管网污染源追踪定位[J].同济大学学报,2014,42(2):283-286.
[6]Abello J,Pardalos P M,Resende M G C.Handbook of massive data sets[M].US:Springer,2002.