机器学习在多目标复杂排水系统中辅助运行控制的研究
0 引言
在排水领域,深隧是深层排水调蓄隧道的简称,一般是指埋设在地下空间(一般指地面以下超过20m深度)、用于调蓄/输送雨水或合流污水、通常具有较大调蓄容量的隧道。近年来,国内学者在深层排水隧道技术的应用与发展趋势,深隧系统控制优化、控污效果分析方向做了大量的研究[1,2,3,4]。
建设深隧工程一般有两大目标,一是防汛目标,主要在于提高排水系统安全性,实现提标和内涝防治;二是控污目标,主要在于减少初期雨水污染及CSO排放。如图1所示,由于深隧系统的整体构架在于深隧系统与原有排水系统组成新的排水系统,需要二者共同作用以达到工程目标,深隧提标的本质是在原有系统增加入流点,改变原有系统的水力线,消减部分超过系统设计标准暴雨的水量,从而达到原有雨水系统提标。
图1 深隧功能实现示意
Fig.1 Deep tunnel schematic
深隧工程防汛和控污这两大之间存在即统一,又矛盾的复杂关系。“统一性”在于这两大工程目标需要统一在同一工程中来实现,必须相互统筹兼顾;而“矛盾性”则在在于两个工程目标实现的前提条件和运行模式并不完全匹配,在某些情况下,两个工程目标之前还存在一定的冲突。例如,在一定条件下,为实现一定毫米数降雨不放江(例如控制10mm的初期雨水)的控污工程目标,要求前10mm的降雨进入深隧系统后再启动市政泵;而为了实现系统排水能力提高的内涝防治目标,深隧系统要求主要作为削峰的调蓄容积使用,即初始时刻不进深隧,等待雨峰时刻启用削峰,本质上讲,两大功能均是通过深隧的调蓄空间实现,调蓄空间有限性是导致“矛盾性”的本质原因。
深隧新建入流点通过设置堰保障小雨量条件下可以通过已建系统截污泵提升至污水管网处理,避免对深隧的频繁使用,减少提升的电耗等成本,一般深隧入流点选取可调堰这种更加灵活的控制形式。
堰的调节对于深隧功能的实现有着非常重要的意义,通过模型计算,如果降堰时间过早,深隧系统可能过早充满关闭,无法继续参与削峰而导致系统积水。此外,浅层管网中的水在径流峰值前排入深隧可能会导致市政泵无法完全启动,浅层系统排水能力不能得到充分利用,如果降堰时间太晚,可能会导致入流堰无法及时参与削峰作用。由于市政泵排水能力不足以应对雨峰,如果此时浅层管网已满,而入流堰未及时下降,过堰流量不足,会导致系统积水。因此,在合适的时间进行降堰操作(增加过流能力),增加削峰能力,十分关键。深隧入流堰的调整,即降堰,难点在于降堰时间的判断,因此,本论文主要研究如何利用排水系统的仪表监测数据,实时判断进行降堰操作的时间点。
机器学习作为人工智能的一种类型,可以根据现状收集的大量数据对未来的情况进行预判。简单的说,机器学习就是使用算法分析数据,从中学习并做出推断或预测。鉴于深隧研究与实际运行中会产生大量不断更新的有效数据库,通过机器学习对数据进行分析,从而进行降堰时间的判断可行性较高。考虑深隧降堰的操作为简单的开关类问题,开关类问题隶属监督式学习,有效数据库中的数据被称为训练数据,每组训练数据有一个明确的判断结果,在建立预测模型的时候,通过学习过程的建立,将机器学习的预测结果与“训练数据”的实际结果进行比较,通过不断调整,实现较高的判断准确率。
总体上看,机器学习在金融、交通、医学等领域的应用较多,例如,机器学习已在新冠病毒的预防,管理和监视得到应用,其借助分析大量数据(包括医疗信息,人类行为模式和环境条件)的能力,进行辅助判断与决策[5]。但其在排水方面的应用还不多,少量研究主要集中在风险评估方面,在设施操作的层面研究较少。李杉杉[6]以苏州某园区管网基地数据为基础,基于单学习器逻辑回归法和集成学习器随机森林法对市政管网运维风险评估。
本论文以某地5个排水系统为例(见图2),选取控制因子,建立每个系统的训练数据库,利用不同判别分析算法,实现判别深隧何时降堰的操作。即当监控中心获取的数据序列被判别算法认定为“真”时,发送命令给入流堰进行降堰操作,保证深隧提标目标的实现。
5个排水系统的概况如下:A排水系统为已建分流制系统,总服务面积3.50km2,系统设计暴雨重现期P=1年,综合径流系数ψ=0.6。系统共有两路主干管,两路主干管汇合为3 500mm×2 400mm雨水箱涵;B排水系统为已建分流制系统,总服务面积2.93km2。系统设计暴雨重现期P=1年,综合径流系数ψ=0.6。系统主干管管径DN1 800~2 700;C排水系统为规划待建分流制系统,总服务面积3.28km2。系统规划设计暴雨重现期P=3年,综合径流系数ψ=0.6。系统规划主干管管径DN800~3 000;D排水系统为已建分流制系统,总服务面积2.90km2,系统设计暴雨重现期P=1年,综合径流系数ψ=0.6。系统共有三路主干管;E排水系统为已建分流制系统,总服务面积1.30km2。系统设计暴雨重现期P=1年,综合径流系数ψ=0.6。系统共有三路主干管。
图2 排水系统
Fig.2 Drainage system A-E
1 控制因子的选则及控制思路
1.1 控制因子选则
本章节拟通过关键点敏感参数的特征变化来预判工况,从而指导相关设施的控制和调度,进行水位和流量监测的关键点有:初始水位;二三级管道入流点:可以同时监测水位和流量;泵站前池:位于系统最下游,可以监测其水位;最不利点:即最容易发生积水的点,通常位于系统中上游,且地势较低。可以监测其水位。本论文选取上述因子作为机器学习的数据库,通过对上述实时数据的判别,进行降堰操作的判断。
1.2 控制思路
控制目标:保证防汛安全的前提下(5年一遇不积水),尽可能实现控污(10mm先进深隧):(1)控制要素:可调堰,市政泵。(2)实时数据经过判别计算类别属于“真”,则将可调堰降堰到底。(3)不利点积水(干管),马上触发开泵。
2 判别分析法选取
鉴于要达到的控制目标,本研究拟利用判别分析法对相关变量进行操作判断。判别分析(discriminant analysis)是对未知类别样本进行归类的一种方法。判别分析的研究对象已有了分类,根据抽取的样本建立判别公式和判别准则,然后根据判别公式判别未知类别的样本的类别。
判别分析有着非常广泛的应用,比如在考古学上,根据出土物品判断墓葬年代、墓主人身份、性别;在医学上,根据患者的临床症状和化验结果判断患者疾病的类型;在模式识别领域,用来进行文字识别、语音识别、指纹识别等[7]。
本研究选取距离判别中的线性判别、线性对角矩阵判别、二次判别,以及贝叶斯判别法的NaiveBayes贝叶斯判别,4种判别分析方法对深隧降堰操作进行判别。距离判别及贝叶斯判别的计算原理如下:
距离判别法(马氏距离,Mahalanobis):样本到所属总体的马氏距离(均值向量、协方差矩阵)最近,到其他总体的马氏距离一定较远,其计算原理如下:
设G为p维总体,它的分布的均值向量和协方差矩阵见式(1):
为取自总体G的两个样本,假定>0(为正定矩阵),定义x,y间的平方马氏距离见式(2):
定义x到总体G的平方马氏距离见式(3):
贝叶斯判别法(bayes):距离判别没有考虑人们对研究对象已有的认知,而这种已有的认知可能会对判断的结果产生影响。贝叶斯判别则用一个先验概率来描述这种已有的认识,然后通过样本来修正先验概率,得到后验概率,最后基于后验概率进行判断。其计算原理如下:
设有k个p维总体G1,G2,…,Gk,概率密度函数分别为f1(x),f2(x),…,fk(x)。假设样本x来自总体Gi的先验概率为pi(i=1,2,3…,k),则有p1+p2+…+pk=1。根据贝叶斯理论,样品x来自总体Gi的后验概率见式(4):
若考虑误判代价,用Ri表示根据某种判别规则可能判归Gi(i=1,2,…,k)的全体样品的集合,用c(j|i)(i,j=1,2,…,k)表示将来自Gi的样本x误判为Gi的代价,则有c(i|i)=0。将来自Gi的样本x误判为Gi的条件概率见式(5):
可得任一判别规则的平均误判代价见式(6):
使平均误判代价ECM达到最小的判别规则见式(7):
若样品判规Gi的平均误判代价比判归其他总体的平均误判代价都要小,就将样品判归Gi。
3 计算步骤及成果
3.1 原始数据及标准化转换
表1以A系统为例,根据模型的模拟成果,选取以下变量作为样本矩阵(最后一个数据为假设未知),操作类别为1表明在同一行的监测数据下,应进行降堰操作,操作类别为0表明在同一行的监测数据下,不应进行降堰操作(操作类别通过Infoworks模型工况模拟验证)。
表1 控制因子
Tab.1 Element table of sensitive parameters
由于各变量的量纲和数量级不一致,有的为水位,有的为流量,先需要对数据进行标准化处理,以消除量纲和数量级的限制,便于后续统计分析,原始数据进行标准化处理后如表2所示。
3.2 计算方法及误判率
表3为4种判别方法的预测结果。线性判别函数假定各组的先验分布均为协方差矩阵相同的p元正态分布,由样本得出协方差矩阵的联合估计,然后进行判定;线性对角矩阵采用对角矩阵作为协方差矩阵的估计;二次判别函数假设各组的先验分布均为p元正态分布,但是协方差矩阵并不完全相同:贝叶斯判别法先对样本进行拟合,然后利用朴素贝叶斯分类器对未来的样本进行预测。
表2 原始数据标准化处理
Tab.2 Data normalization in selected sensitive parameters
表3 4种判别方法预测结果
Tab.3 Machine learning results for Bayesian method,linear discrimination,linear diagonal,quadratic discrimination
误判率计算:用P(ji)(i=1,2)表示原本属于第i组的样本被误判为第j组的概率,以B系统线性判别的误判概率的估计为例:P (10)=0/6=0;P (01)=7/12;其误判概率为Err=0.5P(10)+0.5P(01)=0.29,线性对角矩阵法误判概率为29%。
对A、B、C、D、E 5个排水系统误判率进行计算,结果见表4。
表4 误判率统计
Tab.4 Misjudgment ratio for Bayesian method,linear discrimination,linear diagonal,quadratic discrimination
A系统利用线性判别函数进行降堰判断效果较好,误判率为0%;二次判别函数与贝叶斯判别法误判率均为17%,对角矩阵判别法误判率最高,达30%。所有判断方法在该降堰的时候均进行了正确的判断,误判全部为可不降堰时进行了降堰,当降雨级别小于黄色预警时,这类误判危害较小,当降雨级别为橙色与红色预警时,可能造成深隧提前充满,提标防涝的目标难以实现;B系统利用判别函数进行降堰判断效果一般,误判率为29%~46%;虽然线性判别函数的误判率最低,为29%,但其出现了该降堰未降堰的误判,其他判断方法在该降堰的时候均进行了正确的判断,误判为可不降堰时进行了降堰,总体来说,判断结果不令人满意,原因可能为样本与总体分布偏差较大;C系统、E系统利用线性判别函数进行降堰判断效果较好,所有判断方法在该降堰的时候均进行了正确的判断,误判全部为可不降堰时进行了降堰;D系统利用线性判别函数进行降堰判断效果较好,误判率为4%;二次判别函数与对角矩阵判别法误判率均为40%,且出现了两次该降堰未降的误判,效果较差。贝叶斯判别法误判率达32%,同样出现了两次该降堰未降的误判;综上可知,距离判别方法中线性判别效果较好,贝叶斯法的效果较差。
4 结语
本文以某地5个排水系统为例,选取敏感参数,通过4种机器学习判别方法对排水系统控制的关键步骤进行辅助决策,其中距离判别法的线性判别法的判断效果最优,平均误判率低于10%,取得了较好的辅助决策效果,但不同排水系统受排水系统特征、控制因子代表性、判别方法、样本数量、样本与总体的接近程度等因素的影响,其误判率相差较大,特别是某些排水系统完全依赖辅助决策进行运行控制的风险较高,然而考虑机器学习的效果依赖训练样本的数量,训练样本可以通过静态模拟及实际运行积累大量有效数据进行不断扩充,训练样本越接近总体,判断效果应越好,因此,机器学期用于复杂工况下的辅助决策仍然具有一定的理论及现实意义。
作者图片
李鹏程
[1] 夏霖.城市深隧排水系统防涝控污效果模拟[D].北京:中国水利水电科学研究院,2019.
[2] 谭琼,张建频,时珍宝.英国泰晤士河深隧工程建设思路与启示[J].上海水务,2018,34(4):58-61.
[3] 汤舒.东濠涌深隧排水系统内涝监测与控制优化研究[D].广州:广州大学,2017.
[4] 王广华,陈彦,周建华,等.深层排水隧道技术的应用与发展趋势研究[J].中国给水排水,2016,32(22):1-6,13.
[5] 宁晴,鲍泓,徐成.新冠病毒疫情预测模型研究方法评述[A].中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2020年第二十四届网络新技术与应用年会.
[6] 李杉杉.基于机器学习的市政管网运维风险评估[D].哈尔滨:哈尔滨工业大学,2020.
[7] 谢中华.MATLAB统计分析与应用:40个案例分析[M].北京:北京航空航天大学出版社,2010.