基于大数据的城市供水管网风险评估模型研究
1 随机森林
随机森林算法是一种优秀灵活的机器学习算法,也是通过决策树对样本进行训练、预测的分类回归算法
随机森林算法对于多维属性的数据集分类有很高的效率,运行效率和准确率较高,实现起来也较为简单,随机森林算法的主要步骤如下:
(1)设一个训练样本集,集合命名为D,其中,集合样本量是N,采用Bootstrap重采样方法有放回地抽取N个样本,构成一个新的训练集D1。
(2)对每个训练集,生成一棵决策树。假设样本属性数目为M,随机从M个属性中选取m个属性,同时满足条件m<M,在树的每个节点,从M个属性中随机抽取m个属性生成分裂特征集,在生成的集合中选取一个属性作为该节点的分裂属性。
(3)整个决策树生长的过程没有剪枝。
(4)重复以上步骤k次,共得到k个训练集,形成k棵决策树。
(5)按照上述步骤生成的k棵树构成随机森林,并预测其他数据,最终的输出结果将会由每棵树的结果投票获得。
2 管网风险概率预测模型
2.1 数据
本文数据来源为近年来南方某水司日常运行产生的历史管网风险数据。其中水质风险数据集共有数据65 447条,出现水质问题记录5 269条。获取的数据有运行压力、管材、水龄、管径、流速、流量、管长等。爆管风险数据集共有数据12 757条,爆管记录1 131条。包含管龄、管径、管材、所在道路、运行压力等级等基础数据。
2.2 建模过程
分别对获取的不同样本数据集进行建模,建模过程如图1所示。
(1)分别收集爆管风险和水质风险原始数据集。
(2)选取能够反映水质问题/爆管风险的特征作为特征变量。
(3)利用数据归一化等方式对数据进行预处理,筛选出非自然因素导致的风险事件,修正数据录入时产生的错误,剔除明显异常的数据。
(4)采用自助随机抽样方式,即有放回的随机抽取方式处理数据集,这保证了每棵树的训练样本的一致性,使得获取有效的训练及测试样本。
(5)通过训练集搭建随机森林分类模型。
(6)利用测验结果来评估模型的准确度,输出分类结果。
2.3 模型建立
本论文采用R软件随机森林包建立模型。从数据集进行分析,风险数据相较总体数据占比较低,而影响比较大。针对此类数据集,仅仅使用分类精度评价模型得出的结果是有误差的,若使用随机抽样方法抽取训练样本,此时模型难以识别占比较低的风险数据。以爆管风险数据集为例,本论文采用了欠抽样进行样本选择,样本量比例为1∶1,即随机抽取等比例的爆管数据(正样本)和未发生爆管管网数据(负样本)。在模型训练的输入参数中,将管材、运行压力、管龄、管径、道路负荷5个因子设为自变量,管线是否发生爆管为因变量。模型的输出结果为管网发生爆管风险的概率,取值范围为0~1。
ntree和mtry是随机森林模型建立的两个重要参数,其中,ntree代表模型中决策树的数量,缺省值为500;mtry为决策树分类结点处预选的特征个数,缺省值为
3 试验与分析
3.1 评价指标
本研究选取ROC曲线以及混淆矩阵2项指标作为评价指标,表1为混淆矩阵作为评价指标。
通过混淆矩阵,获得下述指标来评估模型性能:
精确度表示预测所有样本的结果与实际结果一致的概率;召回率表示对于样本中某一类预测正确的概率;准确率指正确预测的样本数量占所有预测为该类样本的比重
本研究将通过受试者工作特征曲线(ReceiverOperating Characteristic,ROC)及曲线下面积(Area Under Curve,AUC)来校验模型的精度。当AUC值越接近1,模型效果越好。当AUC值介于0.5~0.7时,表示模型的准确度较低;当AUC值在0.7~0.9内,这表明模型准确度较好;当AUC取值大于0.9时,表明模型的准确性非常高。
3.2 试验结果
以某南方水司供水管网爆管风险数据集为例,选择道路负荷、管径、运行压力、管龄、管材5个因子设为自变量,是否爆管作为因变量,随机抽样方式为欠抽样,建立随机森林分类模型。模型的分类混淆矩阵如表2所示。
计算可知,模型精确度为0.91,正类召回率为0.9,负类召回率为0.95,正类准确率为0.92,负类准确率为0.9。AUC值为0.9,由上述计算数据分析可知该模型表现较为优秀,可以用于预测供水管网发生爆管风险的概率。预测结果实例如表3所示。
该水司水质风险数据集则选择管材、管径、运行压力、流量、流速、水龄、管长7项基本属性因子作为自变量,是否发生水质风险作为因变量,随机抽样方式为欠抽样,建立随机森林分类模型。模型的分类混淆矩阵如表4所示。
水质风险模型的精确度为0.82,正类召回率为0.86,负类召回率为0.79,正类准确率为0.77,负类准确率为0.88。AUC值为0.82,模型整体表现较好。
3.3 绘制专题图
为使得预测结果直观清晰展现出来,本文利用等间隔分类法,将风险概率划分为健康、较好、一般、较差、危险5个级别。如表5所示。
在Arcgis软件中用不同颜色的线显示管网状态分类结果,绘制出管网风险预测专题图,通过管线编号与GIS数据联动,可直观展示预测结果(见图2)。
在专题图中,高风险区域已经被标注出来,业务部门可以对这类高风险区域进行针对性管理,避免出现管网风险问题。
在实际业务中,爆管事件的发生造成的后果影响相较于水质风险造成的影响小且较为容易控制,水质风险事故一旦发生,所造成的影响区域和影响后果都是难以承受的。经过多渠道调研分析得出在管网综合风险管理中,水质风险所占的权重应高于爆管风险,综合了行业内多名专家意见后,管网综合风险定为爆管风险权重40%和水质风险权重60%的加权求和。综合考虑2组数据后,绘制出的综合风险专题图如图3所示。
在专题图中,被标注为深绿色的管线发生风险的概率低于0.2,这表明目前该管段健康状态良好,无需采取更新维护措综合风险专题图,适时检查管网状态即可。图中标注为黄色的管段发生风险的概率介于0.6~0.8,目前该管段已处于风效率高、低效运行状态,发生风险事故的可能性较大,应根据实际运行情况做好计划性更新维护,当条件具备时,应优先考虑对该管段进行更新维护。图中被标注为红色的管段发生风险的概率极高,是需要马上更新改造的管道。
从专题图来看该区域大部分的管线目前处于低风险运行状态,这表明该地区管网风险状态低、健康状态较为良好,基本能保障安全供水。通过综合风险专题图,可分析得出管网风险事故发生的重点区域,此时优先对该区域的管网进行更新改造。
4 结论
对比管网风险预测图与实际管网风险数据,两者对比结果基本一致,预测显示爆管/水质风险概率高的区域,曾发生过的管网风险事故次数也相对较多,表明了模型预测的有效性和价值性。供水单位可根据管网风险预测图重点关注发生高风险概率的管线区域,并对该区域重点监控和巡检,实现提前预警,为供水管网科学化、智能化管理奠定坚实的基础。
将本文提出的模型应用到南方某区域用于供水管网风险评估,得出的预测结果与近年来管网风险实际发生的情况基本相符,该模型能够准确有效地评估管网风险状况,验证了该模型的可行性和实用性。根据评估结果的定性分析,提出区域管网更新改造建议,为供水企业制定管网维护、管网改造优先顺序、优化维修计划提供一定的技术支撑,可保障区域供水安全。管网风险评估模型为水司进行管网更新改造提供了可量化的指标及依据,该模型的建立有着很大的实际应用价值。
综合供水管网爆管风险数据和水质风险数据,供水单位可根据管网综合风险预测图对可能发生高风险率的管线区域重点监控和巡检,实现提前预警,为供水管网科学化、智能化管理夯实基础。
作者图片

参考文献
[1]杨修德.基于XGBoost的超短期负荷预测研究[D].宁夏:宁夏大学,2018.
[2] 周雪欢.电力用户侧大数据分析与并行负荷预测[J].华东科技:学术版,2015,(10):326-326.
[4]任才溶,谢刚.基于随机森林和气象参数的PM_(2.5)浓度等级预测[J].计算机工程与应用,2019,55(2):219-226.