DMA数据质量评估与错误数据识别方法
0 引言
管网漏损是供水行业普遍面临的问题,高漏损率严重制约了水资源的高效利用和供水单位的运营效率。目前管网分区管理是最常用的漏损控制方法之一,其中比较成熟的分区模式为独立计量区(District Metered Area,DMA)。DMA通过关闭边界阀门,在管网中形成独立的供水区域,并实时监测进出DMA的水量,以实现区域内的漏损分析
DMA的数据分析方法主要有2种:一种是通过连续的流量监测,特别是最小夜间流量(Minimum Night Flow,MNF)的监测和分析,评估区域漏损水平,预警新增漏损,指导漏水点探测与修复;另一种是将DMA的净流入水量与用户总用水量作对比,进而进行水量平衡分析,发现查表质量、违章用水等管理因素导致的水量损失问题
目前,智慧水务发展迅速,DMA数据挖掘是其中的重要内容,这就必然要求DMA具有可靠的数据质量。而在实际DMA运行中,常因设备异常或外界干扰等原因而产生错误数据,如果不对其进行处理,很可能使DMA漏损分析结果产生错误,进而导致错误的决策。因此,有必要评估并提高DMA的数据质量,支撑DMA的智慧化管理。
本研究通过分析我国北方某市728个DMA的数据,梳理了常见的DMA数据错误类型,开发了错误数据识别算法,为DMA数据清洗、DMA漏损状况评估以及漏损优化控制提供了依据。
1 研究区域数据概况
本研究中采用的DMA数据由流量计量设备和数据远传设备实现自动获取与传输。数据记录时间间隔为15min,数据记录的时刻为每小时的0分、15分、30分、45分,每日共计96组数据;每组数据包含时间、瞬时流量(m3/h)、累计水量(m3)等信息,其中累计水量为当前水表示数,瞬时流量为当前时刻到下一时刻间平均流量,由累计水量计算得来。本研究共收集了728个DMA自2017年1月1日0:00至2018年12月31日23:45期间的数据。
2 数据错误类型定义及识别方法
2.1 数据错误类型定义
通过对728个DMA数据进行梳理,发现并定义了5种类型的错误数据,分别为时间间断、时间错位、累计水量缺失、累计水量减小、累计水量不变。
(1)时间间断。设备运行正常的DMA每15min记录一组数据,当时间间隔大于15min时定义为时间间断。通过分析发现,时间间断主要包括以下情形:(1)规律性间断:记录间隔为15min的偶数倍,如30min、60min;(2)不规律性间断:数据记录中断后不定时恢复正常,时间间隔有几小时至数日长度不等。表1列出了此类数据错误的2个例子。
这类问题可能的原因包括:(1)远传设备因信号问题导致通讯中断。由于远传水表一般安装在地下设备井室内,通讯信号较弱,有可能发生通讯的中断
(2)时间错位。时间错位是指虽然数据记录的时间间隔仍为15 min,但数据记录的时刻发生改变,如记录时刻变为每时的5分、20分、35分、50分(如表1所示)或其他时刻。时间错位产生的原因可能为远程传输设备时钟故障,以致时间错乱。
(3)累计水量缺失。这类错误是指某段时间累计水量数值为0,瞬时流量亦如此(见图1)。此类异常一般是由于设备故障引起的数据“丢包”导致。与时间间断不同的是,这类错误中数据记录并无缺失,只是对应的水量数值为0。
(4)累计水量减小。若后一累计水量小于前一累计水量(见图2),则定义为累计水量减小。导致这种错误的可能原因包括:(1)DMA进水口出现倒流

图3 累计水量大幅波动、瞬时流量出现极端值
Fig.3 Cumulative flow fluctuates largely and instantaneous flow rate appears extreme values
(5)累计水量不变。这类错误是指相邻时刻累计水量数值相同。它可能仅发生在2个相邻的时刻,如当前时刻的累计水量与上一时刻相等,而下一时刻的累计水量实际上累加入了2个时刻的用水量。只从累计水量上看,这种情况很难发现,但反映在瞬时流量上,则表现为某时刻瞬时流量为0,而下一时刻的瞬时流量为正常值的2倍左右。在基于MNF的漏损分析中,这种错误的影响比较严重,因为若不处理而直接提取,得到的MNF将为0(见图4)。这种情况的可能原因是数据采集设备未能成功采集到流量计量设备的数据,而直接将上一时刻的数据记入。在有些情况下,也会出现累计水量长时间持续不变的情况,瞬时流量0值连续出现(见图5)。此类问题可能是因为远传设备运行异常,无法将新的水量数据上传至终端导致
2.2 错误数据识别算法
在梳理出了上述数据错误类型并掌握了其数据特征的基础上,本研究采用VBA批量处理的方式识别了错误数据,标记了错误数据发生的位置,并统计了各类错误的数据量。算法流程如图6所示。
3 统计结果及分析
3.1 错误数据占比结果
识别出各类错误数据后,统计了各种类型错误数据所占百分比,即错误数据量与应有总数据量的比值,728个DMA的总数据错误率为10.71%,各类型数据错误和平均比例见表2。由于每一时刻记录的数据都可能存在一种以上的错误,所以五种类型错误比例之和高于10.71%。
最普遍的错误为时间间断,存在于每个DMA中;累计水量不变的问题,仅次于时间间断;累计水量减小和时间错位的错误程度分别排在三、四位;累计水量数值缺失的错误程度最低。
3.2 错误数据影响分析
DMA监测数据的分析方法,主要包括MNF分析和总分表差分析。其中MNF能够反映管网的真实漏失水平,用于支撑新增漏损预警和存量漏损评估
在总分表差分析方面,要求累计水量在分析的时间段首末时刻点的数据正确即可。这就要求累计水量无长时间的中断或跳跃。在上述728个DMA中,虽然有些情况下累计水量发生中断或跳跃,但大部分在一段时间后又恢复正常,从总体趋势上来看,并未出现“丢水量”或“虚增水量”的情况。在逐一确认了累计水量示数错误的可修复性之后,最终确定有87个DMA累计水量异常,这些DMA的总分表差分析结果可信度将会较差。
综合上面两个参数,MNF和累计水量示数均可用的DMA有624个,占DMA总数的85.72%。
3.3 错误数据处理方案
从数据角度,本研究提出了数据处理的初步方案。以时间间断为例,单次间断少于7d,年累计间断少于30d,则可直接对数据进行处理,否则应派遣工人到现场检查间断原因,并修理、更换故障设备,补抄缺失数据。处理数据时,首先应判断间断前后累计水量的差值是否在合理的用水范围内。若在合理范围内,根据间断之前14d的用水量求得时变化系数(15min一个),再将间断过程中的累计用水按照时变化系数分配至间断的每一个时刻,填补间断数据。若不在合理范围内,则对设备进行人工检修。
累计水量缺失与累计水量不变也采用上述方法处理。累计水量减小导致计算出的用水量为负值,其原因复杂,应对发生此类问题的DMA重点排查和维护。时间错位对数据质量几乎没有影响,后期加强设备校验,避免此类问题发生即可。
3.4 错误数据处理案例
选取了3个包含错误数据的DMA为案例,利用上述方法针对每类错误数据分别进行了处理,得到的结果分别如图7a、图7b、图7c所示。图7a中包含时间间断和累计水量减小两类错误,经排查水量减小是由于更换水表未及时修正基底值导致,处理后水量在换表前的基础上继续累加,更换及调试阶段间断的水量也得以修正;图7b为累计水量在一段时间内缺失,处理后缺失处的瞬时流量和累计水量均由0变为正常值;图7c为传输延迟导致部分MNF为0,无法支撑漏损分析。图8给出了图7c所述的数据在错误修正前后提取出的MNF对比情况,可以看出,若不修正,多数时间的MNF为0,而修正之后MNF回归正常,可用于支撑新增漏损预警和存量漏损评估。
4 结语
DMA数据是进行漏损分析与控制的基础,本文通过对我国北方某市728个DMA的数据进行统计分析,识别并定义了五类常见的数据错误,分别为时间间断、时间错位、累计水量缺失、累计水量减小、累计水量不变。分析结果表明,每个DMA均存在不同程度的数据错误,总体错误率为10.71%,其大多是由流量计量设备或远程数据传输设备异常导致的。这些错误数据的识别,为DMA数据的质量控制提供了依据。未来将针对上述类型的错误数据,开发相应的数据清洗方法,提高DMA数据质量。
[2]John M.Managing leakage by district metered areas:A practical approach[J].Water21,2004,2:44-46.
[3]刘锁祥,赵顺萍,曹楠,等.供水管网漏损控制研究和实践[J].中国给水排水,2014,31(10):22-25.
[4]刘阔,赵顺萍,王璐,等.独立计量区(DMA)精细化管理研究和实践[J].给水排水,2017,43(5):117-120.
[5]吴潇勇.分区计量法在城市供水漏损控制管理中的应用[J].净水技术,2017,36(7):96-100,114.
[6]袁君,笪跃武,陈渊.分区计量用流量仪日常运行中出现的问题浅析[J].给水排水,2019,45(2):117-121.
[7] 刘阔,徐锦华,赵顺萍,等.独立计量区(DMA)数据分析方法研究[J].城镇供水,2014,增刊:260-262.