DMA数据质量评估与错误数据识别方法

作者:张佳欣 何鑫 翟元鑫 强志民 徐强
单位:中国科学院生态环境研究中心饮用水科学与技术重点实验室 中国科学院大学 北京市自来水集团有限责任公司
摘要:梳理了独立计量区(DMA)流量数据中常见的错误,进行数据质量评估,对于支撑DMA的智慧化管理具有重要意义。收集了某市2017~2018年连续2年共728个DMA的流量数据,识别了5种类型的数据错误,分析了其原因并评估了其影响,为DMA数据质量的提升提供了支撑。
关键词:独立计量区漏损控制数据质量评估
作者简介:徐强,男,1983年出生,山东泰安人,博士,副研究员,主要研究方向为供水管网漏损控制与优化运行。通讯处:100085北京市海淀区双清路18号电话:(010)62849659 E-mail:qiangxu@rcees.ac.cn;
基金:国家水体污染控制与治理科技重大专项(2017ZX07108-002,2017ZX07501-002);

 

0 引言

管网漏损是供水行业普遍面临的问题,高漏损率严重制约了水资源的高效利用和供水单位的运营效率。目前管网分区管理是最常用的漏损控制方法之一,其中比较成熟的分区模式为独立计量区(District Metered Area,DMA)。DMA通过关闭边界阀门,在管网中形成独立的供水区域,并实时监测进出DMA的水量,以实现区域内的漏损分析[1,2]

DMA的数据分析方法主要有2种:一种是通过连续的流量监测,特别是最小夜间流量(Minimum Night Flow,MNF)的监测和分析,评估区域漏损水平,预警新增漏损,指导漏水点探测与修复;另一种是将DMA的净流入水量与用户总用水量作对比,进而进行水量平衡分析,发现查表质量、违章用水等管理因素导致的水量损失问题[3,4]

目前,智慧水务发展迅速,DMA数据挖掘是其中的重要内容,这就必然要求DMA具有可靠的数据质量。而在实际DMA运行中,常因设备异常或外界干扰等原因而产生错误数据,如果不对其进行处理,很可能使DMA漏损分析结果产生错误,进而导致错误的决策。因此,有必要评估并提高DMA的数据质量,支撑DMA的智慧化管理。

本研究通过分析我国北方某市728个DMA的数据,梳理了常见的DMA数据错误类型,开发了错误数据识别算法,为DMA数据清洗、DMA漏损状况评估以及漏损优化控制提供了依据。

1 研究区域数据概况

本研究中采用的DMA数据由流量计量设备和数据远传设备实现自动获取与传输。数据记录时间间隔为15min,数据记录的时刻为每小时的0分、15分、30分、45分,每日共计96组数据;每组数据包含时间、瞬时流量(m3/h)、累计水量(m3)等信息,其中累计水量为当前水表示数,瞬时流量为当前时刻到下一时刻间平均流量,由累计水量计算得来。本研究共收集了728个DMA自2017年1月1日0:00至2018年12月31日23:45期间的数据。

2 数据错误类型定义及识别方法

2.1 数据错误类型定义

通过对728个DMA数据进行梳理,发现并定义了5种类型的错误数据,分别为时间间断、时间错位、累计水量缺失、累计水量减小、累计水量不变。

(1)时间间断。设备运行正常的DMA每15min记录一组数据,当时间间隔大于15min时定义为时间间断。通过分析发现,时间间断主要包括以下情形:(1)规律性间断:记录间隔为15min的偶数倍,如30min、60min;(2)不规律性间断:数据记录中断后不定时恢复正常,时间间隔有几小时至数日长度不等。表1列出了此类数据错误的2个例子。

这类问题可能的原因包括:(1)远传设备因信号问题导致通讯中断。由于远传水表一般安装在地下设备井室内,通讯信号较弱,有可能发生通讯的中断[5]。(2)流量计量设备或数据远传设备断电。采用电池供电的设备若电池寿命到期(流量计量设备电池寿命一般为6年,数据远传设备电池寿命一般为3年)就会导致数据中断;采用太阳能供电的设备则容易因阴雨天气光照不足或者自然及人为原因对太阳能板的破坏而中断通讯[4,6]

(2)时间错位。时间错位是指虽然数据记录的时间间隔仍为15 min,但数据记录的时刻发生改变,如记录时刻变为每时的5分、20分、35分、50分(如表1所示)或其他时刻。时间错位产生的原因可能为远程传输设备时钟故障,以致时间错乱。

表1 DMA数据时间记录错误示例
Tab.1 Examples of time errors of DMA data   

表1 DMA数据时间记录错误示例

(3)累计水量缺失。这类错误是指某段时间累计水量数值为0,瞬时流量亦如此(见图1)。此类异常一般是由于设备故障引起的数据“丢包”导致。与时间间断不同的是,这类错误中数据记录并无缺失,只是对应的水量数值为0。

图1 部分时段累计水量数值缺失

图1 部分时段累计水量数值缺失

Fig.1 Cumulative flow data are missed in some periods

(4)累计水量减小。若后一累计水量小于前一累计水量(见图2),则定义为累计水量减小。导致这种错误的可能原因包括:(1)DMA进水口出现倒流[5]。这种情况通常发生在多进水口的DMA,对于其中任一进水口来说,都有可能在某些时段发生倒流而使得流量计量设备记录的累计水量减小,严格来讲这并不属于数据错误。但由于流量计量设备对倒流的计量精度相对较低,这样多个进水口叠加的DMA净流入水量会出现较大计量误差。(2)DMA边界阀门关闭不严。这种情况下,可能会有水流持续地从关闭不严的阀门处流入,又从装有流量计量设备的DMA进水口流出,使得在某些时段流量计累计水量减小。图2所示的情况很可能属于这一种。(3)流量计量设备自身故障。由于设备自身缺陷或外界干扰,累计水量可能会出现大幅跳跃的情况,在由高值向低值跳跃处,会出现累计水量减小。而此时瞬时水量会出现极端负值,且通常与极端高值成对出现,见图3。(4)流量计量设备更换后,新旧设备之间的数据衔接机制未做好,新设备从0开始记录,在新旧设备衔接处累计水量出现极端下降。

图2 部分时段累计水量减小

图2 部分时段累计水量减小

Fig.2 Cumulative flow decreases in some periods

图3 累计水量大幅波动、瞬时流量出现极端值

图3 累计水量大幅波动、瞬时流量出现极端值

Fig.3 Cumulative flow fluctuates largely and instantaneous flow rate appears extreme values

(5)累计水量不变。这类错误是指相邻时刻累计水量数值相同。它可能仅发生在2个相邻的时刻,如当前时刻的累计水量与上一时刻相等,而下一时刻的累计水量实际上累加入了2个时刻的用水量。只从累计水量上看,这种情况很难发现,但反映在瞬时流量上,则表现为某时刻瞬时流量为0,而下一时刻的瞬时流量为正常值的2倍左右。在基于MNF的漏损分析中,这种错误的影响比较严重,因为若不处理而直接提取,得到的MNF将为0(见图4)。这种情况的可能原因是数据采集设备未能成功采集到流量计量设备的数据,而直接将上一时刻的数据记入。在有些情况下,也会出现累计水量长时间持续不变的情况,瞬时流量0值连续出现(见图5)。此类问题可能是因为远传设备运行异常,无法将新的水量数据上传至终端导致[6]。还有一种可能是流量计量设备因故障被替换后,未及时建立新设备与对应远传设备之间的关联,远传设备仍读取故障设备停止工作时的读数,而导致累计水量不变。

图4 累计水量传输延迟导致部分时间MNF为0

图4 累计水量传输延迟导致部分时间MNF为0

Fig.4 MNF equals 0at some times due to transmission delay of cumulative flow

图5 部分时段累计水量不变

图5 部分时段累计水量不变

Fig.5 Cumulative flow keeps constant during some periods

2.2 错误数据识别算法

在梳理出了上述数据错误类型并掌握了其数据特征的基础上,本研究采用VBA批量处理的方式识别了错误数据,标记了错误数据发生的位置,并统计了各类错误的数据量。算法流程如图6所示。

3 统计结果及分析

3.1 错误数据占比结果

识别出各类错误数据后,统计了各种类型错误数据所占百分比,即错误数据量与应有总数据量的比值,728个DMA的总数据错误率为10.71%,各类型数据错误和平均比例见表2。由于每一时刻记录的数据都可能存在一种以上的错误,所以五种类型错误比例之和高于10.71%。

最普遍的错误为时间间断,存在于每个DMA中;累计水量不变的问题,仅次于时间间断;累计水量减小和时间错位的错误程度分别排在三、四位;累计水量数值缺失的错误程度最低。

图6 错误数据算法流程

图6 错误数据算法流程

Fig.6 Error data identification algorithm flowchart

表2 研究区域DMA数据错误类型及比例
Tab.2 Data error categories and proportions of the studied DMAs   

表2 研究区域DMA数据错误类型及比例

3.2 错误数据影响分析

DMA监测数据的分析方法,主要包括MNF分析和总分表差分析。其中MNF能够反映管网的真实漏失水平,用于支撑新增漏损预警和存量漏损评估[7],分析前需要提取每日MNF,数据缺失或错误比例较大时,会导致分析结果误差大,可信度低。但当数据缺失或错误比例较小时,可以通过删除、插补等预处理方法使其可用。尤其是在评估DMA存量漏损时,只需要一段时间内(如4周)其MNF是正确数据即可。本文分析了728个DMA最后四周(2018年12月4日~2018年12月31日)的数据后发现,有698个DMA最近4周的数据可用,足以支撑存量漏损的评估工作。

在总分表差分析方面,要求累计水量在分析的时间段首末时刻点的数据正确即可。这就要求累计水量无长时间的中断或跳跃。在上述728个DMA中,虽然有些情况下累计水量发生中断或跳跃,但大部分在一段时间后又恢复正常,从总体趋势上来看,并未出现“丢水量”或“虚增水量”的情况。在逐一确认了累计水量示数错误的可修复性之后,最终确定有87个DMA累计水量异常,这些DMA的总分表差分析结果可信度将会较差。

综合上面两个参数,MNF和累计水量示数均可用的DMA有624个,占DMA总数的85.72%。

3.3 错误数据处理方案

DMA数据错误类型多样,存在普遍。从设备角度应从以下方面保证数据质量:注重流量计量设备的选型,提高计量精度;规范设备安装和管理,保证通讯质量;有计划进行巡检和维护;适时校验等[5,6]

从数据角度,本研究提出了数据处理的初步方案。以时间间断为例,单次间断少于7d,年累计间断少于30d,则可直接对数据进行处理,否则应派遣工人到现场检查间断原因,并修理、更换故障设备,补抄缺失数据。处理数据时,首先应判断间断前后累计水量的差值是否在合理的用水范围内。若在合理范围内,根据间断之前14d的用水量求得时变化系数(15min一个),再将间断过程中的累计用水按照时变化系数分配至间断的每一个时刻,填补间断数据。若不在合理范围内,则对设备进行人工检修。

累计水量缺失与累计水量不变也采用上述方法处理。累计水量减小导致计算出的用水量为负值,其原因复杂,应对发生此类问题的DMA重点排查和维护。时间错位对数据质量几乎没有影响,后期加强设备校验,避免此类问题发生即可。

3.4 错误数据处理案例

选取了3个包含错误数据的DMA为案例,利用上述方法针对每类错误数据分别进行了处理,得到的结果分别如图7a、图7b、图7c所示。图7a中包含时间间断和累计水量减小两类错误,经排查水量减小是由于更换水表未及时修正基底值导致,处理后水量在换表前的基础上继续累加,更换及调试阶段间断的水量也得以修正;图7b为累计水量在一段时间内缺失,处理后缺失处的瞬时流量和累计水量均由0变为正常值;图7c为传输延迟导致部分MNF为0,无法支撑漏损分析。图8给出了图7c所述的数据在错误修正前后提取出的MNF对比情况,可以看出,若不修正,多数时间的MNF为0,而修正之后MNF回归正常,可用于支撑新增漏损预警和存量漏损评估。

图7 错误数据处理前后对比

图7 错误数据处理前后对比

Fig.7 Comparison before and after error data processing

图8 错误数据处理前后MNF对比

图8 错误数据处理前后MNF对比

Fig.8 Comparison of MNF before and after error data processing

4 结语

DMA数据是进行漏损分析与控制的基础,本文通过对我国北方某市728个DMA的数据进行统计分析,识别并定义了五类常见的数据错误,分别为时间间断、时间错位、累计水量缺失、累计水量减小、累计水量不变。分析结果表明,每个DMA均存在不同程度的数据错误,总体错误率为10.71%,其大多是由流量计量设备或远程数据传输设备异常导致的。这些错误数据的识别,为DMA数据的质量控制提供了依据。未来将针对上述类型的错误数据,开发相应的数据清洗方法,提高DMA数据质量。

 

参考文献[1]张志明.供水管网漏损控制分区装表计量技术和应用[M].上海:同济大学,2006.

[2]John M.Managing leakage by district metered areas:A practical approach[J].Water21,2004,2:44-46.

[3]刘锁祥,赵顺萍,曹楠,等.供水管网漏损控制研究和实践[J].中国给水排水,2014,31(10):22-25.

[4]刘阔,赵顺萍,王璐,等.独立计量区(DMA)精细化管理研究和实践[J].给水排水,2017,43(5):117-120.

[5]吴潇勇.分区计量法在城市供水漏损控制管理中的应用[J].净水技术,2017,36(7):96-100,114.

[6]袁君,笪跃武,陈渊.分区计量用流量仪日常运行中出现的问题浅析[J].给水排水,2019,45(2):117-121.

[7] 刘阔,徐锦华,赵顺萍,等.独立计量区(DMA)数据分析方法研究[J].城镇供水,2014,增刊:260-262.

Data quality assessment and error data identification methods for DMAs
Zhang Jiaxin He Xin Zhai Yuanxin Qiang Zhimin Xu Qiang
(Key Laboratory of Drinking Water Science and Technology,Research Center for Eco-Environmental Sciences,Chinese Academy of Sciences University of Chinese Academy of Sciences Beijing Waterworks Group)
Abstract: It's important to identify the categories of the error data and assess the data quality for the district metered areas(DMAs)to support their intelligent management.This study collected data from 728 DMAs for two consecutive years(2017~2018),recognized five types of data errors,analyzed their causes and assessed their impacts,providing support for the improvement of DMA data quality.
Keywords: District metered areas; Leakage control; Data quality assessment;
2574 0 0
文字:     A-     A+     默认 取消