基于线性回归法预测南方居民夜间合法用水量研究
0前言
DMA (District metering area) 是20世纪80年代英国首先提出的一个概念, 通常指的是有一个或者几个进水口, 具有独立的永久性供水边界, 并能准确计量供水量和售水量的独立供水区域。国际水协 (IWA) 将DMA小区内无收益水量分为3类: (1) 未收费的合法用水量; (2) 表观漏损量; (3) 物理漏损量[1~3]。其中, 第一项也称免费水量, 为正常用水量, 不是控制的重点。第二项和第三项是无收益水量的主要控制部分。目前, 我国很多供水企业仍难以对无收益水量按类型进行分离计量, 给漏损控制造成了较大困难。
为解决上述问题, 供水企业可从两方面开展工作:一是对供水区域内居民水表抽样校定误差, 并且加大偷盗水稽查力度, 该方法工作量大, 效果难以预料;二是测定供水区域内有代表性的居民夜间合法用水量, 运用夜间最小流量法确定物理漏损, 该方法操作简单, 效果较好[4,5]。
DMA技术是指将供水管网分割成若干小的区域, 实时监控封闭区域的夜间最小流量[5], 结合夜间合法用水量参数进行漏损量化和判定[6], 以达到高效控制漏损的目的。该技术在欧美地区应用相对广泛[7~9], 在漏损的分析和控制方面已经形成相对有效的方法体系, 如果可以解决其中重要参数量化的不确定问题, 将进一步拓展DMA技术在控制水量损失方面的应用范围, 并提高漏损判定的效率。另外, DMA技术在国内应用时, 国外推荐的参数范围:英国1.7~2.5L/ (户·h) , 加拿大3L/ (户·h) , 马来西亚5L/ (户·h) , 德国、奥地利0.6 L/ (户·h) , 澳大利亚1.08L/ (户·h) [5], 并不适宜直接照搬挪用。研究适合国内的DMA技术应用重要参数量化方法, 对于该技术在国内控制管网漏损具有重要意义。
以往夜间合法用水量的研究案例大多是在人工抄录机械水表的条件下, 对居民进行抽样分析, 用户样本普遍偏少, 周期短。由此计算的夜间合法用水量参数, 在准确性和一般适用性方面都存在一定的问题。鉴于夜间合法用水量参数在DMA技术中的重要性, 以及过去分析条件的局限性, 本文利用南方某市自来水公司的智能户表实时远传数据, 对居民夜间合法用水量进行了深入的研究分析。该自来水公司自2014年起开始对居民小区安装远传智能水表, 型号为LXSGZ-20, 具备以下特点:计量精度达4位小数, 且始动流量小, 记录传输数据频率为15min/次, 具备防倒转、防抖动、防磁干扰、防私拆设计的功能, 水表正常工作寿命可达6年以上。截至2014年底已有8个小区17 000余户完成了调试并投入运营, 本文主要以这17 000余户为基础样本, 对居民夜间合法用水量进行了研究。
1 居民夜间合法用水量分析
1.1 夜间合法用水量定性分析
1.1.1 区域夜间合法用水总量分析
考虑到夜间合法用水量是用来与夜间最小流量结合估算漏损的, 两者的时段应该统一, 所以首先要确定夜间最小流量的时段, 以此作为居民夜间合法用水量数据的调取时段。如图1所示, 根据在该市建立的4个DMA小区实时传回的总进水量数据, 初步确定了该市居民小区的夜间最小流量时段为3:00~5:00。
以小区为单位, 汇总8个智能户表小区2015年每天3:00~5:00的小时平均用水总量后发现, 各个小区的夜间时均用水总量均呈现出随机波动的特点, 并且基本在一定范围内波动, 偶尔存在急剧突变。
鉴于区域夜间时均用水总量这种随机波动的特点, 分别绘制了8个智能小区2015年夜间用水总量的频数分布直方图, 见图2, 并进行了描述统计, 其结果如表1所示。每个小区不同日期夜间时均用水总量的概率分布都呈现出中间高两边低的特点, 并且主要集中在狭窄的区间内。在接近最大值和最小值的流量区间内, 出现的次数极少, 属于突变的离群流量。
2.1.2 夜间合法用水量的用户分布规律分析
考虑到夜间用水总量是由大量用户随机变化综合的结果, 拟采用统计学方法对夜间合法用水量分布规律进行研究分析。
在研究中, 首先利用17 000余户智能水表传回的夜间用水量数据, 以单户次夜间用水量大小为分类依据, 按不同的大小区间, 对夜间用水量的分布规律进行了描述统计。
(1) 以所有用户全年以及若干天的单户次夜间用水量集合为样本, 将单户次夜间用水量大小划分成不同的区间, 分别统计各区间内的户次数, 如图3所示。从选取的若干天统计结果可以看出, 就所有用户而言, 每天都存在约50%的用户夜间用水量为0, 并且随着夜间用水量的增加, 用户数量逐渐减少, 单户次夜间用水在200L/h以上的用户几乎为0, 全年的统计结果也呈现出相同的趋势, 由此可以推断, 不同日期的“户数—夜间合法用水量区间”都存在这种分布趋势。
(2) 另外, 采取同样的数据样本和分类方法, 分别计算各区间内的夜间用水量占样本总和的比值, 如图4所示, 随着夜间用水量区间的增长, 区间内夜间用水量的占比呈现出上升的趋势, 并且各日期以及全年的统计结果都具备相同的趋势。
(3) 总而言之, 虽然每天夜间合法用水量较大的用户占少数, 但却是区域夜间合法用水量主要组成。
夜间用水是用户的随机行为, 用户用水概率与实际用水量大小, 将决定区域夜间合法用水总量的大小。从单一用户的角度来看, 每户长期的夜间用水概率和用水量大小应该与该户人口数、用水习惯、用水器具类型等因素有关, 具备一定的随机性, 很难逐户量化。为了研究不同用户之间夜间用水的分布规律, 考虑到户日均用水量也与住户人口、用水习惯、用水器具类型等因素有关, 故采用“户日均用水量”作为分类标准, 以0.1m3/d为户日均用水量区间步长, 将17 000余户分成了不同的用户群体, 分别统计各类用户群体2015年的“平均夜间用水概率”和“户均夜间实际用水量” (平均夜间用水概率为全年所有用户夜间用水非零的户次之和与全年总户次之比, 其中, 单一用户任何一天夜间3:00~5:00用水非零即算作实际用水1户次, 全年总户次为所有用户数乘以总天数;户均夜间实际用水量是全年夜间用水总和与实际用水户次之比, 剔除了夜间用水为零的户次, 不同于户均夜间合法用水量) , 见表2。
结果发现, 随着“户日均用水量”区间的增长, 处于该区间的用户“平均夜间用水概率”与“户均夜间实际用水量”大小也逐渐提高。由于“户均夜间合法用水量”是“平均夜间用水概率”与“户均夜间实际用水量”的乘积, 因此, 随着“户日均用水量”区间的增长, “户均夜间合法用水量”也呈现出递增的趋势, 并且是指数式递增。
由于户日均用水量较高的区间内户数很少, 该部分用户的户均夜间合法用水量可能缺乏代表性, 从而影响了图形的平滑性, 数据整体基本呈现出指数级增长的趋势 (见图5) 。
2.2 夜间合法用水量量化方法研究
夜间合法用水量在DMA小区的漏损估算中是重要的参数, 对于新的DMA小区, 其夜间合法用水量往往是未知的。研究确定一种夜间合法用水量参数的估计方法, 以估算区域夜间合法用水量是比较经济且具备推广价值。经过前文对区域夜间合法用水量和用户分布规律的分析, 拟将区域夜间合法用水量的估计研究分为两部分: (1) 夜间合法用水量平均值的估计; (2) 夜间合法用水量波动范围的估计。
2.2.1 夜间合法用水量平均值的估计
区域夜间合法用水量是用户数量和户均夜间合法用水量的函数, 因此户均夜间合法用水量 (年度平均) 参数的估计是关键。本文采用了两种方法估计户均夜间合法用水量参数, 并评估了这两种参数估计方法在区域夜间合法用水量估算上的有效性。
2.2.1. 1 样本总体平均值法
样本总体平均值法即以17 000余户样本的户均夜间合法用水量 (年度平均) 为推广参数, 这与国内外抽样统计, 将样本均值作为推广参数的方法类似。经过计算, 17 000余户的户均夜间合法用水量为3.75L/h。
这种方法是不考虑用户之间的区别, 采用单一无识别的参数进行估计, 将其与8个智能小区的实际户均夜间合法用水量进行对比, 如表3所示, 可以发现该方法获取的参数并非适用于所有小区, 部分小区的相对误差可达到20%以上。也就是说并非所有小区的户均夜间合法用水量 (年度平均) 都处于同一水平, 采用统一的参数去预测可能造成部分小区的误差过大。
2.2.1. 2 户均夜间合法用水量线性回归预测法
从不同户均日用水量区间的用户夜间用水特点可以推测, 当用户数量达到一定规模时, 户均夜间用水量与户均日用水量可能存在正相关关系。基于此推测, 本文继续对不同小区的户均夜间用水量与户均日用水量的关系进行了分析, 以各小区全年的户均夜间用水量与户均日用水量为样本 (见表4) , 进行了相关性分析。
经过计算户均日用水量和户均夜间合法用水量的皮尔森相关系数r=0.872, P=0.02<0.05, 线性相关程度较高。因此假设两者为线性相关关系, 继而进行了线性拟合, 其拟合公式为:

式中x———户均日用水量, m3/ (户·d) ;
y———户均夜间用水量, L/ (户·h) ;
r2———拟合优度。
为了判断拟合公式是否为户均夜间合法用水量y关于户均日用水量x的线性函数, 以及线性回归方程是否有实用价值, 采用t检验法对回归方程进行了检验, 显著性水平为0.05。
经过计算:
根据t检验法[10]的判定标准, 得出户均夜间合法用水量y关于户均日用水量x的回归效果显著, 具有一定的实用价值。因此, 可采用该回归公式作为居民小区户均夜间合法用水量的预测方法, 见图6。
2.2.1. 3 两种预测方法的对比
从表3和表5误差分析结果可以看出, 样本总体平均值法得到的单一参数在不同小区应用时, 与部分小区的实际值差别很大。这也说明了不同小区的户均夜间合法用水量是具有特异性的, 单纯采用统一参数去估算所有小区夜间合法用水量, 会造成部分小区误差过大。而线性回归预测法考虑到了小区之间的差别, 整体具有较高的准确性, 不存在个别小区误差过大的现象, 线性回归预测法是一种具有小区识别功能的夜间合法用水量预测方法。
2.2.1. 4 夜间合法用水量平均值线性回归预测方法准确性的验证
线性回归公式的拟合与误差分析采用的是8个相同样本小区, 虽然线性回归预测法在这8个样本小区的估算精度良好, 但是单纯从该角度进行误差分析, 其结果并不能说明这种方法在其他小区推广时仍具备良好的效果。对此, 需要用新的小区加以验证。
为了检验线性回归预测法在其他小区的应用效果, 特调取了2015年新安装的6个智能小区1年的远传数据, 对线性回归公式加以验证。户均夜间用水量和户均日用水量为年度平均值。计算结果如表6所示, 各个小区的相对误差均在15%以内, 并且大部分小区的相对误差在10%以内, 整体准确性较高。
2.2.2 夜间合法用水量波动区间分析
从每天的区域夜间合法用水总量来看, 始终沿着年度平均值上下随机波动, 并且大多数样本点都在平均值上下某一范围内。考虑到每个小区的夜间合法用水总量始终存在少量的突变点, 所以在分析夜间合法用水量波动区间的规律时, 仅估计了95%的波动区间。
结合图2区域夜间时均用水总量概率分布直方图, 可知每个小区不同日期夜间合法用水总量的概率分布都呈现出中间高两边低的特点, 且8个小区合法用水量的单样本K-S (Kolmogorov-Smirnov) 正态检验中的双侧渐近显著性值均大于0.05, 见表7, 因此根据K-S正态检验结果判定每个小区的夜间合法用水总量分布服从正态分布[11]。
根据正态分布有关理论, 其95%的概率分布区间为: (平均值±2×标准偏差) 。由此计算各小区的理论95%概率分布区间边界值, 见表8, 标准偏差的大小即为表征夜间合法用水总量波动区间宽度的关键参数, 研究发现其大小与区域夜间合法用水总量的平均值存在显著的线性拟合关系, 如图7, 其拟合公式为:

t检验结果:|t|=3.911>t0.05/2 (6) =2.365, 回归效果显著。
在应用夜间合法用水量参数分析漏损量时, 夜间合法用水量的大小一般可采用年度平均值。如果1天的夜间最小流量直接扣除夜间合法用水总量平均值, 得出的漏损量95%误差范围即为: (-2~2) 倍标准偏差。
3 结论
(1) 不同日期的区域居民夜间合法用水总量在一定的范围内随机波动, 这是由用户用水波动造成的。从用户用水情况来看, 每天都存在50%左右的用户夜间用水为0, 并且高流量范围的用户数量占比小、用水量总和占比大。若按户日均用水量区间将所有样本用户分成不同的群体, 随着户日均用水量区间水量的提高, 区间内用户的年度户均夜间用水概率和户均实际用水量逐渐增大。
(2) 就不同的区域而言, 户均夜间合法用水量存在较大的差异, 国内外常以用户抽样的方法分析户均夜间合法用水量, 得到的结果往往是单一的平均值或范围值, 没有小区识别功能, 在进行推广应用时, 部分小区会存在很大的误差, 影响漏损的量化。
(3) 将区域所有用户的户均日用水量的年度平均值与户均夜间合法用水量的年度平均值进行线性拟合分析后, 表现出显著的回归效果, 并且在其他小区夜间合法用水量年度平均值预测的推广上具有良好的精度。
(4) 根据样本数据分析, 采用年度平均值实时估计夜间合法用水量时, 其误差范围宽度与用户夜间合法用水总量的年度平均值存在显著的线性关系。
[2] 陆宇尘, 潘浩, 张晓兰, 等.如何在计量分区中通过漏损分离进行漏损控制.给水排水, 2013, (S1) :505~509
[3] 李晓华, 魏占锋.利用DMA分区技术降低管网漏损率.给水排水, 2016, (S1) :270~272
[4] 潘浩, 陆宇尘, 李明, 等.用户夜间用水量测量及其在漏损控制中的应用.给水排水, 2012, 38 (5) :95~98
[5] 刘阔, 徐锦华, 赵顺萍, 等.基于独立计量区的供水管网漏损控制技术研究和应用.见:中国水利学会2014学术年会论文集.1029~1034
[6] 李露, 余健, 李栋, 等.基于DMA技术的小区漏损控制案例分析.给水排水.2016, 42 (3) :115~118
[7] A Lambert.Interpreting measured night Flows.WRc Managing Leakage Series, UK:UK Water Industry, 1994
[8] Fanner P V, Sturm R, Thornton J, et al.Leakage management technologies.Water Intelligence Online, 2008
[9] Armando D N, Michele D N, Anna D M.Water supply network district metering:theory and case study.Cism Courses&Lectures, 2013
[10] 盛骤.概率论与数理统计简明本.第4版.北京:高等教育出版社, 2009
[11] 吴喜之.非参数统计.第4版.北京:中国统计出版社, 2013.159 ~170