办公建筑室内人员在室情况识别方式的研究与应用

作者:李峥嵘 朱晗 张信民 李璨君
单位:同济大学
摘要:有关建筑人员行为的研究主要分为人员位移与人员动作2个层面,研究与应用该领域成果的前提为相关行为数据的获取。人员位移为实时的室内人员在室情况。针对该研究领域的相关需求,认为人员在室情况的数据获取应具有动态地、自动地识别室内人员数量及位置的功能,并有效保障室内人员的隐私。基于图像分类技术及骨骼追踪技术,开发了连接Kinect体感传感器的动态室内人员在室情况识别程序(DIOIK),并通过4 h的视频验证,得到其平均识别准确率为93.57%。
关键词:人员行为 人员在室情况 图像分类 骨骼追踪 人员隐私

    

0 引言

   人员行为是影响建筑能耗的关键因素,无论是在建筑能耗模拟领域,还是在智慧建筑运行优化领域,人员行为的影响都是必须考虑的重要一环,因其是造成建筑能耗不确定性的关键因素 [1,2,3,4]

   对于人员行为的研究,主要需要定量反映建筑中人员移动与动作的一些关键基本特征,例如随机性与不确定性、对环境刺激的反馈性及个体行为的多样性等 [5]

   关于建筑内的人员移动,其实质为室内的人员在室状况(什么时候有人、有多少人、都有谁)。人是否在房间,是他(她)对房间内部设备产生控制动作的先决条件,而人员进出房间的时刻往往也是动作发生的时刻。由人员移动引起的室内人数变化,是导致室内发热量随机变化的主要原因之一 [5]。具体来说,在建筑能耗中,非工作时间的消耗非常大。例如,有研究表明92%的行政机构建筑内人员为访客,每天的人员在室情况变化巨大 [6]。办公建筑中,无人员在室情况下设备关闭率低于50%,因此可通过识别人员在室情况来减少能源消耗 [7]。此外,基于人员在室情况的控制被用于通风 [8]和照明领域 [9]。人员在室信息也可以和人员偏好相结合,达到人员偏好和最小能耗之间的平衡 [10]。因此,准确地监测与识别室内人员在室情况十分必要。

   关于室内人员在室情况识别与监测方式的研究,目前常用的技术有红外线、蓝牙、Wi-Fi、射频(RF)等,识别模式主要分为AOA,RSSI,TDOA几大类。石为人等人使用无线传感器网基于RSSI测距,采取中值策略,采用包含环境衰减因素的无线信号传播模型及空间补偿模型改进定位算法,定位误差在3 m范围内 [11]。王欣等人利用电子罗盘获取室内人员的地磁特征和运动方向信息,通过粒子滤波算法估计人员位置,定位误差在2 m以内 [12]。王焱利用Wi-Fi采集人员在室的空间分布信息,选取关联规则、聚类分析进行数据挖掘,得到人员在室停留的时间模式,根据人员在室情况可减少能耗26.1% [13]。陈思翰利用手机和室内基站,采用Fang算法实现TDOA定位,定位精度平均值达到3.1 m [14]。孔庆达等人采用iBeacon技术,运用KNN算法进行指纹库匹配,引入卡尔曼滤波算法对采集信号即定位结果分别处理,将1 m以内定位精度提高到80%以上 [15]。祁春阳综合利用手机传感器采集运动数据,引入稀疏自编码器多层神经网络结构的识别模型,识别率达到86.23%,提出基于CNN网络的运动状态识别模型,识别率达到89.34% [16]。党小超等人提出HDFi检测方法,采用相位信息作为特征值,利用Wi-Fi采集人员不同状态的数据,然后利用SVM算法建立模型与CSI指纹库数据进行匹配,正样本率大于0.2时,对室内人员行为检测率达到90%以上 [17]

   对于建筑室内人员在室情况的识别,如何避免侵犯人员的隐私是当前的技术难点。隐私是当事人不愿意公开或只公开于具有保密义务的人的信息。个人数据隐私保护是互联网中的重要问题。实际上,基于机器学习的人员在室识别方法的基础是视频数据采集和计算机存储,其数据安全威胁现在已经是一个重大问题 [18]。肖像权是隐私的重要部分,当人物形象暴露在采集的视频中时,采集者不能保证数据安全时,隐私会处于危险的状态 [19],并且许多人对摄像机录制视频图像感到不适,视频图像需要通过一系列方法处理,对源信息进行模糊或加密,尽量避免图像获取进行人员在室情况识别的方式 [20]

   上述研究都为室内人员在室情况的监测与识别做出推进。通过采用不同技术手段与硬件支撑,实现对室内人员位移的动态监测。然而从建筑用能角度所提出的室内人员在室情况识别的需求入手,在2个方面仍需进行拓展:首先,在室情况需要包括人员在房间内的位置信息,考虑到人员对于室内环控末端的控制行为模式与人员所处位置相关,例如若人员位于房间外区(靠近窗户的位置),会相对产生更多开窗及调节遮阳行为,位于房间内区(远离窗户的位置)的人员则该行为相对较少;其次,若需要通过人员携带某种设备从而实现在室情况的识别(例如通过Wi-Fi进行识别),则会出现如果人员未携带该设备,识别就会失效的问题。基于上述提出的2个方面及当前的研究现状,可以归纳出针对建筑用能领域的室内人员在室情况识别的需求如下:

   1) 识别室内的人员数量、人员位置;

   2) 便于后续应用的动态的、自动的状态识别;

   3) 充分考虑人员隐私问题。

   因此,本文开发了相应程序DIOIK(dynamic indoor occupancy identification with Kinect),并以体感传感器Kinect作为硬件基础,实现上述需求。在方法论一章阐述程序的原理及配置,在讨论章节阐述识别技术的耦合规则及实现形式,并对识别准确率进行分析。

1 方法论

   根据上述的相关文献综述,认为对于室内人员在室情况的监测识别,需要同时考虑监测方式的效率及人员的隐私性问题。因此,本研究中,关于室内静止人员的识别,采用图像分类技术与骨骼追踪技术结合的形式来实现;对于室内移动人员的识别,单独采用骨骼追踪技术实现。

1.1 传感器的选择

   以某公司开发的Kinect为硬件基础,并通过开发平台Kinect for Windows SDK开发“建筑室内人员在室识别程序”(DIOIK),通过该程序实现图像分类识别与骨骼追踪,并最终实现对于室内人员在室情况的自动识别。识别的实现方式如图1所示。

图1 DIOIK连接Kinect实现室内人员在室情况识别的方式

   1 DIOIK连接Kinect实现室内人员在室情况识别的方式

    

1.2 基于SqueezeNet的图像分类技术识别静止人员

1.2.1 深度卷积神经网络(CNN)

   针对普通图像的识别,采用深度卷积神经网络(CNN)的方式进行人员是否存在于标定区域的识别。考虑到在给定等效精度下,具有较少参数的CNN架构的实现方式,需要具备更高效的分布式训练 [21]、将新模型导出到客户端时减少开销 [22],以及可行的FPGA和嵌入式部署等功能 [23],本文采用SqueezeNet作为CNN的架构,与常用的AlexNet架构相比,SqueezeNet可在减少参数数量的同时维持相同等级的精度。

   其中,完整的SqueezeNet架构如表1所示 [22]

   1 SqueezeNet架构

    

    


参数
压缩信息 修剪前 修剪后
过滤器尺寸 浓度 s1×1(#1×1
squeeze)
e1×1(#1×1
expend)
e3×3(#1×1
expend)
s1×1
sparsity
e1×1
sparsity
e3×3
sparsity
#bits 参数 参数

7×7/2(×96)
1       10%(7×7) 10%(7×7) 10%(7×7) 6bit 14 208 14 208

3×3/2
0                  
  2 16 64 64 100% 100% 33% 6bit 11 920 5 746
  2 16 64 64 100% 100% 33% 6bit 12 432 6 258
  2 32 128 128 100% 100% 33% 6bit 45 344 20 646

3×3/2
0                  
  2 32 128 128 100% 100% 33% 6bit 49 440 24 742
  2 48 192 192 100% 50% 33% 6bit 104 880 44 700
  2 48 192 192 50% 100% 33% 6bit 111 024 46 236
  2 64 256 256 100% 50% 33% 6bit 188 992 77 581

3×3/2
0                  
  2 64 256 256 50% 100% 30% 6bit 197 184 77 581

1×1/1(×1000)
1       20%(3×3) 20%(3×3) 20%(3×3) 6bit 513 000 103 400

13×13/1
0                  

总计
                1 248 424 421 098

    

    

1.2.2 SqueezeNet在室内人员识别算法中的实现

   目前常用的CNN框架有很多,比如Caffe,MXNet,Chainer,Keras及Torch等,这些框架都可以定义SqueezeNet的本地配置格式。考虑到速度、模块化等优势,本研究最终选用Caffe这一深度学习框架 [24]。Caffe是纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口,可以在CPU和GPU之间无缝切换。Caffe中的网络都是有向无环图的集合,可以直接定义如下:

   name: "dummy-net"

   layers {name: "data" …}

   layers {name: "conv" …}

   layers {name: "pool" …}

   layers {name: "loss" …}

1.2.3 模型的训练与部署

1.2.3.1 模型训练的样本采集

   训练模型需要采集样本,故首先使用普通摄像头从多个房间的不同角度进行数据采集,并对需要识别人员的区域进行标注,如图2所示。

图2 对识别区域的标注

   2 对识别区域的标注   

    

   为了避免出现过拟合,通常需要输入充足的数据。为了得到更加充足的数据,通常需要对原有的图像数据进行几何变换,改变图像像素的位置并保证特征不变。具体包括以下几种处理方式:

   1) 旋转、反射变换:随机旋转图像一定角度;改变图像内容的朝向。

   2) 翻转变换:沿着水平或者垂直方向翻转图像。

   3) 缩放变换:按照一定的比例放大或者缩小图像。

   4) 平移变换:在图像平面上对图像以一定方式进行平移,可以采用随机或人为定义的方式指定平移范围和平移步长,沿水平或竖直方向进行平移。改变图像内容的位置。

   5) 尺度变换:对图像按照指定的尺度因子,进行放大或缩小;或者参照SIFT特征提取思想,利用指定的尺度因子对图像滤波构造尺度空间。改变图像内容的大小或模糊程度。

   6) 对比度变换:在图像的HSV颜色空间,改变饱和度S和亮度分量V,保持色调H不变。对每个像素的SV分量进行指数运算(指数因子在0.25~4.00之间),增加光照变化。

   7) 噪声扰动:对图像的每个像素RGB进行随机扰动,常用的噪声模式是椒盐噪声和高斯噪声。

   原始数据经过上述增广处理后,有效样本数量增加了20倍。

1.2.3.2 模型的训练

   首先划分训练集和验证集,其中训练集占70%(约35万张图像),验证集占30%(约15万张图像),训练集和验证集中的图像分别来自不同的视频,防止同源样本导致模型产生过拟合问题。

   编写Solver配置文件(Caffe本地格式)。其中Solver的处理流程如下:

   1) 设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络;

   2) 通过Forward和Backward迭代地进行优化来更新参数;

   3) 定期评价测试网络(可设定多次训练后,进行一次测试);

   4) 在优化过程中显示模型和Solver的状态。

   在每一次的迭代过程中,Solver做了以下几步工作:

   1) 调用Forward算法来计算最终的输出值,以及对应的Loss;

   2) 调用Backward算法来计算每层的梯度;

   3) 根据选用的Solver方法,利用梯度进行参数更新;

   4) 记录并保存每次迭代的学习率、快照及对应状态。

   每隔1 000轮输出当前迭代的学习率及在验证集上的准确率、损失值等。通过对比迭代训练过程中验证集上的准确率,选出最优结果对应的模型作为实际的部署模型。本文选择第5 000轮迭代训练产生的模型作为最终的输出模型,在验证集上的准确率为75%左右。

1.3 基于Kinect的骨骼追踪技术识别人员

   通过利用上文提到的Kinect设备的体感技术,并在SDK开发平台中进行模型的提取与配置,可实现室内人员的骨骼追踪,从而动态地识别人员在室状况。

   在Kinect V2的SDK 2.0中,它最多可以同时获取到6个人、每个人25个关节点的信息,并且通过深度探头,可以同时获取到这些关节点的坐标。

1.3.1 骨骼追踪技术

   Kinect采用分割策略将人体从复杂的背景中区分出来,在这个阶段,为每个跟踪的人在深度图像中创建所谓的分割遮罩(分割遮罩是为了排除人体以外背景图像,采取的图像分割的方法)。如图3所示,这是一个将背景图像(比如椅子和宠物等)剔除后的景深图像。在后面的处理流程中仅仅转送人体图像即可,以减轻体感计算量。

图3 Kinect将背景图像剔除后的景深图像

   3 Kinect将背景图像剔除后的景深图像   

    

   将人体从复杂背景中区分出来后,需要对景深图像进行评估,从而判别人体的不同部位。某公司开发了Exemplar系统,对骨骼追踪模型进行训练。其数据量达到TB量级。图4为用来训练和测试的Exemplar样本案例。

图4 训练和测试的Exemplar样本案例

   4 训练和测试的Exemplar样本案例   

    

   其中,Kinect使用一种多深度特征的分类器来识别物体,并通过特征确定身体的部位,其公式如下:

   fθ(Ι,x)=dl[x+udl(x)]-dl[x+vdl(x)](1)

   式中 x为像素值;dl(x)为像素值在图像I中的深度值;1/dl(x)为偏移正规化,用来处理人体尺寸的缩放,这是一个非常简单的特征,也就是简化目标像素uv值这2个像素深度偏移的不同;θ=(u,v),uv是一对偏移向量。

   这些特征测量与像素周围区域的3D外形相关,足以说明手臂和腿之间的区别。

   通过上述公式训练决策树分类器,从而区分人体的不同部位。这些训练过的分类器指定每一个像素在每一个身体部分的可能性。简单地为每一个身体部位挑选最大概率的区域。例如,如果“手臂”分类器是最大的概率,这个区域则被分配到“手臂”类别。最后计算分类器建议的关节位置(节点)的相对位置作为特别的身体部位。

   最后,使用之前阶段输出的结果,根据追踪到的所有关节点来生成一幅骨架系统。Kinect会评估Exemplar输出的每一个可能的像素来确定关节点。通过这种方式Kinect能够基于充分的信息准确地评估人体实际所处位置。另外模型匹配阶段还做了一些附加输出滤镜来平滑输出及处理闭塞关节等特殊事件。

1.3.2 利用骨骼追踪实现人员的识别

   由于具有自动识别及避免侵犯人员隐私的特点,采用基于体感识别的骨骼追踪技术逐渐成为了人员位移或人员在室情况识别方法中先进技术的代表。骨骼追踪技术基于深度相机可以投射点云,使其通过分析投射点的直径,并结合红外摄像头估算与测点的距离,进而收集有关背景的信息。在云光谱中出现物体后,该物体立即扰乱云,改变点的直径,并使相机能够测量物体形状进而识别出人体,从而监测人体运动的动态 [25,26,27]。Nasir等人使用骨骼信息识别室内人员及人员身份信息,准确率达到约87.1% [28]。Sun等人使用骨骼追踪识别室内人员,在多种房间内光照良好情况下平均识别准确率约为89%,在黑暗条件下平均识别准确率约为59% [29]。Merad使用骨骼追踪判断相机视野中人员头部的数量,对人员数量进行确定 [30]

1.3.2.1 获取深度和彩色图像帧(数据帧)

   获取深度图像帧的步骤如图5所示。

图5 获取深度图像帧的步骤

   5 获取深度图像帧的步骤  

    

1.3.2.2 绘制骨架

   获取深度图像帧后,将数据读取到IBodyFrame,进而建立一个6 m的二维数组,用于存储6个人的关节点信息,在这个数组中确定某一维(人)之后,再从这一维中读取出详细的关节信息。关节点所在坐标系的结构如图6所示(其中坐标原点为深度摄像头的位置)。

图6 Kinect的坐标系结构

   6 Kinect的坐标系结构   

    

   在对关节点进行详细处理中,模型会对每个关节点进行3种状态的判定,分别为:TrackingState_NotTracked, TrackingState_Inferred, TrackingState_Tracked,其中第1个和第3个分别代表没有侦测到和侦测到,第2个代表推测,表示它利用一些不太完全的信息推测出此关节点的位置。为了精确起见,本文在DIOIK编译中只接受TrackingState_Tracked状态。最终效果如图7所示。

图7 DIOIK的最终呈现效果

   7 DIOIK的最终呈现效果   

    

2 讨论

2.1 图像分类与骨骼追踪在DIOIK中的耦合

   通过方法论的介绍,DIOIK为实现室内人员在室情况的核心环节,并通过DIOIK实现与Kinect的连接,以及嵌入图像分类技术与提取骨骼追踪技术,进而实现两者的耦合,最终完成对室内人员在室情况的动态自动识别。

   将2种技术进行耦合的要求为以下2点:

   1) 程序自动识别与存储室内人员在室情况;

   2) 最大限度降低对室内人员隐私的影响。

   此外,关于室内人员的在室情况,又分为以下2种:静止人员和移动人员。

   根据上述的2个要求,为2种人员在室情况分别制定耦合规则,从而最终实现识别功能。

2.1.1 识别的时间步长与判定规则

   根据实测,在固定区域的实际检测中,会出现“人员突然低头、趴下或蹲下”等情况,导致大部分甚至整个身体部位被其他物体遮掩,这种情况下会给检测结果带来噪声。考虑到实际的监测过程是连续的,可以通过参考前面几次定时检测的结果,并对当前检测结果因受到噪声影响而产生误判进行修复。具体判定规则如下:

   每10 s进行1次识别,每60 s进行1次状态的判定,即通过6次识别得到1次判定。在6次识别中取多数的结果作为该1 min、该区域的人员在室情况判定结果。

   对于输出为有人和无人分别为3次(2种识别结果数量相同)的情形,为了最大限度降低错判概率,则判定与上1 min判定状态相同。

   判定规则效果示例如表2所示。

   2 判定规则效果示例

    

    


状态分布(1:有人;0:无人)
判定结果

1;1;1;1;0;0
1;1;1;1;1;1
0;1;1;1;1;1
有人
有人
有人

0;0;0;0;1;1
1;0;0;0;0;0
0;0;0;0;0;0
无人
无人
无人

0;0;1;1;0;1
1;0;0;1;0;1
0;0;0;1;1;1
与上1 min的判定状态相同
与上1 min的判定状态相同
与上1 min的判定状态相同

    

    

   如表2所示,第1类情况在1 min内判定为有人的次数大于无人的次数,则该时刻该位置的人员在室状况为有人;第2类情况则判定为无人;第3类情况由于有人无人次数相同,无法通过次数大小进行判定,则“维持原判”,即与上1 min的状态相同,最大限度减少误差的出现。

2.1.2 静止人员识别的2种技术耦合

   对于移动人员的在室情况识别,仅依靠骨骼追踪技术就可以实现。而对于静止人员的识别,为了最大限度地提高识别准确率及最小限度地影响人员的在室隐私,需制定图像分类与骨骼追踪技术的耦合规则来实现自动识别。

   如上文图像分类技术模型训练所述,在目标房间内,需提前标定静止人员所处的常用位置,对于办公室来说,“静止人员”在大多数情况下属于“静坐人员”,即坐在自己的固定工位上。所以对于DIOIK的应用,应事先标定房间内各工位的位置。

   当房间内出现人的时候(比如人走进了房间),这种情况属于移动人员,本身就属于骨骼追踪技术负责的部分,由骨骼追踪进行跟踪,当该人员进入到标定区域时,启动启发式规则,开启图像分类技术的运行,确定有人员进入到了标定区域。当人员进入标定区域后,关闭图像分类技术的运行,单独采用骨骼追踪技术进行持续的跟踪。当骨骼追踪技术识别出标定区域内的人员动作产生较大幅度的改变时(比如识别出人员站了起来,或者身体的一部分离开了标定区域,或者骨骼追踪技术丢失了区域内的人员跟踪等),开启图像分类技术,进行进一步的识别,并将结果加以修正。其耦合规则如图8所示。

图8 图像分类与骨骼追踪技术的耦合规则

   8 图像分类与骨骼追踪技术的耦合规则   

    

2.2 DIOIK的效果验证

   基于开发DIOIK的2个要求,也就是自动识别及其准确率,和尽量避免隐私问题这2个方面,本文分别进行阐述。

2.2.1 隐私问题的解决

   Kinect设备可被定义为体感传感器,并不是传统意义上的摄像头,在室内人员完全明确该设备的监测方式后,应会减少对该监测方式的抵触程度。其开启后的效果如图9所示。

图9 传统摄录画面与DIOIK界面的区别

   9 传统摄录画面与DIOIK界面的区别   

    

   DIOIK所获取的画面如图9b所示,仅以“火柴人”的形式呈现人员的骨骼形态,通过该方式避免真实画面的提取,从而减少对人员隐私的影响。

2.2.2 DIOIK识别准确率

   使用同济大学某学生工作室作为DIOIK的识别结果验证房间,同时安装Kinect连接DIOIK,采用普通摄像头拍摄,以拍摄视频作为真值进行验证,监测时段为2018年3月17日13:00—17:00。工位位置如图10所示。由于Kinect安装角度问题,仅对1~6号工位进行识别。

图10 各工位位置

   10 各工位位置   

    

   DIOIK的识别效果与视频真值的比较如图11~16所示。

图11 1号工位识别效果

   11 1号工位识别效果   

    

图12 2号工位识别效果

   12 2号工位识别效果   

    

图13 3号工位识别效果

   13 3号工位识别效果   

    

图14 4号工位识别效果

   14 4号工位识别效果   

    

图15 5号工位识别效果

   15 5号工位识别效果   

    

图16 6号工位识别效果

   16 6号工位识别效果   

    

   其中,实线为视频真值,虚线为DIOIK识别结果,2条线若重合则说明识别准确,反之则说明识别错误,纵坐标1时为有人,0时为无人。

   可以看出,1,4号工位的识别效果较好,准确率达到了100%,相对来说这2个工位的人员在画面中“暴露”得比较明显,Kinect能较好地进行图像与骨骼的捕捉。

   2号工位的识别中出现了一定的偏差,会在某1 min内出现误判,但会在下1 min时恢复正常(本文称为“跳值现象”),分析是由于该工位的人员由于位于画面的角落,有时会由于坐姿的原因“离开画面”,估计能够通过调整Kinect的角度,或在房间的其他位置增加布点来解决,该工位的识别准确率为92.12%。

   3号工位的识别效果与2号工位类似,在监测前期也会出现“跳值现象”,分析仍是由于Kinect角度的原因,在画面中,工位2的人员仅仅露出头部,为图像分类与骨骼追踪技术造成识别的困难,因为在图像分类模型的训练中,采集的多是常见的人员坐姿图像,且对于骨骼追踪技术来说,若人体的大部分不能呈现在画面中,则会降低识别的准确率。但好在该人员的工作习惯比较“好动”,这会为骨骼追踪模型带来提示,某种程度上也会帮助模型进行正确的识别。后续也可以通过调整Kinect角度或增加布点,以及增加对仅露出头部的图像纳入训练集的方式提高识别准确率。该位置目前的识别准确率为94.61%。

   5号工位在所有位置的识别效果中最差,分析认为与该工位所处的位置有关。该人员背对画面,且所坐的椅子靠背较高,且椅子颜色与该人员的衣着颜色相近,此外该人员的工作习惯比较“好静”,在工位办公时几乎一动不动,仅在该人员产生动作,或离开工位及回到工位时给予DIOIK以提示,使其能够再次持续追踪骨骼。后续的改进措施认为需要增加相反Kinect朝向的布点,使该位置的人员正对Kinect,从而提高准确率。该位置目前的识别准确率为77.18%。

   6号工位所面临的问题与5号工位相同,同样背对Kinect,但由于该人员产生活动的频率远高于5号工位人员,且所穿衣服颜色较鲜艳,以及座椅靠背较低,造成对于该位置的识别准确率相对较高。但该位置的识别会出现另外一个问题,即当3,4,5号工位的人员起身离开自己的位置并向外走时,若产生停留,由于画面为一个二维平面,造成这些人员会从6号工位前“掠过”,对6号工位有人无人的识别造成误导。对于该问题,其中的一个解决方案是尽量升高Kinect的安装角度,但会受到层高的限制;另一个解决方案为从程序端入手,其他人员“掠过”该工位的时间较短,在出现该类情况时,增加程序的结果后处理功能,从而减少该类识别错误的发生。该位置目前的识别准确率为97.51%。

2.2.3 DIOIK中图像识别技术的使用占比

   当识别过程中启发使用了图像识别技术,需要调用当前时刻的正常画面,则说明该时刻的识别某种程度上侵犯了室内人员的隐私。故本文在同样的实测房间统计这一时刻出现的比例,以此说明该识别方法对于人员隐私侵犯的程度。

   在Kinect传感器中为镜像画面,如图17所示。

图17 Kinect传感器中的镜像画面(与图10对称)

   17 Kinect传感器中的镜像画面(与图10对称)   

    

   需要注明的是,2号工位为测试统计人员,故在不同场景下均会出现。

   其中,1~4号及6号工位的骨骼追踪表现良好,并未出现失效的情况,故并不用触发使用图像识别技术(图像识别技术使用占比为0),因此对这5个工位的人员在室情况识别并不会侵犯人员的隐私。图18~21显示了1~4号及6号工位Kinect画面及实测画面。

图18 1号和2号工位Kinect画面及实测画面

   18 1号和2号工位Kinect画面及实测画面   

    

图19 3号工位Kinect画面及实测画面

   19 3号工位Kinect画面及实测画面   

    

图20 4号工位Kinect画面及实测画面

   20 4号工位Kinect画面及实测画面   

    

图21 6号工位Kinect画面及实测画面

   21 6号工位Kinect画面及实测画面   

    

图22 5号工位Kinect画面-骨骼追踪生效及失效情况

   22 5号工位Kinect画面-骨骼追踪生效及失效情况  

    

图23 5号工位实测画面

   23 5号工位实测画面   

    

图24 有人员进入房间时的Kinect画面及实测画面

   24 有人员进入房间时的Kinect画面及实测画面   

    

   然而,对于5号工位的识别,如图22所示,由于人员距离传感器较远,且背对Kinect传感器,如果长时间久坐于工位上,骨骼追踪并不能较好地识别出人体形状,因此会出现“跟丢”的状况。这也是导致5号工位识别准确率较低的原因。通过4 h的实测数据统计,平均有47%的时间需要触发图像分类技术进行辅助识别修正。笔者分析认为对于该工位的骨骼追踪效果与工位人员的办公习惯有关:若该人员习惯长期保持相对静止地坐在工位上,则会影响骨骼追踪的效果;反之,若该人员习惯于较为频繁地改变坐姿,骨骼追踪的识别效果相对较好。

   5号工位实测画面如图23所示,有人员进入房间时的Kinect画面及实测画面如图24所示。

   此外,还有一种情况会导致骨骼追踪的识别失效:当人员进入房间并挡住某一工位人员时,如图25中3号工位的情况所示。因此,该类情况出现时,骨骼追踪与图像识别同时会失效,其失效时间占比与该类情况出现时长和次数有关。

   DIOIK识别准确率汇总如表3所示。

   3 DIOIK识别准确率汇总

    

    


工位编号
识别准确率/%

1
100.00

2
92.12

3
94.61

4
100.00

5
77.18

6
97.51

平均
93.57

    

    

3 结论

图25 3号工位上人员被进入房间内人员遮挡时的
Kinect画面及实测画面

   25 3号工位上人员被进入房间内人员遮挡时的 Kinect画面及实测画面   

    

   通过对于DIOIK开发、识别判定规则的阐述,以及识别效果的讨论分析,可得到如下结论:

   对于以建筑能耗模拟及用能系统控制优化研究为需求的室内人员在室情况监测与识别,需要同时满足实时识别出室内人员数量及位置的功能。室内人员在室情况识别工具的开发与应用,应实现自动的、动态的识别,以及最大限度地避免对人员隐私带来的影响。而本文所提出的DIOIK程序连接Kinect体感传感器的识别方式,可满足上述需求。

   通过对DIOIK识别效果的验证,在满足人员完全呈现在画面中的前提下,识别准确率可达到100%,但若不满足这个前提,程序的识别会受到一定程度的影响;此外若有人员在传感器面前遮挡住了另一个人员,则对于后者的识别也会失效。因此仍有提高准确率的空间,具体可行的解决措施为:

   1) 在房间内安装多个Kinect并连接DIOIK,同时尽可能提高Kinect的安装位置,避免其他位置的人员由于移动“掠过”其他工位;

   2) 扩充图像分类模型的训练集,增加人员特写、不同衣着的样本,提高图像分类技术的识别效果。

   此外,DIOIK程序的开发针对于具有人员常驻位置的房间,如具有固定工位的办公室及具有固定座位的会议室,故该程序的应用目前针对办公建筑。此外,由于1台Kinect体感传感器可同时识别6名人员,因此若房间内需识别的人数大于6人,需额外加装Kinect进行完全识别。

   综上,通过将骨骼追踪与图像识别进行技术耦合,可以同时实现对于移动人员和静止人员在室情况的实时监测。并且考虑办公室人员在室情况的特点,即大部分情况下人员位于各自的工位上处于静止状态,2种技术的耦合可以确保识别的准确率,根据实测验证,平均准确率为93.57%。虽然在触发启用图像分类技术时仍会涉及到侵犯人员隐私的问题,但通过实测发现仅在其中1个背对Kinect传感器的工位中出现该情况。因此,可以认为通过本文提出的基于骨骼追踪与图像识别耦合的室内人员在室情况动态识别方法可以有效提升人员在室的识别效果。在程序识别过程对2种技术的使用比例方面具有进一步研究的空间,故计划在后续对于DIOIK的优化开发过程中嵌入逐时输出图像识别技术与骨骼追踪技术使用占比的功能,可用于深入评价程序的识别准确率及影响人员隐私的程度。

参考文献

   [1] HOPFE C J,HENSEN M J L.Uncertainty analysis in building performance simulation for design support[J].Energy and Buildings,2011,43:2798-2805

   [2] ZHANG W,TAN S,LEI Y,et al.Life cycle assessment of a single-family residential building in Canada:a case study[J].Building Simulation,2014(7):429-438

   [3] ATTIA S,GRATIA E,D E HERDE A,et al.Early decision support for net zero energy buildings design using building performance simulation[C]//Clean Technology for Smart Cities and Buildings (CISBAT),2013:4-6

   [4] HOES P,HENSEN J L M,LOOMANS M G L C,et al.User behavior in whole building simulation[J].Energy and Buildings,2009,41(3):295-302

   [5] 王闯.有关建筑用能的人行为模拟研究[D].北京:清华大学,2014:34-35

   [6] GUL M S,PATIDAR S.Understanding the energy consumption and occupancy of a multi-purpose academic building[J].Energy and Buildings,2015,87:155-165

   [7] WEBBER C A,ROBERSON J A ,MCWHINNEY M C,et al.After-hours power status of office equipment in the USA[J].Energy,2006,31:2823-2838

   [8] LEEPHAKPREEDA T,THITIPATANAPONG R,GRITTIYACHOT T,et al.Occupancy-based control of indoor air ventilation:a theoretical and experimental study[J].Science Asia,2001,27:279-284

   [9] GUO X,TILLER D K,HENZE G P,et al.The performance of occupancy-based lighting control systems:a review[J].Lighting Research & Technology,2010,42:415-431

   [10] SINGH V,KRAUSE A,GUESTRIN C,et al.Intelligent light control using sensor networks[C]//International Conference on Embedded Networked Sensor Systems,2005:218-229

   [11] 石为人,熊志广,许磊.一种用于室内人员定位的RSSI定位算法[J].计算机工程与应用,2010,46:232-235

   [12] 王欣,张亚君,陈龙.一种基于环境磁场的室内移动人员定位方法[J].杭州电子科技大学学报(自然科学版),2013,33:1-4

   [13] 王焱.基于Wi-Fi室内人员定位技术和数据挖掘对在室人员的研究[D].西安:西安建筑科技大学,2017:35-39

   [14] 陈思翰.基于Fang算法的TDOA室内定位技术[J].太赫兹科学与电子信息学报,2017,15:752-755

   [15] 孔庆达,余成波,李彩虹.卡尔曼滤波在iBeacon室内定位系统中的应用[J].电讯技术,2017,57:450-456

   [16] 祁春阳.基于多层神经网络的人员室内运动状态识别方法研究[D].北京:中国矿业大学,2018:38-40

   [17] 党小超,黄亚宁,郝占军,等.基于信道状态信息的无源室内人员日常行为检测方法[J].通信学报,2019,40:160

   [18] MARTINS N,CRUZ J M,CRUZ T,et al.Adversarial machine learning applied to intrusion and malware scenarios:a systematic review[G]//IEEE Access,2020,8:35403-35419

   [19] KITAHARA I,KOGURE K,HAGITA N.Stealth vision for protecting privacy[C]//Proceedings of the 17th International Conference Pattern Recognition,2004:404-407

   [20] NAKASHIMA S,KITAZONO Y,ZHANG L,et al.Development of privacy-preserving sensor for person detection[C]//Procedia-Social and Behavioral Sciences,2010,2(1):213-217

   [21] ASHRAF K,WU B,IANDOLA F N,et al.Shallow networks for high-accuracy road object-detection[EB/OL].[2019-05-01].https://doi.org/10.5220/0006214900330040

   [22] IANDOLA F N,HAN S,MOSKEWICZ M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size[EB/OL].[2019-05-01].http://arxiv.org/abs/1602.07360

   [23] QIU J,SONG S,WANG Y,et al.Going deeper with embedded FPGA platform for convolutional neural network[EB/OL].[2019-05-01].https://doi.org/10.1145/2847263.2847265

   [24] JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[EB/OL].[2019-05-01].http://arxiv.org/abs/1408.5093

   [25] SEER S,BRANDLE N,RATTI C.Kinects and human kinetics:a new approach for studying pedestrian behavior[J].Transportation Research,2014,48(11):212-228

   [26] WANG D,FESENMAIER D R.Transforming the travel experience:the use of smartphones for travel[C]//Information and Communication Technologies in Tourism 2013,Springer,2013:58-69

   [27] DING D,COOPER R A,PASQUINA P F,et al.Sensor technology for smart homes[J].Maturitas,2011,69:131-136

   [28] NASIR N,PALANI K,CHUGH A,et al.Fusing sensors for occupancy sensing in smart buildings[C]//ICDCIT,2015:73-92

   [29] SUN S W,KUO C H,CHANG P C.People tracking in an environment with multiple depth cameras:a skeleton-based pairwise trajectory matching scheme[J].Journal of Visual Communication and Image Representation,2016,35:36-54

   [30] MERAD D,AZIZ K E,THOME N.Fast people counting using head detection from skeleton graph[C]//2010 7th IEEE International Conference on Advanced Video Signal Based Surveill,2010:233-240

   作者简介: 李峥嵘,女,1969年10月生,博士,教授; *朱晗(通信作者) 201804上海市嘉定区曹安公路4800号同济大学机械与能源工程学院 E-mail:hanzhu1991@126.com;

   收稿日期:2019-12-06

   基金: “十三五”国家重点研发计划项目“建筑全性能仿真平台内和开发”(编号:2017YFC0702200);

Research and application of identification method of indoor occupancy in office buildings

Li Zhengrong Zhu Han Zhang Xinmin Li Canjun

Tongji University

Abstract:

   The research on occupant behavior is mainly including two aspects: occupancy and occupant's action. The premise of the research and application is the acquisition of behavior data, and regarding the occupancy is the real-time indoor occupancy. In the view of related needs of this research domain, proposes that the acquisition of occupancy data should realize the dynamic and automatic identification of the number and location of occupants, and effectively protect the privacy consideration. Furthermore, based on the image classification and skeletal tracking technology, develops the dynamic indoor occupancy identification program with Kinect connection(DIOIK), and the average identification accuracy is 93.57% through a 4 hours of video verification.

    

   Received: 2019-12-06

   本文引用格式:李峥嵘,朱晗,张信民,等.办公建筑室内人员在室情况识别方式的研究与应用J].暖通空调,2020,50(7):32-43

   《暖通空调》官方网站:http://www.hvacjournal.cn

    

1175 0 0
文字:     A-     A+     默认 取消