基于决策树模型的居住建筑人员热舒适预测
0 引言
随着计算机和人工智能的发展, 大量数据监测系统和采集平台使得数据获取越来越容易, 机器学习算法在热舒适领域的应用也逐渐受到关注。由于人员的热舒适、行为习惯与热环境、能耗等之间存在复杂的相关性, 难以找到固有的规律, 传统的热舒适评价方法或模型在应用和预测精度上越来越受到挑战[1]。相比之下, 机器学习算法因可以从大量数据中抽取隐含未知的、有价值的或者规律性的认识等优势越来越受到学者的关注和研究。
由于影响热舒适因素众多, 数据的挖掘分析更多地可转化为数据的分类问题。目前热舒适常用的分类方法包括分类树[2]、逻辑回归[3]、贝叶斯网络[4]、神经网络[5]、支持向量机[6]等。Kim等人比较了6种不同学习模型在预测个人热感觉方面的性能, 相比传统的预测平均热感觉指数PMV模型预测精度 (51%) , 6种模型的平均预测精度达73%[1]。而Jiang等人研究显示, 采用支持向量机C-SVC预测个人热感觉的精度可达89.82%, 远高于PMV模型 (49.71%) [6]。一般地, 采用这些模型对室内热舒适进行预测时, 其预测精度相比传统PMV模型可提高17%~40%[1]。热舒适的准确预测使得建筑节能也有了更大的潜力。喻伟等人提出了应用人工神经网络来预测建筑能耗和室内热舒适的方法, 建立了基于GA-BP网络的建筑能耗和室内热舒适状况预测模型[7]。赵博等人也通过结合神经网络和遗传算法, 提出了优化室内热环境控制参数策略, 从而较好地满足了建筑节能和热舒适需求[8-9]。Zhai等人采用极限学习和神经网络结合算法, 分析了传统的空调加机械通风系统的能耗, 指出采用该算法在满足人员热舒适需求下预测最大节能潜力可达30%[10]。这些模型的应用改进了传统的以温度为被控目标的空调系统控制策略, 利用模型较高的拟合精度和泛化能力[11], 从而可以实现以热舒适评价指标为被控参数的空调系统实时控制, 为建筑节能提供了理论基础。
但是, 现有研究多集中在支持向量机、神经网络等模型上, 这些复杂的模型在处理高维信息 (具有大量特征) 和控制噪声方面具有较好的预测优势, 但是模型较复杂, 其计算规则更类似“黑箱”理论, 较难解释。而实际应用中, 不仅要考虑模型的预测精度, 同时也需考虑模型预测的变量获取成本、计算需求和解释能力等。考虑到热舒适的影响因素较少且关系相对明确, 而决策树方法以其速度快、精度高、生成模式简单易懂以及容易转化成分类规则等优点, 在数据挖掘领域被广泛地研究和应用。基于此, 本研究引入新的机器学习算法———决策树模型, 通过不同决策树模型对居住建筑自由运行条件下人员的热舒适和显著影响因素进行建模, 通过建立适宜的决策树模型, 识别对热舒适影响最有效的若干基本因素, 从而为热舒适的评价预测和热环境营造提供新的方法和参考。
1 数据准备
1.1 现场调研
重庆大学热舒适课题组于2008—2010年期间对全国范围内的居住建筑开展了连续1a的热舒适调研, 建立了全国热环境现场调研数据库。调研范围覆盖全国5个典型气候区, 调研内容包括现场热环境实测和主观问卷调查。热环境测试的内容包括室内外干球温度、相对湿度、风速等。其中, 温湿度测试采用手持式温湿度仪 (温度范围:-30~85℃, 精度:±0.5℃;相对湿度范围:0~100%, 精度:±2%) , 风速测试则采用手持式热线风速仪 (测量范围:0~20m/s, 精度:± (0.03m/s+5%测量值) ) 。测试仪器和方法参照ASHRAE 55-2013[12]相关规定, 对于室内测试点选取在受访者腹部周围, 对于静坐者测点高度取0.6m左右, 对于站立者取1.1 m左右。对于室外热环境测量, 测点位于被调研建筑附近空旷场所, 距离地面高度1.5m处, 且避免太阳直射。
热环境测试的同时对室内人员开展了问卷调查。调查内容包括调研的建筑信息 (建筑类型、建造年代、墙体构造、窗户类型等) , 受访者背景信息 (身高、体质量、性别、年龄、职业、在当地居住时间等) , 受访者行为习惯 (当时活动状态、着装、开窗习惯、开窗时间段等) , 以及受访者的主观热舒适评价 (热感觉、热舒适、湿度感觉、吹风感觉、温度/湿度/风速期望、热环境满意度等) , 主要参考ASHRAE55-2013[12]7级标尺和5级、3级标尺不等。
本研究选择涵盖夏热冬冷地区6个主要城市 (成都、重庆、武汉、南京、长沙、杭州) 的居住建筑热环境数据为研究对象。经初步统计, 剔除一些缺失主要信息的样本, 共得到包含6个城市的13 005份样本数据 (成都:2 363, 重庆:2 151, 武汉:2 369, 南京:2 639, 长沙:1 601, 杭州:1 882) 。考虑到供暖空调会对人员热感觉投票有显著影响, 而本研究主要关注居住建筑自由运行情况下的人员热反应, 因此需进一步剔除供暖空调样本。根据问卷设置问题“此时是否使用了空调?若使用, 设置温度为 () ”判断调研期间受访者所处室内环境是否处于自然状态, 并剔除问题选择为“是”的样本。经筛选, 符合要求的6个城市的有效样本量分别为:成都2 336, 重庆2 079, 武汉1 980, 南京2 403, 长沙1 177, 杭州1 703, 总样本量为11 678。
1.2 数据初步统计
首先对数据质量进行检查。由于本研究主要分析影响人员热舒适评价的主客观因素, 根据热舒适理论[13], 影响人员主观热感觉的因素可归纳为3类:生理因素, 可反映为性别差异、年龄、居住时间等;心理因素, 如湿度感觉、吹风感等对热感觉的影响, 长期适应产生的热耐受性等;行为因素, 如活动水平、服装调节、开关窗等。鉴于调研数据库中所含信息超过40条, 其中一些背景资料, 如建筑信息、家用供暖空调设施、使用习惯等与热感觉关联不大, 因此首先筛选了可能影响人员热感觉的20条相关因素开展进一步分析。
由于数据库在录入过程中主要采用文本描述, 如自身的着装情况、活动水平, 以及热感觉、热舒适等, 因此需要将文本信息转化为相应的数学标尺, 或通过赋值转化为离散数据描述。如将6个城市分别赋值1~6, 着装情况转化为服装热阻 (clo) [12], 活动状态转化为代谢率 (met) [12], 热感觉、湿感觉、吹风感等转化为7级标尺 (-3, -2, -1, 0, 1, 2, 3) , 环境期望转化为3级标尺 (-1, 0, 1) 等。通过整理, 初步建立了包含21条信息、6个城市共11 678个案例的Excel统计表, 以便后续分析。
2 模型建立
2.1 决策树模型
决策树是分类应用最广泛的预测模型之一。它基于特殊的层次数据结构, 将多种不同类型的影响因素纳入考虑, 通过一组决策规则来预测或者分类目标变量, 可以较好地反映对象属性与对象值之间的映射关系。树中每个节点表示某个对象, 每个分叉路径代表某个可能的属性值。它是一种有效的非参数学习方法, 与神经网络和贝叶斯方法相比, 决策树无须花费大量时间和进行上千次的迭代来训练模型, 适用于大规模数据集, 表现了很好的分类精确度。同时相比于其他神经网络、支持向量机等模型的“黑箱”建模技术, 决策树可以清楚地了解模型推论过程和内部逻辑, 从而可较好地解释人员主观反应。
现有机器学习中多种算法均可实现决策树分类, 包括分类和回归 (C&RT) 、CHAID方法、QUEST方法、C5.0方法、随机森林等, 不同的模型使用不同的规则算法实现分类。本研究主要基于SPSS Statistics 22.0和Modeler 18.0完成, 通过将数据引入Modeler开展分析建模, 其具体执行流程如图1所示。下文对此作简要阐述。
2.2 数据预处理
虽然通过初步数据筛选, 遴选了影响热感觉的20个因素, 但在实际模型中, 引入的变量越多, 对结果的解释越困难, 模型应用也越困难, 原则上应尽可能引入较少的变量来最大限度地解释结果。因此, 需对选择的20个变量进一步分析, 识别用于预测结果、引入模型的最重要的变量。通过特征选择, 筛选出14个预测变量, 包括城市、性别、年龄、居住时间、服装热阻、活动水平、开窗习惯、窗户开启状态、室内干球温度、室内相对湿度、室内风速、室外干球温度、室外相对湿度、室外风速。
虽然模型给出了影响热感觉的14个重要变量, 但无法排除一些因素之间的相互影响, 或者相关性较强的变量, 如自由运行建筑室内热环境参数和室外热环境参数, 人员的潮湿感觉、吹风感与室内湿度、风速, 窗户开启与室内风速等的关联, 因此需进一步简化。表1给出了部分因素的相关性分析, 可以看出, 室内外温度、相对湿度、风速存在较强的相关性, 且相关系数值较大, 表明室外热环境对热感觉的影响很大程度上可以通过室内热环境参数反映。此外, 窗户的开启状态与室内外风速、开窗习惯等也有较显著的相关性, 因此这一因素也可以通过其他几个因素解释。综合分析, 模型剔除了室外温度、相对湿度、风速和窗口开启状态变量, 模型最终分析变量包括热感觉、潮湿感和吹风感, 预测变量包括室内温湿度、风速等10个。
2.3 C&RT决策树模型建立
由上述分析可知, 决策树分类存在多种模型和方法, 因此首先应选择适宜的模型。通过对几种方法预建模, C5.0, C&RT, CHAID方法具有较好的预测能力, 其预测精度分别为77.1%, 68.5%, 63.3%。考虑到C5.0根据每个级别提供的最大信息收获的字段来拆分样本, 且拆分多于2个子组, 预测得到的模型分支过多, 且存在过度解释的风险。而C&RT模型可以根据交互树构建, 根据实际情况对每层分割变量进行定义和剪枝, 更好地简化模型。因此, 本研究选择了较广泛应用的C&RT方法进行决策树建模。
为了评价模型的预测性能, 建模前对样本进行了分区, 80%样本用来训练模型, 20%用来预测验证。考虑到决策树分割过细, 模型可能失去实际意义和应用价值, 因此需对决策树最大深度控制来确定分割深度。通过对不同分割结果对比, 当选择最大树深度4层、父分支中最小记录数2.0%、子分支的最小记录数1.0%终止分割时, 可以较好地通过变量对热感觉进行解释评价。因此, 本文也基于上述原则开展分析。
3 结果分析
3.1 居住建筑热环境及人员热感觉分布
图2给出了调研的6个城市全年室内空气温度随室外空气温度变化情况。可以看出:自然环境下, 各个城市居住建筑室内空气温度均随着室外温度的升高线性升高, 室外空气温度是影响室内热环境的主要因素, 也侧面支持了上述分析中模型不考虑室外热环境参数的观点。进一步对比几个城市, 其中成都、重庆和南京的室内外温度相关性更强, 其线性回归系数均在0.85以上, 而重庆和成都的温度变化范围更小, 冬季室内温度基本在10℃以上, 而夏季室内温度低于35℃。武汉和杭州室外温度最低可达0℃以下, 最高超过40℃, 导致室内温度也随室外温度变化范围较大 (0~40℃) 。总之, 图2调研结果基本反映了各个地区居住建筑在自由运行情况下的全年气候特点。
统计全年自然环境下受访者的热感觉投票, 图3给出了人员的全年热感觉分布情况。由图3可以看出:虽然全年室内温度受室外影响较大, 但6个城市绝大多数人员对调研期间的热感觉满意度较高, 半数以上人员的热感觉投票值均为0。尤其是在成都和重庆, 热感觉为中性的比例达到72.6%和63.2%。根据ASHRAE 55-2013定义的热感觉可接受范围[-1, 1], 各个城市人员热感觉处于舒适范围的比例均超过80%, 表明人员对室内热环境的可接受度较高。分析其原因:一方面可能是由于人员长期对当地气候和热环境的适应性, 提高了热环境耐受性和可接受度, 从而对环境表现出较高的满意度[14-15];另一方面由于调研居住建筑处于自然环境, 受访者的行为适应, 比如增减服装、开关窗、使用风扇等调节行为并未被限制, 这也进一步提高了受访者的环境可接受度。
3.2 热感觉预测及影响因素分析
基于上述对比优选的C&RT决策树模型, 图4给出了C&RT模型计算得到的影响热感觉的各个预测变量的重要性。可以看出:室内干球温度是热感觉的主要影响因素, 其重要性达87%, 而其他因素的影响较小, 表明居住建筑中人员的热感觉主要受室内温度影响。
结合图2, 考虑到室内温度主要受室外温度影响, 但不同城市的气候条件存在较大差异, 为便于模型更好地解释和应用, 这里强制将第2影响因素城市作为第1层分类特征进行决策数分割, 生成的简化决策树模型如图5所示。
由图5可以看出:当最大树深度为4时, 热感觉模型仅引入了3个分类特征:干球温度、城市和服装热阻。这与图4预测变量重要性结果相一致。当以城市作为第1层分类特征时, 决策树模型自动将成都和重庆作为第1类节点, 而将武汉、长沙、杭州和南京作为第2类节点, 而在第2层分割时, 模型均使用了干球温度作为分类特征。对于成都和重庆, 当环境温度高于28.5℃时停止分割, 而低于28.5℃又进一步以19.0℃作为分割点进行第3层分割。当决策树分割到第4层时, 根据C&RT算法, 分割改进值已经非常小, 继续分割无意义, 因此分割到第4层停止。相比, 对于其余4个城市, 在决策树第2层以温度16.8℃进行了分割。当温度高于16.8℃时, 又将温度进一步以28.0℃为分割点进行分割;而当温度低于16.8℃时, 则以服装热阻值1.12clo为分割点继续分割。
综上可以看出:决策树模型自动判断气候特点将不同城市进行分类, 而在以温度为分类特征时, 并不以中性温度作为分割点, 而是以偏热 (28.5℃) 或者偏冷 (16.8℃) 为第1层分割点, 随后在大于偏冷或者小于偏热的区间内再进一步以温度为特征分割, 而在小于偏冷时则以服装热阻进行细分, 这与人们平时的认知相符, 反映了决策树分割的逻辑性和合理性。参考图1分析流程, 通过对得到的热感觉模型的预测能力分析, 在用于训练模型的样本预测中, 模型的预测精度为68.5%, 在用于测试的样本预测中, 模型的预测精度为65.5%, 反映了决策树模型建立的正确性。
3.3 湿感觉预测及影响因素分析
同样对影响人员湿感觉的因素进行分析, 图6给出了模型计算得到的不同影响因素权重。相比室内空气温度对热感觉影响起主要作用, 对于湿感觉, 不同城市差异对人员湿感觉影响最大, 比例达52%;其次是室内相对湿度和服装热阻, 分别为26%和18%, 反映了各个地区的气候特点和人员的长期适应性差异。
基于此, 以城市作为第1分类特征, 对人员的湿感觉进行预测分析, 其简化模型如图7所示。
由图7可以看出, 相比热感觉模型, 湿感觉模型引入了5个分类特征:城市、相对湿度、服装热阻、空气温度和风速 (v) , 表明人员的湿感觉受更多因素影响。在以城市作为第1分类特征时, 模型将南京和成都、重庆归为一类, 继而以相对湿度70.5%为分割点进行第2类分割。当相对湿度大于70.5%时, 以服装热阻0.33clo作为分割点进行分割, 而当相对湿度小于70.5%时, 与上述分割近似, 以0.39clo作为分割点, 并在模型第4层引入新的预测变量空气温度。对于武汉、长沙、杭州, 模型首先以空气温度16.8℃作为第2层分割点, 而以相对湿度作为第3层分割点。在第4层分割时, 同样又引入了新的分类特征风速和空气温度, 但位于决策树最枝端节点, 表明对整体湿感觉影响不大。
此外, 与热感觉模型相似, 模型在以城市作为第1分类特征后, 同样以高湿或低温作为第2分类特征展开分割, 但服装热阻的影响较显著, 表明服装在湿度作用下会显著影响人员对空气湿度的感觉。通过对模型的预测能力分析, 用于训练模型的预测精度为65.5%, 用于样本测试的模型预测精度为63.7%, 后续需要对模型作进一步的学习训练来提高模型预测精度。
4 讨论
对于自由运行建筑, 虽然空气温度对人员的热感觉有显著的影响 (重要性87%) , 但人员的热感觉还受地区、居住年限、服装等影响。传统的热舒适模型通过建立人员的热感觉与室内外环境温度, 或人员的舒适/中性温度与室外空气月平滑温度/周平滑温度等指标来评价或预测人员在真实环境中的热感觉[12], 模型只允许引入单一或者多个确定变量对人员的热感觉进行预测或者评价, 对一些新的或者影响热舒适的解释变量, 比如人员的性别、年龄、生理适应或行为调节、地区差异等, 这些特征变量却难以通过传统的回归分析等方法与热感觉建立联系[1-2,5-6]。本研究通过决策树建模, 产生了一个可以高度解释的热感觉评价模型。一方面识别了人员热感觉的显著影响因素, 清楚地给出了热感觉与各种影响因素之间的逻辑关系;同时, 模型又最大限度地纳入了所有可能的影响因素, 避免了以往热感觉模型影响因素的单一化和局限性。
随着建筑内各种无线传感技术和便携设备的研发, 使得实时监测和采集热环境和人员热调节等数据成为可能[16]。但在实际应用中, 随着大量数据的不断产生, 相比了解人员热感觉与其他影响因素的理论或相关关系, 管理者可能更关注如何将获得的大量数据直接用于热舒适预测或供暖空调系统调控。在这种情况下, 决策树模型可以更好地遴选影响热感觉的关键因素, 且在采用大量数据集时具有更快的运算速度, 相比支持向量机平均计算时间可缩短2/3[1], 从而可大大减少监测变量的数目和建模成本, 因此在热环境预测和指导上将具有较大的应用潜力。
需要指出的是, 决策树模型的优势在于不断学习训练而实现预测精度的不断提高。本研究主要引入了决策树分析方法, 但模型结果基于一次性批量学习, 因此采用数据质量和样本容量也会一定程度上影响模型的预测精度。通过对建立的热感觉和湿感觉的模型精度评价可以看出, 建立的热感觉模型预测精度约为68%, 低于其他研究的模型预测精度[1,6,16]。一方面由于本研究的样本量较少, 而机器学习算法的特点是学习的样本量越大, 其精度会越高;另一方面, 通过对模型预测值与热感觉投票值分析发现, 模型在预测热感觉位于[-1, 1]范围之外时出现较高的错误率。结合图3热感觉分布, 所采用的调研数据中人员的热感觉投票有80%以上处于[-1, 1]范围内, 而区间之外的样本量较小, 这也可能导致模型无法充分训练学习、掌握数据特征, 引起较大的预测错误率[1]。因此后续应对样本质量和大小、研究对象的数据分布特征等深入研究, 从而逐步改进和提高模型预测精度。
5 结语
引入机器学习算法中决策树分类方法, 分析了夏热冬冷地区6个典型城市自然环境下居住建筑室内热环境和人员热舒适的关系, 识别了热感觉和湿感觉的显著影响因素和权重 (热感觉:空气温度, 87%;湿感觉:城市, 52%) , 建立了以城市为第1分类特征的人员热感觉和湿感觉预测决策树模型。该模型可高度解释人员的热舒适和各显著影响因素之间的内部逻辑, 克服了传统热舒适模型 (如PMV模型、适应性模型等) 分析方法纳入解释变量有限和模型预测精度无法自我完善等不足, 从而为热环境下人员热舒适评价提供了一种新的方法参考。同时, 决策树等一系列机器学习算法的不断发展完善, 未来可为暖通系统的调控提供实际决策指导, 从而实现室内热环境的精准调控和建筑节能减排。
[2]VELLEI M, HERRERA M, FOSAS D, et al.The influence of relative humidity on adaptive thermal comfort[J].Building and Environment, 2017, 124:171-185.
[3]DAUM D, HALDI F, MOREL N.A personalized measure of thermal comfort for building controls[J].Building and Environment, 2011, 46:3-11
[4]GHAHRAMANI A, TANG C, BECERIK-GERBER B.An online learning approach for quantifying personalized thermal comfort via adaptive stochastic modeling[J].Building and Environment, 2015, 92:86-96
[5]LIU W, LIAN Z, ZHAO B.A neural network evaluation model for individual thermal comfort[J].Energy and Buildings, 2007, 39:1115-1122
[6]JIANG L, YAO R.Modelling personal thermal sensations using C-support vector classification (CSVC) algorithm[J].Building and Environment, 2016, 99:98-106
[7]喻伟, 李百战, 杨明宇, 等.基于人工神经网络的建筑多目标预测模型[J].中南大学学报 (自然科学版) , 2012, 43 (12) :4949-4955
[8]赵博, 连之伟, 周湘江, 等.基于神经网络的室内热舒适评判模型[J].哈尔滨工业大学学报, 2003, (12) :1436-1438
[9]徐巍, 陈祥光, 彭红星.基于神经网络和遗传算法优化室内热舒适控制参数[J].北京理工大学学报, 2010, 30 (2) :240-244
[10]ZHAI D Q, SOH Y C.Balancing indoor thermal comfort and energy consumption of ACMV systems via sparse swarm algorithms in optimizations[J].Energy and Buildings, 2017, 149:1-15
[11]孙斌, 蒋能飞, 薛广鑫, 等.最小二乘支持向量机在热舒适性指标中的应用[J].建筑科学, 2011, 27 (8) :66-69
[12]ASHRAE.Thermal environmental conditions for human occupancy:ASHRAE 55-2013[S].Atlanta:ASHRAE, 2013:14
[13]BRAGER G S, DEAR R J D.Thermal adaptation in the built environment:a literature review[J].Energy and Buildings, 1998, 27 (1) :83-96
[14]LI B, TAN M, LIU H, et al.Occupants perception and preference of thermal environment in free-running buildings in China[J].Indoor and Built Environment, 2010, 19 (4) :405-412
[15]LIU H, WU Y, LI B, et al.Seasonal variation of thermal sensations in residential buildings in the hot summer and cold winter zone of China[J].Energy and Buildings, 2017, 140:9-18
[16]DAI C Z, ZHANG H, ARENS E, et al.Machine learning approaches to predict thermal demands using skin temperatures:steady-state conditions[J].Building and Environment, 2017, 114:1-10