基于随机森林的混凝土强度预测研究
0 引言
混凝土是使用量最大的建筑材料且混凝土性能对建筑质量有重要影响。因此,在实际工程项目中,为了保证建筑施工及运营安全,往往需通过大量试验来保证混凝土性能可达到项目和规范要求。混凝土性能评价指标主要包括抗压强度、抗冻性、抗拉强度及抗侵蚀性,其中抗压强度对建筑安全有很大影响,因此,对混凝土抗压强度进行快而准确的预测对实际工程有重要应用价值。
目前,有许多国内外的学者对混凝土预测进行研究,主要研究方法有经验公式法、试验法和智能算法[1,2,3]。在利用经验公式法的研究中,梁凯等利用正交试验获取数据集之后,对混凝土强度进行线性回归预测[4];许开成等利用SPSS软件建立对混凝土强度的多元非线性回归法预测模型,并进行评价[5],利用经验公式进行回归模拟的方法过程简单,但拟合模型精度较差。在利用试验法的研究中,吕春梅利用性能测试仪测量出混凝土的各项物理指标,从而达到预测混凝土强度的目的[6];季春雷利用水灰比测定仪预测混凝土28d抗压强度,建立水灰比与抗压强度的数学关系[7];Rafi等使用试验测试的混凝土圆柱体数据,提出混凝土28d抗压强度的预测模型[8],这种方法有较高预测精度,但只适用于已搅拌的混凝土,预测价值不高。在利用智能算法的研究中,李仲欣等采用BP神经网络预测模型对珊瑚混凝土抗压强度进行预测,并进行了正交试验优化[9];徐国强等基于7个配合比指标,利用三层BP神经网络模型对绿色混凝土进行预测分析[10];靳江伟等基于灰色关联分析,利用支持向量机模型进行强度预测[11];Mozumder等利用支持向量机回归模型预测约束混凝土的单轴抗压强度,并进行敏感性分析[12]。以上研究所涉及的智能算法均为神经网络、支持向量机等传统机器学习算法,这些预测模型需依赖于数据库的正确度,同时易陷入局部最优的状况,从而使预测结果不够准确。
本文针对以上方法存在的缺陷,提出一种基于随机森林的混凝土抗压强度预测模型,选取9个对混凝土抗压强度影响较大的配合比因素,并将28d抗压强度作为混凝土强度评价指标,建立了抗压强度预测体系。然后采用随机森林算法进行预测和重要性分析,并利用Pearson相关性矩阵分析了因素之间的相关性,最后基于随机森林模型进行了混凝土抗压强度预测分析,并与支持向量机和BP神经网络模型的预测结果进行对比分析,验证了所提出的随机森林模型在混凝土强度预测中的可行性,为混凝土强度预测提供了新思路。
1 方法及原理
1.1 随机森林的基本原理
随机森林(random forest,RF)理论的基础是分类树(classification tree)[13]。随机森林采取Bootstrap重抽样方法对每个样本集分别建立决策树模型,在建模时,每棵决策树随机选择特征对内部节点进行属性分裂,从而形成一片随机森林,最终的输出结果为综合决策树的结果。对于回归算法,最终的预测结果为所有决策树输出结果的均值,回归结果分别表示为:
式中:为组合的随机森林模型;hi(x)为单棵决策树模型;Y为输出变量(或称为目标变量);k为随机森林模型中决策树的棵数。
随机森林算法处理回归问题主要有以下优势:(1)有良好的泛化能力,有效防止过拟合现象;(2)无须设置函数形式,更加精准地拟合复杂的非线性关系;(3)模型运行速度较快,采用并行计算方式;(4)能获得因素的重要程度。
1.2 随机森林的泛化误差
对样本集进行抽取的过程中,未被抽取的概率均为,则当N→∞时,则有:
每次抽取时大约有36.8%的样本保留在原始样本集中,这些被保留下来的样本称为袋外数据(OOB),可用于泛化误差的计算。泛化误差可表示为:
式中:X,Y为概率P覆盖X,Y空间。
在随机森林中,当决策树的数目足够多时,E*随着树数目的增加收敛于:
由式(4)可得到结论,模型的泛化误差不会随着决策树数目的增加而造成过拟合现象,而是趋于一个有限上界。这个有限上界为:
式中:为决策树的平均相关系数;s为决策树的平均强度。
由式(5)可看出,随机森林泛化误差的有限上界与的减小呈正相关,而和s呈负相关,则泛化误差可被有效控制。
1.3 随机森林的重要性评价
随机森林主要通过2种方法判断特征变量的重要性,即Gini不纯度进行排序和袋外误差(OOB误差),本文选择后一种方法对特征因素进行重要性评价。基于OOB误差分析随机森林特征重要性的大致步骤如下:(1)构建随机森林模型后,使用相应的袋外数据计算每棵决策树的袋外数据误差r1;(2)随机变换袋外数据中的某因素的顺序,再次计算袋外数据误差r2;(3)假设随机森林决策树的数目为N,那么某个特征因素的重要性I为:
得到每个特征的重要性程度后,进行合理排序,依次剔除1个重要性最小的特征,选择准确率最高且因素数量最少的特征集为最终选取结果,即实现基于随机森林的重要性分析。
1.4 随机森林的回归算法
本文主要基于随机森林的回归算法来实现混凝土抗压强度的预测,主要步骤为[14]:
1)若原始数据集中有n个样本,从中以Bootstrap重抽样随机抽取b个训练样本集,并分别构建回归决策树。每次抽样剩下来的样本称为袋外数据(out of bag,OOB),用作测试样本集。
2)若输入的特征变量有M个,在分枝过程中,应首先从所有特征变量中随机选择m(m≤M)个当作备选分枝,然后根据节点不纯度最小的原则从m个特征中确定最优分枝。
3)每棵回归决策树采用CART法自顶向下递归分枝,通过设定决策树的棵数ntree值,作为生长终止条件。
4)将生成的b棵决策树组合在一起构成随机森林的回归模型,最终输出的预测结果为所有决策树预测值的均值。
2 随机森林预测模型建立
本文所构建的基于随机森林的混凝土强度预测模型的流程如图1所示。先建立混凝土抗压强度初始指标体系和原始数据集,再利用随机森林和Pearson算法对影响因素进行重要性和相关性分析,再建立RF训练模型并进行回归预测,最后对预测结果进行误差分析。
图1 基于随机森林结合支持向量机的抗压强度回归模型流程
2.1 建立初始指标体系和原始数据集
1)基于大量文献及工程实际经验的总结,从混凝土材料配合比层面选择混凝土抗压强度的9个影响因素作为自变量,分别为水泥用量、砂率、水胶比、水泥强度、粗集料用量、细集料用量、引气剂、减水剂和粉煤灰用量,选择28d抗压强度作为混凝土抗压强度的评价指标,从而构建初始指标体系。
2)将指标体系中不同影响因素作为随机森林的变量,进行相关试验,获取原始数据集。
2.2 随机森林的参数设置及建模
1)样本分集以原始数据集中大约2/3的数据作为RF模型的训练样本集,余下包含原始数据集中1/3的数据作为RF模型的测试样本集。
2)参数选择建模过程中,主要涉及2个参数,即回归树的棵数ntree和随机特征的数目mtry。ntree值会影响随机森林模型的训练度和精确度,一般ntree的值越大,模型的精度越高;mtry控制了随机森林模型属性的扰动程度,mtry一般根据经验公式确定,设数据集中的变量个数为P,默认情况下mtry=P(分类模型)或mtry=P/3(回归模型)[15]。
确定了2个参数后,即可利用RF算法对训练样本集和测试样本集建立起随机森林回归模型。
2.3 重要性评价和相关性分析
2.3.1 重要性评价
变量重要性评分(variable importance measure)可评价特征变量对因变量影响程度的大小,从而可确定需管控的关键变量。本文根据式(6)计算特征变量的重要性大小,即采用OOB误差来进行特征变量的重要性评价,它是通过衡量随机置换后的均方残差减小量(%Inc MSE)和模型精确度的减小量(Inc Node Purity)来评价特征变量的重要性,其具体计算步骤如下。
1)分别对每个训练样本集设置回归决策树,可获得b个均方残差,MSE1,MSE2,…,MSEb。
2)当构建回归决策树进行分裂时,特征变量是随机选取的,将变量Xi在b个袋外数据样本中随机置换,则可形成一个新的OOB测试集,并对此再一次预测,获得新的OOB均方误差MSEij,生成矩阵A为:
式中:p为影响因素变量的个数;b为训练样本集的个数。
3)用MSE1,MSE2,…,MSEb与矩阵A的对应行相减,对其取平均值后再除以标准误差便可得到变量Xi的均方残差平均减小量,即特征变量的重要性评分VIMi(MSE)可表示为:
式中:MSEj为第j个样本的均方误差;SE为标准误差。
获得特征变量的均方误差的目的是在模型中加入噪声,以改变模型准确率,模型的准确率变化幅度越大,则说明该特征变量对输出变量的影响越大,该特征变量也越重要。
2.3.2 相关性分析
本文利用Pearson相关系数对各配合比因素与混凝土抗压强度之间的线性相关关系进行了分析,探究其中的相关性。Pearson相关系数是以2个变量之间的均差积和均差平方和为基础进行计算的,因此也称作积差相关系数,Pearson总体相关系数的计算公式表达为[16]:
式中:cov(X,Y)为变量X,Y的协方差;μX,μY分别为变量X和Y的平均值;σX,σY分别为变量X和Y的偏差。
相关系数p的值介于区间[-1,1],2个变量之间的线性关系越强,p值就越接近1或-1。当p>0时,说明2个变量之间正相关;当p<0时,说明2个变量之间负相关;当p=0时,则表明2个变量间不是线性相关,但有可能是其他方式的相关。
2.4 预测结果评价
模型的预测结果根据式(8)取所有决策树的平均值得到,为了评价随机森林的预测精度,可选用均方根误差(RMSE)和拟合优度(R2) 2个评价参数。RMSE可用来描述预测值与实测值之间的偏差,R2可用来描述预测值与实测值之间的相关程度。同时,将随机森林的预测结果同BP神经网络和支持向量机模型预测结果进行对比分析,以验证随机森林模型的优越性。均方根误差和拟合优度表达式如下:
3 案例分析
3.1 工程背景
松通高速公路项目位于我国东北的高寒高盐碱地区,起点位于松原市前郭县,终点位于吉林省白城市通榆县。由于恶劣的自然环境,该项目对混凝土抗压强度有较高要求。因此,本文基于该高速公路项目7个标段中获取混凝土配合比试验数据及抗压强度数据样本(其中抗压强度为28d抗压强度),以C50混凝土为对象进行混凝土强度预测。
3.2 建立原始训练集
根据所建立的初始指标体系,以松通项目土建工程为例,将混凝土抗压强度影响因素作为输入变量,28d抗压强度作为输出变量,选取各变量所对应的91组样本数据作为原始数据集,具体样本数据如表1所示。
3.3 模型的参数设置
1)样本分集根据前文所述,RF模型的训练样本集大约为原始数据集的4/5,测试样本集则为剩余的1/5的原始数据。将原始样本数据随机等分为5份,其中4份作为训练样本集,1份作为测试样本集,本案例中共有91组样本数据,则训练样本集为72组,测试样本集为剩余的19组。训练集用来确定随机森林的参数选择、构建随机森林模型和进行重要性评分,测试集则用来对模型的预测性能进行评估和验证。
2)参数选择随机特征的数目mtry在回归模型中一般默认为数据集中变量个数的1/3,本案例中评价指标体系共包含9个影响因素,通过遍历特征数发现mtry=3时效果最佳,则mtry取值为3。根据理论研究,随机森林回归模型的泛化误差会随着ntree的增加而逐渐收敛,因此应选择一个足够大的ntree值来构建模型,以确保训练集的误差能趋于稳定。采用OOB误差率估计的方法确定ntree值,结果如图2所示。由图2可知,当决策树棵数ntree>500时,OOB误差率趋于稳定,因此本案例中选取ntree=600。
表1 监测的样本数据
表1 监测的样本数据
图2 决策树棵数选择
3.4 重要性评价和相关性分析
1)重要性计算通过重要性评价,可确定影响因素对28d抗压强度的重要程度,根据式(8)计算各影响因素的重要性评分,利用R软件中Random Forest程序包来实现重要性评分计算过程,将不同影响因素的重要性评分降序排列,得到训练模型中各变量的重要性评价,如图3所示。节点纯度的变化幅度(Inc Node Purity)越大,说明该变量对评价指标的影响越大,该变量重要性越大。由图3可知,水胶比、水泥强度、水泥用量、粗集料和细集料用量等变量的重要性度量值较大,说明它们对混凝土抗压强度的影响较大,在实际工程中应格外引起注意。
图3 重要性排序
2)相关性计算利用Pearson函数可对影响因素之间及影响因素与抗压强度之间的相关性进行分析,越强说明因素的影响程度越大,从而对基于随机森林的重要性排序做一个验证,根据式(9)计算特征变量间的Pearson相关系数,使用R软件ggplot2程序包得到变量间相关性绘图结果,如图4所示。Pearson相关系数取值范围为-1~1,浅灰色代表2个变量间呈正相关,深灰色代表呈负相关,圆的颜色越深、直径越大说明2个变量间的Pearson相关系数绝对值越大,则相关程度越强;反之,则相关程度越弱。由图4可看出,水胶比、细集料、水泥强度、水泥用量等变量与抗压强度之间的相关程度明显高于其他影响因素,与重要性排序结果大致相同,说明这些影响因素对抗氯离子扩散系数影响较大。
图4 相关性
3.5 模型训练及预测
本文从原始数据集中随机选取72组数据构建随机森林模型的训练样本,剩余的19组数据则是测试样本,基于水胶比、氯离子含量、水用量、平均粒径、水泥用量、砂率共6个特征,利用R软件Randomforest程序包建立混凝土抗压强度预测的随机森林模型,模型回归预测的最终结果根据式(2)计算。根据前文所述,将模型的2个参数分别设置为mtry=3,ntree=600,先通过训练样本进行了模型训练,训练样本集的回归拟合曲线如图5a所示,再利用训练好的随机森林模型对测试样本集进行回归拟合,测试样本集回归拟合的预测结果如图5b所示。
图5 训练样本与测试样本拟合结果
由图5a可看出,随机森林模型在训练样本集上的拟合值与真实值较接近,拟合效果不错;由图5b可看出,随机森林模型在测试样本集上的预测值曲线非常贴近真实值,说明预测误差小,拟合精度较高。
3.6 回归预测结果评价
为了进一步验证随机森林模型(RF)的可靠度,选择支持向量机和BP神经网络模型对混凝土抗压强度进行预测,预测结果与RF模型结果进行对比分析,选用均方根误差RMSE和确定性系数R2来衡量模型的预测效果。R2能度量模型的拟合程度,范围在0~1,越靠近1表示模型拟合程度越好。RMSE值越接近0表示观测数据在统计上越完美。不同模型预测结果的误差对比如表2所示。
表2 误差比较
表2 误差比较
由预测结果可看出,随机森林模型预测结果的均方根误差明显小于支持向量机和BP神经网络,说明随机森林模型回归预测的结果同实际值更接近,预测精度更高;三者中,随机森林模型的确定性系数最接近1,说明模型对数据的拟合程度最高,预测效果最好。综上所述,基于随机森林预测模型对混凝土早期抗压强度进行预测,可获得具有较高准确性和可靠性的预测结果。
4 结语
1)本文建立一种基于随机森林模型的混凝土抗压强度预测模型,以解决混凝土配合比与混凝土抗压强度之间的复杂非线性关系,从而进行高精度预测。首先通过查阅大量文献选择重要混凝土配合比因素,以28d抗压强度为预测对象建立基于随机森林的混凝土强度预测模型,在进行随机森林参数优选后进行抗压强度预测并分析重要性程度,再利用Pearson进行相关性分析,最终与支持向量机和BP神经网络预测模型精度进行对比,凸显了随机森林模型的可靠性,证明了随机森林模型是一种实现混凝土强度精确预测的有效工具。
2)基于随机森林模型对混凝土抗压强度进行预测有高精度结果。本文选取水泥强度、砂用量、粉煤灰用量、水胶比等9个因素作为输入因素,基于随机森林模型对混凝土抗压强度进行预测后发现,混凝土抗压强度预测的均方根误差为0.013 8,拟合优度为0.913 3,体现了随机森林模型的准确度高;同时,在重要性和相关性分析中可发现水胶比、水泥强度和水泥用量与混凝土抗压强度之间的关系最为密切且重要程度最高。
3)为了进一步验证随机森林模型的可靠度,将随机森林模型与支持向量机模型和BP神经网络模型预测结果进行对比分析。结果表明,与支持向量机和BP神经网络模型预测精度相比,随机森林模型回归拟合的效果更佳,误差更小,从而进一步说明该模型有很高的可靠性和准确性,可很好地应用于工程实际之中。
[2] 周欣竹,陈翱翔,郑建军,等.溶蚀粉煤灰混凝土抗压强度试验与理论预测[J].建筑结构学报,2018,39(S1):392-396.
[3] 李仲欣,韦灼彬,沈锦林.相关向量机在珊瑚混凝土抗压强度预测中的应用[J].混凝土,2016(7):1-6.
[4] 梁凯,陈正,朱惠英,等.基于正交试验的机制砂混凝土抗压强度线性预测模型[J].混凝土,2019(11):98-101,110.
[5] 许开成,毕丽苹,陈梦成.基于SPSS回归分析的锂渣混凝土抗压强度预测模型[J].建筑科学与工程学报,2017,34(1):15-24.
[6] 吕春梅.新拌混凝土质量现场检测技术的应用研究[J].福建建材,2016(4):13-15.
[7] 季春雷.新拌混凝土水灰比测定仪开发研制与应用[D].天津:天津大学,2017.
[8] RAFI M M,NASIR M M. Models for prediction of 28-day concrete compressive strength[J]. Journal of testing and evaluation,2016,44(3):1217-1228.
[9] 李仲欣,韦灼彬,沈锦林.基于BP神经网络的珊瑚混凝土抗压强度预测模型[J].混凝土,2016(1):64-69,74.
[10] 徐国强,苏幼坡,韩佃利,等.基于BP神经网络的绿色混凝土抗压强度预测模型[J].混凝土,2013(2):33-35,49.
[11] 靳江伟,董春芳,冯国红.基于灰色关联支持向量机的混凝土抗压强度预测[J].郑州大学学报(理学版),2015,47(3):59-63.
[12] MOZUMDER R A,ROY B,LASKAR A I. Support vector regression approach to predict the strength of FRP confined concrete[J]. Arabian journal for science and engineering,2017,42(3):1129-1146.
[13] ZHANG P. A novel hybrid surrogate intelligent model for creep index prediction based on particle swarm optimization and random forest[J]. Engineering geology,2020,265:628-638.
[14] 吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36(3):37-41.
[15] HAN Q H. A generalized method to predict the compressive strength of high-performance concrete by improved random forest algorithm[J]. Construction and building materials,2019,226:734-742.
[16] ZHANG Y K. Pearson correlation coefficient of current derivatives based pilot protection scheme for long-distance LCC-HVDC transmission lines[J]. International journal of electrical power&energy systems,2020,116:532-539.