基于随机森林模型的长租公寓租金定价评估研究
得益于我国经济的快速发展,新一线及以上城市人口迅速增加,各大城市均将建立健全租赁住房市场机制作为解决住房与人口问题的关键举措;另一方面,相较于成熟的C2C租赁行业,长租公寓行业被资本市场视为蓝海,发展极其迅速。住房租赁市场的交易活动的日益活跃,催生出了如何科学合理评估长租公寓租金定价的问题。长租公寓的租金评估中涉及特征变量多,租金价格与特征变量间的关系呈现较为复杂的非线性关系,导致传统评估方法存在样本依赖性强、耗费成本高、评估精度波动幅度大等问题。随着大数据统计技术的发展和海量交易数据的积累,为机器学习在房地产批量评估领域的技术应用奠定了基础。
机器学习中的随机森林(Random Forest)模型,适用于处理涉及特征变量多、样本数据存在缺失的评估场景,且预测精度和速度显著较高。将该模型应用于长租公寓的租金定价和批量评估中,对规范我国租赁市场有积极作用,为政府制定租金指导政策提供了参考依据,同时也为品牌长租公寓开发商减少融资风险提供参考。
1 长租公寓租金评估的随机森林模型
1.1 特征价格理论
特征价格(Hedonic)来源于希腊词汇“Hedonikos”,指代人们由于消费某种产品或使用某种产品而享受到的特别满足感。特征价格理论多用于处理异质产品其独有特性和其定价之间的函数关系,由于房产和地产的异质性,房地产行业正是目前特征价格理论应用较为广泛的领域之一。
1.2 随机森林理论
随机森林算法(简称RF算法)是一类集成算法。该算法由众多随机生成的决策树(CART)组成。这些“基学习器”通过投票,按照少数服从多数原则得到最后的预测结果。由分类树、回归树组成的森林分别叫做随机森林分类器和随机森林回归器。相比于其他机器学习模型,随机森林调参数量少,运行和收敛速度较快,过度拟合问题较少,抗噪声能力较强,在处理大样本和有缺失项的数据集时表现优秀。
1.3 随机森林回归模型实现流程
运用随机森林回归模型进行公寓的租金定价评估,是基于其样本内的高精度拟合算法学习能力,和样本外高置信度的泛化能力。
该回归算法的实现主要有以下步骤:
(1)初始共有n个原始数据,bootstrap(有放回的随机抽样技术)M个数据并形成训练样本集,未被抽样的数据形成袋外数据,作为测试数据集。
(2)为防止过度拟合,设置超参数,控制回归树节点规模,随机形成M个回归树。
(3)重复以上步骤,完成随机森林的建立。
(4)样本输入后,根据决策树判断规则和剪枝规则,直到访问到叶子节点,并返回叶子节点的预测值。
(5)根据M棵回归树的判断结果,按照多数原则,回归森林模型给出预测值。
2 基于成都市长租公寓的实证研究
2.1 样本区域的选取
本文研究对象为成都市长租公寓市场的租金定价(以月租金为准)。成都市集中式长租公寓主要分布在三环内。其中双楠板块,成都正南方向,高新大源区域,地铁2号线西侧与1号线南侧聚集大量集中式品牌长租公寓,成都市北部与东部品牌公寓相对缺乏,随着东进政策的出台,东边市场将逐步释放。因此本次研究区域选定在成都市三环以内,涵盖27家品牌长租公寓,随机抽样样本共计1034个。
2.2 特征选择
根据国内外参考文献,房地产相关领域价格特征主要有三项,分别为邻里特征、区位特征以及建筑特征。
邻里特征:一般反映了该房源居住成本和配套设施。常见特征有小区年代、户数、周围医院、商超、教育资源的数量和等级等。建筑特征:一般反映了该房源的建筑原始特点和基础特点,譬如该物业的户型、建成年代、建筑面积等。区位特征:一般反映了该房源的相对于所在城市的区位条件,通常通过经、纬度,城市环线、行政区划分等特征变量来表示。
本文在以上三项价格特征的基础上,增加消费者心理特征和租约特征,以匹配长租公寓客群的画像和消费习惯,更好对其租金定价进行评估。
2.3 数据获取与量化
数据来源渠道:通过Python爬虫获取自如、链家、安居客等网站房源基本建筑特征信息和交易信息;通过百度地图API的应用程序接口,获取房源的区位特征、建筑特征以及经纬度数据;为获取邻里特征等不能直接量化的数据类型时,采用问卷调查法走访长租公寓租客;获取交易的租金定价数据为2018年6月至2020年6月的历史数据。
经过上述渠道,最终从原始数据中获得可供使用的数据24816条,有缺失项数据701条。数据处理方式主要有:(1)针对楼层数、房源数、活动数量和租约这四项特征变量的量化,直接采用数据原始值,或进行简单的精度处理即可使用。(2)针对是否采用电梯、水电是否商用、是否提供电器等特征变量的量化,采取虚拟变量。(3)其他特征变量采用Likert5级量化表予以量化。(4)对区和板块采用了随机数值编码。
具体处理方式如表1中量化方法所示。
2.4 缺失值处理
在数据收集过程中,共计8个特征变量存在不同程度的信息缺失,针对缺失值的处理方法,通常有删除,填补均值、中值和常值,或者采用随机森林回归等方法来填补缺失值。文章对比了不同缺失值的处理方法后的拟合状况,最终得出当前数据集最佳的缺失值填补方法,如表2所示。
2.5 实证分析
对比发现,Python的胶水语言特性和其在数据处理方面的良好表现,本文选择使用Python数据库中的scikit-learn的随机森林模块进行建模。
在随机森林算法中,并不完全需要对每个决策树进行剪枝。但是由于随机森林算法本质为装袋集成算法(bagging),会通过众多弱学习器的回归计算结果进行少数服从多数的决策过程,因此要求每个弱学习器具有良好的计算性能。本文实证研究设计特征变量众多,数据量大,需要对单个决策树(cart)进行剪枝,避免过度拟合和噪声干扰,同时提升RF算法的整体运算速度。
由于手动调参速度较慢,因此采用网格搜索法进行调参。选择分裂所需最小样本数、叶节点最小样本数和最大深度等参数进行调参,最终模型的参数如表3所示。
经过交叉验证,该模型的拟合效果为见表4。
2.6 特征变量的重要性排序
利用随机森林中的特征重要性接口即可直接得到该数据集中特征变量的重要性排序,其原理是通过给予各个特征变量噪声干扰,观察该模型评估效果。模型评估效果变化幅度越大,则被噪声干扰的特征变量重要程度越高。RF算法得出的特征变量对长租公寓租金定价影响程度排序如表5所示。
由表5可得,最重要的特征变量为“房源所属行政区”,其次为“房源距离市中心交通距离”,可见区位特征对租金价格的影响很大。另外,长租公寓的“归属品牌”变量排在重要性第3的位置,可以推断长租公寓消费群体对于品牌的认可度,间接决定开发商的溢价水平。
3 多种回归模型评估效果对比研究
3.1 多元回归模型
为了进一步验证随机森林机器学习模型的优越性,将使用传统的多元线性回归模型对相同数据集进行租金定价评估。使用零-均值规范化(z-score标准化)对数据进行处理。
多元回归模型的最大劣势在于无法预先得知特征变量与租金定价之间的函数关系式,需要预设模型。根据大量文献资料,采用使用较为广泛的线性回归模型进行建模,函数形式见式(1)。
P=a0+∑aiZi+ε (1)
其中P为最终租金定价,Zi为特征变量。
采用最小二乘法进行参数的估计,通过五折交叉验证得到拟合结果,如表6所示。
3.2 神经网络模型
神经网络评估模型同样使用Python语言中的keras库进行建模。对特征变量的数据类型同样采用零-均值规范化(z-score标准化)方法,但对于租金定价采用离散标准化方法使其数据映射到[0,1]之间,因为神经网络建模过程中使用的Relu函数需要使用正值数据,z-score标准化可能出现负值。
为提升模型的泛化性,通过各层节点数、学习率、正则化参数和迭代次数对神经网络模型进行调试。权值和阈值初始值为:ω~N(0,0.05),b=0共设置6个隐藏层,优化算法采用Adamax算法(α=0.005,β1=0.9,β2=0.999,ε=10-8,迭代1500次epoch,批量规模1500。
经过交叉验证,神经网络模型评估拟合结果见表7。
3.3 评估效果对比研究
从表8可以看出,回归预测评估指标MAPE,MAE,RMSE,R2的评价结果显示,随机森林模型对比多元回归模型优势较为明显,所有指标均优于传统回归模型,特别是拟合优度(R2)的大幅领先,证明了随机森林这种机器学习模型的在处理庞大数据量时的适用性。
进一步对比随机森林模型和神经网络模型,各个指标之间差异不大,但随机森林构建出更为精确的评估模型,绝对百分误差(MAPE%)指标为6.9%,拟合优度(R2)为0.914,各项指标均略微领先于神经网络模型;除模型泛化性和拟合程度更优以外,随机森林在建模过程中运用网格搜索法使得调参过程更为简单,计算和收敛速度更快,对计算机硬件要求较低,因此实用性较强;而神经网络为处理特征变量与租金定价的之间的复杂函数关系,层数和节点较多,计算和收敛速度更慢。结果表明,随机森林回归模型在处理数据量大、特征变量多的情况时,优于多元回归模型和神经网络模型。
4 结 语
本文从特征价格理论和随机森林原理入手,构建了基于随机森林回归算法的长租公寓租金定价评估模型,选择建筑特征、邻里特征、区位特征、消费者心理特征和租约特征五类特征变量,获取了成都市三环内27家品牌长租公寓房源交易数据,研究结果表明:区位特征对租金价格的影响较大,房源所在行政区,房源距离市中心交通距离以及长租公寓品牌是影响长租公寓定价的主要因素。随机森林模型在常用的回归预测评估指标MAPE、MAE、RMSE、R2上的评价表现均优于多元回归模型和神经网络模型,具有计算和收敛速度更快、实用性较强的特点,适合处理数据量较大、特征变量较多的复杂函数关系的特点,因此适用于长租公寓的租金定价的批量评估。