运用数据科学确定养老院的最佳选址:

先进的数据科学解决方案——结合经验丰富的土地代理——有助于提高获得高入住率养老院用地的可能性。

为养老院选择一个理想的选址并非易事。

  • 该地区的人口结构是否合适?

  • 交通便利吗?

  • 绿地和水域够了吗?

  • 住房密度是否合理?

  • 居民和游客会前往多远的地方?

  • 空气污染水平是否过高?

  • 是否可以步行前往生活必需品商店?

一家优秀的养老院选址必须满足数百项复杂的环境和区位要求,才能实现可持续的入住率。在竞争激烈的市场中,考虑到每位住户每周平均费用为1,500英镑,容错空间微乎其微。

传统上,土地买家通常依靠数十年来积累的宝贵经验、公开及商业数据,以及当地中介提供的见解,来制定复杂的土地投资决策。但全国范围的数据表明,近40%的住宅在运营5年后仍未能达到预期的入住率门槛(80%以上)。

人类无法处理英格兰和威尔士所有邮政编码区域内存在的海量微观和宏观经济数据,这使得识别数百个数据集之间存在的复杂关联和关系几乎成为不可能。虽然人类的经验可以为我们提供大部分答案,但若结合数据科学的强大力量,则能带来显著的改进。

一家英国大型养老院开发商兼运营商联系了Arca Blanca,希望将他们土地代理团队的专业知识和经验与我们的数据科学能力及房地产数据平台相结合。通过此次合作,我们构建了一个强大的机器学习模型,该模型既利用了客户的内部数据(例如各养老院的运营表现),也整合了涵盖过去30年的450多个外部数据源(包括人口统计、微观经济和宏观经济数据)。

机器学习解决方案

1) 分析随时间变化的入住率

我们通过分析入住率随时间的变化情况,旨在评估某养老院在未来5年内入住率超过80%的可能性。

为了实现可靠的入住率预测,必须结合养老院的内部数据与外部数据(例如该地区的人口统计数据、财富状况、地理位置以及绿地指数)。我们发现,以每月为周期更新内部入住率数据最为有效,因为这有助于识别并最大限度地减少季节性因素带来的影响。

2) 确定合适的算法

对于每个时间段(本例中为每月),我们可以将该问题视为“分类”问题(“第5年末的入住率会达到80%吗?是或否”),也可以视为“预测”问题(“第5年末的房屋入住率是多少?”)。 此外,我们还可以采用后一种方法来预测整个5年期间的入住率趋势——当数据有限时,这是更优选的方法。

为了实现高精度的预测,所选方法必须结合超参数调优和交叉验证等技术,以确定模型的合适参数,从而在新的/未见数据上最大限度地提高预测精度。

3) 验证模型

该算法基于超过5年的内部和外部数据进行训练——但还必须对其在未曾“见过”的数据上的准确性进行验证。具体做法是:选取几个我们已知历史入住率的场所,将其数据输入已训练好的模型进行分析。为此,我们将模型回溯至这些场所投入运营的历史时间点,以查看模型当时会做出何种预测,以及实际结果如何。 实际入住率与预测入住率之间的绝对差值称为预测误差。必须采用迭代方法对模型进行调优,以尽可能降低该误差。

该模型已在多种多样的站点上进行了测试,平均误差率仅为9%——这一表现远优于当前的人工预测。考虑到数据质量和可用性在历史上的波动,这一结果令人惊叹。

4) 建立对模型的信心

机器学习模型存在于高度可解释性(白盒)与高准确性(黑盒)之间的一个光谱上。在Arca Blanca,我们致力于在这两者之间寻求一个理想的平衡点。如果完全缺乏可解释性,模型的采用就会变得复杂,因为人们会对其抱有怀疑态度。而准确性的不足则会以另一种方式引发同样的问题。

在该项目中,我们力求达到极高的精度,但同时根据数据可用性、异常值的存在以及基于统计区间的总体可信度,对输出结果标注了相应的置信度等级。此外,我们还补充了大量与输出结果密切相关的本地数据。这些因素共同勾勒出一幅清晰的图景,既展现了输出结果的可信度水平,也揭示了可能影响这些结果的因素。

工作方式的转变

我们的客户已将该模型作为其投资委员会的关键组成部分。我们开发了一个定制化仪表盘,旨在帮助董事会会议实现更快、更准确的决策(取代了繁琐的内部观点),从而使他们能够进行实时情景模拟,并在无需耗时且昂贵的调查或实地考察的情况下,迅速排除大量潜在地块。如今,所有土地收购机会都能得到快速排序;本地数据与模型输出共同构成了对土地收购团队至关重要的日常支持。

重要的是,该机构已积极拥抱机器学习及其所蕴含的潜力——并非将其视为对就业和工作方式的威胁,而是将其视为在复杂且充满挑战的投资市场中创造独特优势的必备工具。

“要解读数百个变量并厘清它们与成功之间的关系,其复杂性凸显了需要借助人工智能驱动的模型来提升人类的决策能力。”

决策支持,而非决策制定

整合多种数据源有助于全面了解影响入住率的各种因素。在某养老院开发商的具体案例中,我们发现附近游泳池的存在是影响入住率的五大关键因素之一——而这正是房产中介很容易忽略的一点!要解读众多人口统计特征、游泳池、绿化指标以及数百个其他变量,并厘清它们与项目成功之间的关联,其复杂性凸显了借助人工智能驱动的模型来辅助人类决策的必要性。

人工智能模型的不足之处,特别是在房地产领域,在于无法解读人类的非理性行为。年长的居民可能会为了靠近亲友而愿意长途跋涉去入住养老院,也可能为了追随刚因工作调动而搬到新地方的儿女而搬迁。又或许他们没有亲人,只是想搬到更南边去,享受“更好的”天气,以及当地明显更美味的炸鱼薯条。

此外,必须认识到,英国并非所有地区都拥有完善的人口统计数据收集体系,或采用相同的方式进行数据归类(苏格兰便是显著的例外)。人工智能模型也只能分析那些拥有可靠、高质量历史数据的变量——它无法衡量特定地点的景观质量,也无法评估养老院管理人员的亲和力。 它无法衡量竞争对手养老院的餐饮质量,也无法理解某家养老院花园的独特魅力或其活动安排。因此,必须认识到这些AI工具固有的局限性。它们不能成为决策过程中唯一的信息来源。只要人类仍会做出非理性的决定,AI就(目前)无法取代经验丰富的房产中介。AI的作用是辅助人类决策,而非取而代之。

归根结底,要成功实施入住率预测模型,需要采取一种平衡的方法,将数据驱动的洞察与人类的专业知识和理解相结合。利用超本地人口统计、宏观经济、零售、商业和房地产数据来预测入住率,其应用范围远不止于养老院行业,还可扩展至其他资产类别(如学生公寓、写字楼、零售、工业及物流地产等)。 营销团队可以利用这一理念,根据特定地点的人口密度策划精准营销活动,并更好地把握理想的单元或房间数量及其最佳定价水平。通过利用大数据的力量,高管们能够做出更明智的决策并优化运营。

该项目由管理咨询顾问、数据科学家和技术专家组成的联合团队负责,历时16周,期间与客户团队保持了密切协作。 该项目分为两个阶段。第一阶段为期4周,旨在构建一个成本较低、投入较小的概念验证(PoC),以确保能够建立准确的模型;而第二阶段为期12周,主要通过引入额外的数据源和更强大的算法来强化模型,并为用户构建一个可交互的定制化仪表盘。