Where to care: deploying data science to find optimal care home locations

作者

克里斯托弗-德-格鲁本

高级 Data 咨询经理 Artefact 英国

利用 data 科学技术寻找最佳护理院地点：

先进的 data 科学解决方案与经验丰富的土地代理相结合，提高了获得高入住率护理之家用地的可能性。.

为护理院选择最佳地点并非易事。.

人口结构是否合理？
是否有足够的交通连接？
绿色和蓝色空间是否足够？
住房密度是否适当？
居民和游客的出行距离有多远？
空气污染水平是否过高？
步行是否可以到达必要的零售店？

一个好的护理院选址需要满足数百项复杂的环境和选址要求，以实现可持续的入住率。在竞争激烈的市场中，入住者的平均费用为每周 1,500 英镑，几乎没有出错的余地。.

传统上，土地购买者利用数十年积累的经验、可用的公共和商业 data 以及当地代理商的见解来做出复杂的土地投资决策。但全国 data 数据显示，近 40% 的住宅在运营 5 年后仍未达到理想的入住门槛（超过 80%）。.

人类无法处理英格兰和威尔士所有邮政编码中存在的大量微观和宏观经济 data 数据，因此几乎不可能识别数百个 data 集之间存在的复杂关联和关系。人类的经验可以为我们提供大部分答案，但与 data 科学的力量相结合，则可以带来重大改进。.

Arca Blanca 与英国一家大型护理院建造商和运营商接洽，希望将其土地代理的知识和经验与我们的 data 科学能力和房地产 data platform 相结合。通过这次合作，我们建立了一个功能强大的机器学习模型，该模型利用了客户内部 data（如个别护理院的业绩）和 450 多个外部 data（人口、微观和宏观经济）来源，涵盖了过去 30 年的情况。.

机器学习解决方案

1) 分析一段时间内的占用情况

我们试图通过分析入住率随时间的变化，找出一家护理院在未来 5 年内入住率超过 80% 的可能性。.

为实现稳健的入住率预测，外部 data 如有关财富、地理和该地区绿地指数的人口 data 是必不可少的，而且必须与护理院的内部 data 相结合。我们认为每月更新一次内部入住率最为有利，因为这有助于识别并最大限度地减少季节性因素造成的影响。.

2) 确定正确的算法

对于每个时间段（本例中为每月），我们可以将问题视为 ‘分类’（“第 5 年末的占用率是否为 80%？是或否”）或 ‘预测’：（“第 5 年末的占用率为 %？）此外，我们可能会采用后一种方法来预测整个 5 年的占用趋势--在 data 可用性有限的情况下，这是一种首选方法。.

要实现高精度预测，所选方法必须与超参数调整和交叉验证等技术相结合，以确定模型的正确参数，从而最大限度地提高对新的/未见过的 data 的预测精度。.

3) 验证模型

该算法是在 5 年多的内部和外部 data 数据的基础上训练出来的，但还必须对其未 ‘见 ’过的 data 数据进行准确性测试。具体做法是留出几个我们已经知道历史占用率的地点，然后通过训练有素的模型运行这些地点。为此，我们将模型回归到这些站点投入运营的历史日期，以了解模型在该日期预测的结果和最终实现的结果。实际占用率与预测占用率之间的绝对差值称为预测误差。必须使用迭代方法对模型进行调整，以尽可能降低误差。.

该模型在各种地点进行了测试，平均误差率仅为 9%，大大优于目前的人为预测。考虑到 data 质量和可用性的历史变化，这是一个令人难以置信的结果。.

4) 建立对模型的信心

机器学习模型介于高度可解释性（白盒）和高度准确性（黑盒）之间。在 Arca Blanca，我们努力在二者之间取得平衡。如果没有任何可解释性，模型的采用就会变得复杂，因为它会受到怀疑。缺乏准确性则会以不同的方式造成同样的问题。.

在该项目中，我们力求达到极高的精确度，但根据 data 的可用性、异常值的存在以及基于统计区间的输出结果的总体可信度，提供了输出结果的可信度。此外，当地 data 的显著水平与输出结果也有密切关系。这些因素共同描绘了一幅令人信服的图景，显示了产出的可信度以及可能驱动这些结果的因素。.

改变工作方式

我们的客户已将该模型作为其投资委员会的重要组成部分。我们建立了一个定制的仪表板，以便在董事会会议上更快、更准确地做出决策（取代了繁琐的内部视图），这样他们就可以运行实时情景并驳回大量潜在的地块，而无需进行冗长而昂贵的调查或实地考察。现在，所有土地征用机会都能快速排出优先次序；本地 data 以及模型输出为土地征用团队提供了重要的日常支持。.

重要的是，该组织已经接受了机器学习及其带来的潜力--不是将其视为对工作岗位和工作方式的威胁，而是将其视为在复杂而充满挑战的投资市场中创造独特优势的重要工具。.

“解释数百个变量以确定它们与成功之间的关系的复杂性，凸显了对人工智能驱动模型的需求，以加强人类决策”。”

决策支持，而非决策制定

结合多个 data 信息源可以全面了解驱动入住率的各种因素。在一个退休住宅建筑商的特定使用案例中，我们发现附近游泳池的指标是入住率的五大驱动因素之一，而这是土地经纪人很容易忽视的！要解释众多人口特征、游泳池、绿化指标和数百个其他变量，以确定它们与成功的关系，其复杂性凸显了对人工智能驱动模型的需求，以增强人类的决策能力。.

人工智能模型的不足之处，尤其是在房地产领域，在于解释人类的非理性行为。如果距离亲友更近，老年居民可能愿意到更远的地方去住养老院；如果儿子或女儿刚换了新工作，他们可能会跟随儿子或女儿搬家。也许他们举目无亲，想搬到更南边的地方，因为那里的天气 “更好”，而且当地的炸鱼和薯条显然质量更佳。.

同样至关重要的是，并非英国所有地区都有可靠的人口 data 数据收集，或以相同的方式对其进行编目（苏格兰就是一个明显的差异）。人工智能模型也只能分析存在可靠、高质量历史 data 的变量，它无法衡量特定地点的景观质量或护理院经理的友好程度。它无法衡量竞争性护理院的食物质量，也无法了解护理院花园的特殊品质或活动安排。因此，我们必须了解这些人工智能工具的固有局限性。它们不能成为决策的唯一信息来源。在人类停止做出非理性决策之前，人工智能（目前）还无法取代经验丰富的土地代理人。它们是对人类决策的补充，而不是取代。.

最终，入住率预测模型的成功实施需要一种将 data-driven 洞察力与人类专业知识和理解力相结合的平衡方法。利用超本地人口、宏观、零售、商业和物业 data 来预测入住率水平的做法远远超出了护理院行业的范围，可应用于其他资产类别（学生宿舍、办公楼、零售、综合及租赁等）。营销团队可以利用这一概念，根据特定地点的人口密度规划有针对性的营销活动，并更好地了解理想的单元或房间数量及其最佳定价水平。通过利用大型 data 的强大功能，管理人员可以做出更明智的决策并优化运营。.

该项目由管理顾问、Data 科学家和技术专家组成的联合团队与客户团队合作实施，历时 16 周。项目分两个阶段进行。第一阶段包括在 4 周内建立一个相对低成本、低投入的概念验证，以确保能够建立一个准确的模型；第二阶段为期 12 周，包括利用额外的 data 数据源和更强大的算法来加强模型，并建立一个供用户交互的定制仪表板。.

联系我们

护理地点：利用 data 科学技术寻找最佳护理院地点

作者