data wetenschap inzetten om optimale verpleeghuislocaties te vinden:

Geavanceerde data wetenschappelijke oplossingen - in combinatie met ervaren landmakelaars - vergroten de kans op het verwerven van locaties voor verzorgingshuizen met een hoge bezettingsgraad.

Het kiezen van een optimale locatie voor een verpleeghuis is niet eenvoudig.

  • Heeft het de juiste demografische kenmerken?

  • Zijn er voldoende vervoersverbindingen?

  • Genoeg groene en blauwe ruimtes?

  • Is de woningdichtheid geschikt?

  • Hoe ver zullen bewoners en bezoekers reizen?

  • Is de luchtvervuiling te hoog?

  • Is essentiële detailhandel te voet bereikbaar?

Een goede verzorgingshuislocatie moet voldoen aan honderden complexe omgevings- en locatievereisten om een duurzame bezettingsgraad te bereiken. Met gemiddelde bewonerskosten van £1.500 per week in een concurrerende markt is er weinig ruimte voor fouten.

Traditioneel gebruiken grondkopers tientallen jaren van zuurverdiende ervaring, beschikbare openbare en commerciële data en inzichten van lokale agenten om complexe beslissingen over grondinvesteringen te nemen. Maar op nationaal niveau data blijkt dat bijna 40% van de woningen de gewenste bezettingsgraad (meer dan 80%) niet haalt na 5 jaar exploitatie.

Mensen kunnen de enorme hoeveelheden micro- en macro-economische data gegevens over alle postcodes in Engeland en Wales niet verwerken, en dit maakt het bijna onmogelijk om de complexe correlaties en relaties tussen de honderden datasets te identificeren. Menselijke ervaring kan ons het grootste deel van het antwoord geven, maar in combinatie met de kracht van data wetenschap kan dit leiden tot aanzienlijke verbeteringen.

Arca Blanca werd benaderd door een grote Britse bouwer en exploitant van verzorgingshuizen om de kennis en ervaring van hun landmakelaars te combineren met onze data wetenschappelijke capaciteiten en ons data platform. Door deze samenwerking bouwden we een krachtig Machine Learning-model dat gebruik maakt van zowel interne klant data (zoals individuele prestaties van verzorgingshuizen) als van meer dan 450 externe data bronnen (demografische, micro- en macro-economische) over de afgelopen 30 jaar.

De Machine Learning-oplossing

1) De bezetting in de loop van de tijd analyseren

We zijn op zoek gegaan naar de kans dat een verpleeghuis de komende 5 jaar een bezetting van meer dan 80% bereikt door veranderingen in de bezetting in de loop van de tijd te analyseren.

Om robuuste bezettingsprognoses te kunnen maken, zijn externe data zoals demografische data over rijkdom, geografie en de groene ruimte-index van het gebied essentieel en moeten deze worden gecombineerd met de interne data van het verpleeghuis. We hebben vastgesteld dat een maandelijkse cadans van interne bezettingsupdates het meest voordelig is, omdat dit helpt bij het identificeren en minimaliseren van effecten veroorzaakt door seizoensinvloeden.

2) Het juiste algoritme identificeren

Voor elke tijdsperiode (maandelijks in dit geval) kunnen we het probleem zien als 'categoriseren' ("Zal de bezetting 80% zijn aan het eind van het 5e jaar? Ja of Nee") of 'voorspellen': ("Hoeveel % van de woning zal bezet zijn aan het eind van het 5e jaar?"). Daarnaast kunnen we de laatste benadering gebruiken om bezettingstrends gedurende de 5 jaar te voorspellen - een voorkeursmethode als data beperkt beschikbaar is.

Om voorspellingen met een hoge nauwkeurigheid te bereiken, moet de gekozen aanpak worden gekoppeld aan technieken zoals hyperparameter tuning en kruisvalidatie om de juiste parameters voor het model te identificeren om de voorspellingsnauwkeurigheid op nieuwe/onvoorziene data te maximaliseren.

3) Het model valideren

Het algoritme is getraind op meer dan 5 jaar interne en externe data - maar het moet ook worden getest op nauwkeurigheid op data die het nog niet eerder heeft 'gezien'. Dit wordt gedaan door een paar locaties waarvan we de historische bezetting al kennen apart te zetten en deze door het getrainde model te laten lopen. Om dit te bereiken regresseren we het model naar de historische datum waarop de locaties operationeel werden om te zien wat het model op dat moment zou hebben voorspeld en wat er uiteindelijk is bereikt. Het absolute verschil tussen de werkelijke bezetting en de voorspelde bezetting wordt de voorspellingsfout genoemd. Het model moet iteratief worden bijgesteld om deze fout zo laag mogelijk te houden.

Dit model is getest op een grote verscheidenheid aan sites en heeft een gemiddelde foutmarge van slechts 9% - aanzienlijk beter dan de huidige door mensen gemaakte voorspellingen. Dit is een ongelooflijk resultaat gezien de historische variaties in de kwaliteit en beschikbaarheid van data .

4) Vertrouwen in het model opbouwen

Modellen voor machinaal leren bevinden zich op een spectrum tussen een hoge mate van verklaarbaarheid (white box) en een hoge mate van nauwkeurigheid (black box). Bij Arca Blanca streven we naar een middenweg tussen deze twee. Zonder verklaarbaarheid wordt de adoptie van het model complex, omdat het met argwaan zal worden behandeld. Een gebrek aan nauwkeurigheid creëert hetzelfde probleem op een andere manier.

Bij dit project hebben we gestreefd naar een extreem hoog niveau van nauwkeurigheid, maar we hebben gezorgd voor een mate van vertrouwen in de uitvoer op basis van beschikbaarheid van data, aanwezigheid van uitschieters en algemeen vertrouwen in de uitvoer op basis van statistische intervallen. Dit wordt aangevuld door aanzienlijke niveaus van lokale data die een sterke relatie hebben met de uitkomsten. Samen schetsen deze een overtuigend beeld van de betrouwbaarheidsniveaus in de outputs en wat deze uitkomsten kan bepalen.

Veranderende manieren van werken

Onze klant heeft het model geadopteerd als een essentieel onderdeel van zijn investeringscommissies. We hebben een op maat gemaakt dashboard gebouwd om snellere en nauwkeurigere besluitvorming tijdens bestuursvergaderingen mogelijk te maken (ter vervanging van de omslachtige 'house-view'), zodat ze live scenario's kunnen uitvoeren en grote aantallen potentiële locaties kunnen afwijzen zonder langdurige en kostbare onderzoeken of bezoeken ter plaatse. Alle mogelijkheden voor landaankoop worden nu snel geprioriteerd; zowel de lokale data als de modeloutputs vormen een dagelijkse en essentiële ondersteuning voor het landaankoopteam.

Belangrijk is dat de organisatie Machine Learning en het potentieel ervan services heeft omarmd - niet als een bedreiging voor banen en werkwijzen, maar als een essentieel hulpmiddel om unieke voordelen te creëren in een complexe en uitdagende beleggingsmarkt.

"De complexiteit van het interpreteren van honderden variabelen om hun relatie tot succes te bepalen, benadrukt de behoefte aan AI-gestuurde modellen om menselijke besluitvorming te verbeteren."

Beslissingsondersteuning, niet besluitvorming

Het combineren van meerdere data bronnen kan een uitgebreid inzicht geven in de verschillende factoren die de bezettingsgraad bepalen. In een specifieke use case voor een bouwer van bejaardentehuizen ontdekten we dat indicatoren van nabijgelegen zwembaden een van de top 5 factoren waren die de bezettingsgraad bepalen - iets wat een landagent gemakkelijk over het hoofd kan zien! De complexiteit van het interpreteren van talloze demografische kenmerken, zwembaden, groenindicatoren en honderden andere variabelen om hun relatie tot succes te bepalen, benadrukt de behoefte aan AI-gestuurde modellen om menselijke besluitvorming te verbeteren.

Waar AI modellen tekortschieten, met name in de vastgoedsector, is bij het interpreteren van irrationeel menselijk gedrag. Oudere bewoners zijn misschien bereid om grotere afstanden af te leggen voor een verzorgingstehuis als ze dichter bij vrienden of familieleden zijn, misschien verhuizen ze om een zoon of dochter te volgen die net van woonplaats is veranderd voor een nieuwe baan. Misschien hebben ze geen familie en willen ze verder naar het zuiden verhuizen voor het "betere" weer en de duidelijk superieure kwaliteit van de plaatselijke fish & chips.

Het is ook van cruciaal belang om te erkennen dat niet alle regio's van het Verenigd Koninkrijk een robuuste demografische data collectie hebben of deze op dezelfde manier catalogiseren (Schotland is een opmerkelijk verschil). AI modellen kunnen ook alleen variabelen analyseren waarvoor een robuuste, kwalitatief goede historische data bestaat - het kan de kwaliteit van een uitzicht vanaf een bepaalde locatie of de vriendelijkheid van de managers van de verzorgingshuizen niet meten. Het kan de kwaliteit van het eten in concurrerende verzorgingshuizen niet meten of de specifieke kwaliteiten van de tuin van een tehuis of hun activiteitenschema begrijpen. Daarom moeten de inherente beperkingen van deze AI tools begrepen worden. Ze kunnen niet de enige bron van informatie zijn bij het nemen van beslissingen. Totdat mensen stoppen met het nemen van irrationele beslissingen, zal AI ervaren landbeheerders (nog) niet vervangen. Ze vullen menselijke besluitvorming eerder aan dan dat ze die vervangen.

Uiteindelijk vereist een succesvolle implementatie van modellen voor het voorspellen van de bezettingsgraad een gebalanceerde aanpak die data-gedreven inzichten integreert met menselijke expertise en begrip. Het gebruik van hyperlokale demografische, macro-, retail-, bedrijfs- en vastgoedgegevens data om bezettingsgraden te voorspellen gaat veel verder dan de verzorgingshuissector en kan worden toegepast op andere categorieën (studentenhuisvesting, kantoren, retail, I&L etc.). Marketingteams kunnen dit concept gebruiken om gerichte campagnes te plannen op basis van de bevolkingsdichtheid van specifieke locaties en om een beter inzicht te krijgen in het ideale aantal eenheden of kamers en hun optimale prijsniveaus. Door gebruik te maken van de kracht van grote data kunnen leidinggevenden beter geïnformeerde beslissingen nemen en hun activiteiten optimaliseren.

Dit project werd uitgevoerd door een gezamenlijk team van Management Consultants, Data wetenschappers en technologen over een periode van 16 weken in constante samenwerking met het team van de klant. Het project bestond uit twee fasen. De eerste bestond uit het bouwen van een relatief goedkope, low commitment Proof of Concept over een periode van 4 weken om ervoor te zorgen dat een nauwkeurig model kon worden gebouwd, terwijl de tweede fase van 12 weken bestond uit het versterken van het model met extra data bronnen en robuustere algoritmen en het bouwen van een op maat gemaakt dashboard voor interactie met gebruikers.