L'impiego della scienza dei dati per individuare le sedi ottimali delle case di cura:

Soluzioni avanzate di data science, combinate con agenti immobiliari esperti, aumentano la probabilità di acquisire siti di case di cura ad alta occupazione.

La scelta di un sito ottimale per una casa di cura non è facile.

  • Ha le giuste caratteristiche demografiche?

  • Ci sono sufficienti collegamenti di trasporto?

  • Spazi verdi e blu a sufficienza?

  • La densità abitativa è adeguata?

  • Quanto viaggeranno i residenti e i visitatori?

  • I livelli di inquinamento dell'aria sono troppo alti?

  • I negozi essenziali sono accessibili a piedi?

Un buon sito di casa di cura deve soddisfare centinaia di complessi requisiti ambientali e localizzativi per raggiungere un tasso di occupazione sostenibile. Con un costo medio dei residenti di 1.500 sterline a settimana in un mercato competitivo, c'è poco spazio per gli errori.

Tradizionalmente, gli acquirenti di terreni hanno utilizzato decenni di dura esperienza, i dati pubblici e commerciali disponibili e le intuizioni degli agenti locali per informare le complesse decisioni di investimento sui terreni. Ma i dati a livello nazionale mostrano che quasi il 40% delle case non raggiunge le soglie di occupazione desiderate (oltre l'80%) dopo 5 anni di attività.

Gli esseri umani non sono in grado di elaborare le enormi quantità di dati micro e macroeconomici esistenti in tutti i codici postali dell'Inghilterra e del Galles, e questo rende quasi impossibile identificare le complesse correlazioni e relazioni esistenti tra le centinaia di set di dati. L'esperienza umana può darci la maggior parte delle risposte, ma unita alla potenza della scienza dei dati può portare a miglioramenti significativi.

Arca Blanca è stata contattata da un grande costruttore e operatore di case di cura del Regno Unito per unire le conoscenze e l'esperienza dei suoi agenti immobiliari con le nostre capacità di data science e la nostra piattaforma di dati immobiliari. Grazie a questa collaborazione, abbiamo costruito un potente modello di Machine Learning che sfrutta sia i dati interni del cliente (come le prestazioni delle singole case di cura) sia oltre 450 fonti di dati esterni (demografici, micro e macroeconomici) che coprono gli ultimi 30 anni.

La soluzione di apprendimento automatico

1) Analisi dell'occupazione nel tempo

Abbiamo cercato di individuare la probabilità che una casa di cura raggiunga un'occupazione superiore all'80% nei prossimi 5 anni, analizzando le variazioni di occupazione nel tempo.

Per consentire una solida previsione dell'occupazione, i dati esterni, come i dati demografici sulla ricchezza, la geografia e l'indice di spazio verde della zona, sono essenziali e devono essere combinati con i dati interni della casa di cura. Abbiamo identificato una cadenza mensile per l'aggiornamento dell'occupazione interna come la più vantaggiosa, in quanto aiuta a identificare e minimizzare gli effetti causati dalla stagionalità.

2) Identificare l'algoritmo giusto

Per ogni periodo di tempo (mensile in questo caso), possiamo considerare il problema come una "categorizzazione" ("L'occupazione sarà dell'80% alla fine del quinto anno? Sì o No") o come una "previsione": ("Quale percentuale di abitazioni sarà occupata alla fine del quinto anno?"). Inoltre, possiamo adottare quest'ultimo approccio per prevedere l'andamento dell'occupazione nei 5 anni - un metodo preferito quando la disponibilità di dati è limitata.

Per ottenere previsioni di alta precisione, l'approccio scelto deve essere abbinato a tecniche come la regolazione degli iperparametri e la convalida incrociata per identificare i parametri giusti per il modello e massimizzare l'accuratezza della previsione su dati nuovi/non visti.

3) Convalida del modello

L'algoritmo è stato addestrato su oltre 5 anni di dati interni ed esterni, ma deve anche essere testato per verificarne l'accuratezza su dati che non ha mai "visto" prima. A tal fine, si mettono da parte alcuni siti di cui si conosce già l'occupazione storica e li si sottopone al modello addestrato. A tal fine facciamo regredire il modello alla data storica in cui i siti sono diventati operativi per vedere cosa avrebbe previsto in quel momento e cosa invece è stato ottenuto. La differenza assoluta tra l'occupazione effettiva e quella prevista è chiamata errore di previsione. Il modello deve essere messo a punto con un approccio iterativo per mantenere questo errore il più basso possibile.

Questo modello è stato testato su un'ampia varietà di siti e ha un tasso di errore medio di solo il 9% - significativamente migliore delle attuali previsioni fatte dall'uomo. Si tratta di un risultato incredibile, viste le variazioni storiche nella qualità e nella disponibilità dei dati.

4) Creare fiducia nel modello

I modelli di apprendimento automatico si collocano in uno spettro che va dall'alto grado di spiegabilità (white box) all'alto livello di precisione (black box). In Arca Blanca ci sforziamo di raggiungere una giusta via di mezzo tra i due. In assenza di spiegabilità, l'adozione del modello diventa complessa, poiché sarà trattato con sospetto. La mancanza di accuratezza crea lo stesso problema in modo diverso.

In questo progetto ci siamo sforzati di raggiungere un livello di accuratezza estremamente elevato, ma abbiamo fornito gradi di fiducia nei risultati in base alla disponibilità dei dati, alla presenza di valori anomali e alla fiducia generale nei risultati in base agli intervalli statistici. A ciò si aggiungono livelli significativi di dati locali che hanno una forte relazione con i risultati. L'insieme di questi elementi delinea un quadro convincente dei livelli di fiducia negli output e di ciò che può guidare questi risultati.

Cambiare le modalità di lavoro

Il nostro cliente ha adottato il modello come componente fondamentale dei suoi comitati di investimento. Abbiamo costruito un cruscotto su misura per consentire un processo decisionale più rapido e accurato durante le riunioni del consiglio di amministrazione (in sostituzione dell'ingombrante house-view), in modo da poter eseguire scenari in tempo reale e scartare un gran numero di siti potenziali senza dover effettuare lunghe e costose indagini o visite in loco. Tutte le opportunità di acquisizione di terreni sono ora rapidamente classificate come prioritarie; i dati locali e i risultati del modello costituiscono un supporto quotidiano ed essenziale per il team di acquisizione dei terreni.

È importante notare che l'organizzazione ha accolto il Machine Learning e il potenziale che offre, non come una minaccia per i posti di lavoro e le modalità di lavoro, ma come uno strumento essenziale per creare vantaggi unici in un mercato degli investimenti complesso e impegnativo.

"La complessità di interpretare centinaia di variabili per definire le loro relazioni con il successo evidenzia la necessità di modelli guidati dall'IA per migliorare il processo decisionale umano".

Supporto alle decisioni, non processo decisionale

La combinazione di più fonti di dati può offrire una comprensione completa dei vari fattori che determinano i tassi di occupazione. In un caso d'uso particolare per un costruttore di case di riposo, abbiamo scoperto che gli indicatori di presenza di piscine nelle vicinanze erano uno dei 5 principali fattori di occupazione, cosa che un agente immobiliare può facilmente trascurare! La complessità di interpretare numerose caratteristiche demografiche, piscine, indicatori di verde e centinaia di altre variabili per definire le loro relazioni con il successo evidenzia la necessità di modelli guidati dall'intelligenza artificiale per migliorare il processo decisionale umano.

Dove i modelli di IA falliscono, in particolare nel settore immobiliare, è nell'interpretare i comportamenti umani irrazionali. I residenti anziani potrebbero essere disposti a percorrere distanze maggiori per le case di cura se sono più vicini ad amici o parenti, magari si sposteranno per seguire un figlio o una figlia che ha appena cambiato zona per un nuovo lavoro. Forse non hanno parenti e vogliono trasferirsi più a sud per il clima "migliore" e la qualità chiaramente superiore del fish & chips locale.

È inoltre fondamentale riconoscere che non tutte le regioni del Regno Unito dispongono di una solida raccolta di dati demografici o li catalogano allo stesso modo (la Scozia è una differenza notevole). Inoltre, i modelli di intelligenza artificiale possono analizzare solo le variabili per le quali esistono dati storici solidi e di qualità: non possono misurare la qualità della vista da un particolare sito o la cordialità dei gestori delle case di cura. Non possono misurare la qualità del cibo in case di cura concorrenti o comprendere le particolari qualità del giardino di una casa di cura o il suo programma di attività. Pertanto, è necessario comprendere i limiti intrinseci di questi strumenti di IA. Non possono essere l'unica fonte di informazioni nel processo decisionale. Finché l'uomo non smetterà di prendere decisioni irrazionali, l'IA non potrà (ancora) sostituire gli agenti immobiliari esperti. Esse integrano il processo decisionale umano piuttosto che sostituirlo.

In definitiva, il successo dell'implementazione di modelli di previsione dell'occupazione richiede un approccio equilibrato che integri le intuizioni basate sui dati con l'esperienza e la comprensione umana. L'utilizzo di dati demografici iperlocali, macro, retail, aziendali e immobiliari per prevedere i livelli di occupazione va ben oltre il settore delle case di riposo e può essere applicato ad altre classi di attività (alloggi per studenti, uffici, retail, I&L ecc.). I team di marketing possono sfruttare questo concetto per pianificare campagne mirate in base alla densità di popolazione di luoghi specifici, oltre a comprendere meglio il numero ideale di unità o camere e i loro livelli di prezzo ottimali. Sfruttando la potenza dei grandi dati, i dirigenti possono prendere decisioni più informate e ottimizzare le operazioni.

Questo progetto è stato gestito da un team congiunto di consulenti di gestione, data scientist e tecnologi per un periodo di 16 settimane in costante collaborazione con il team del cliente. Il progetto si è svolto in due fasi. La prima consisteva nella costruzione di un Proof of Concept a basso costo e a basso impegno per un periodo di 4 settimane, al fine di garantire la costruzione di un modello accurato, mentre la seconda fase, della durata di 12 settimane, consisteva nel rafforzare il modello con fonti di dati aggiuntive e algoritmi più robusti e nella costruzione di un cruscotto su misura con cui gli utenti potessero interagire.