Where to care: deploying data science to find optimal care home locations

Auteur

Christopher de Gruben

Responsable de la consultation Data Artefact Royaume-Uni

Déploiement de la science data pour trouver les emplacements optimaux des foyers de soins :

Les solutions scientifiques avancées data - associées à des agents fonciers expérimentés - augmentent la probabilité d'acquérir des sites de maisons de soins à taux d'occupation élevé.

Il n'est pas facile de choisir un site optimal pour une maison de soins.

A-t-elle la bonne démographie ?
Les liaisons de transport sont-elles suffisantes ?
Suffisamment d'espaces verts et bleus ?
La densité de logement est-elle appropriée ?
Quelle sera la distance parcourue par les résidents et les visiteurs ?
Les niveaux de pollution de l'air sont-ils trop élevés ?
Les commerces essentiels sont-ils accessibles à pied ?

Un bon site de maison de soins doit répondre à des centaines d'exigences complexes en matière d'environnement et d'emplacement afin d'atteindre un taux d'occupation durable. Le coût moyen d'un résident étant de 1 500 livres sterling par semaine sur un marché concurrentiel, il n'y a guère de place pour l'erreur.

Traditionnellement, les acheteurs de terrains utilisent des décennies d'expérience durement acquise, les data publics et commerciaux disponibles et les informations fournies par les agents locaux pour prendre des décisions complexes en matière d'investissement foncier. Mais le data national montre que près de 40% des logements n'atteignent pas les seuils d'occupation souhaités (plus de 80%) après 5 ans d'exploitation.

Les humains ne peuvent pas traiter les énormes quantités de data micro- et macro-économiques existant dans tous les codes postaux d'Angleterre et du Pays de Galles, ce qui rend presque impossible l'identification des corrélations et des relations complexes qui existent entre les centaines d'ensembles de data. L'expérience humaine peut nous apporter la plupart des réponses, mais associée à la puissance de la science des data, elle peut conduire à des améliorations significatives.

Arca Blanca a été contactée par un grand constructeur et exploitant de maisons de retraite au Royaume-Uni pour combiner les connaissances et l'expérience de ses agents fonciers avec nos capacités scientifiques data et notre data platform sur les propriétés. Grâce à cette collaboration, nous avons construit un puissant modèle d'apprentissage automatique qui exploite à la fois les data internes du client (telles que les performances individuelles des maisons de soins) et plus de 450 sources data externes (démographiques, micro- et macro-économiques) couvrant les 30 dernières années.

La solution de l'apprentissage automatique

1) Analyse de l'occupation dans le temps

Nous avons cherché à déterminer la probabilité qu'une maison de soins atteigne un taux d'occupation de plus de 80% au cours des cinq prochaines années en analysant l'évolution du taux d'occupation au fil du temps.

Pour permettre une prévision solide de l'occupation, les data externes telles que les data démographiques sur la richesse, la géographie et l'indice d'espace vert de la zone sont essentielles et doivent être combinées avec les data internes de la maison de soins. Nous avons identifié une cadence mensuelle de mise à jour de l'occupation interne comme étant la plus bénéfique, car elle permet d'identifier et de minimiser les effets causés par la saisonnalité.

2) Identifier le bon algorithme

Pour chaque période (mensuelle dans ce cas), nous pouvons considérer le problème soit comme une ‘catégorisation’ (“L'occupation sera-t-elle de 80% à la fin de la 5e année ? Oui ou Non”), soit comme une ‘prédiction’ : (“Quel % du logement sera occupé à la fin de la 5e année ?”). En outre, nous pouvons adopter cette dernière approche pour prédire les tendances d'occupation tout au long des 5 années - une méthode privilégiée lorsque la disponibilité de data est limitée.

Pour obtenir des prédictions très précises, l'approche choisie doit être associée à des techniques telles que l'ajustement des hyperparamètres et la validation croisée afin d'identifier les bons paramètres pour le modèle et de maximiser la précision des prédictions sur les data nouvelles/non vues.

3) Validation du modèle

L'algorithme est entraîné sur plus de 5 ans de data interne et externe - mais il doit également être testé pour sa précision sur data qu'il n'a pas ‘vu’ auparavant. Pour ce faire, nous mettons de côté quelques sites dont nous connaissons déjà l'occupation historique et nous les soumettons au modèle entraîné. Pour ce faire, nous faisons régresser le modèle jusqu'à la date historique à laquelle les sites sont devenus opérationnels pour voir ce qu'il aurait prédit à ce moment-là et ce qui a finalement été réalisé. La différence absolue entre l'occupation réelle et l'occupation prévue est appelée l'erreur de prédiction. Le modèle doit être ajusté à l'aide d'une approche itérative afin de maintenir cette erreur à un niveau aussi bas que possible.

Ce modèle a été testé sur une grande variété de sites et présente un taux d'erreur moyen de seulement 9%, ce qui est nettement mieux que les prévisions actuelles établies par l'homme. Il s'agit d'un résultat incroyable compte tenu des variations historiques de la qualité et de la disponibilité du data.

4) Renforcer la confiance dans le modèle

Les modèles d'apprentissage automatique existent sur un spectre entre des degrés élevés d'explicabilité (boîte blanche) et des niveaux élevés de précision (boîte noire). Chez Arca Blanca, nous nous efforçons de trouver un juste milieu entre les deux. Si le modèle n'est pas explicable, son adoption devient complexe car il sera traité avec méfiance. Un manque de précision crée le même problème, mais d'une manière différente.

Dans le cadre de ce projet, nous nous sommes efforcés d'atteindre un niveau de précision extrêmement élevé, mais nous avons fourni des degrés de confiance dans les résultats en fonction de la disponibilité de data, de la présence de valeurs aberrantes et de la confiance générale dans les résultats sur la base d'intervalles statistiques. Ces données sont complétées par des niveaux significatifs de data locale qui ont un lien étroit avec les résultats. L'ensemble de ces éléments brosse un tableau convaincant des niveaux de confiance dans les résultats et de ce qui peut motiver ces résultats.

Changer les méthodes de travail

Notre client a adopté le modèle comme élément essentiel de ses comités d'investissement. Nous avons créé un tableau de bord sur mesure pour permettre une prise de décision plus rapide et plus précise lors des réunions du conseil d'administration (en remplacement de l'encombrante vue d'ensemble), afin qu'ils puissent exécuter des scénarios en temps réel et rejeter un grand nombre de sites potentiels sans avoir besoin d'enquêtes ou de visites de sites longues et coûteuses. Toutes les opportunités d'acquisition de terrains sont désormais rapidement classées par ordre de priorité ; le data local ainsi que les résultats du modèle constituent un soutien quotidien et essentiel pour l'équipe chargée de l'acquisition des terrains.

Fait important, l'organisation a adopté l'apprentissage automatique et le potentiel qu'il offre - non pas comme une menace pour les emplois et les méthodes de travail, mais comme un outil essentiel pour créer des avantages uniques sur un marché de l'investissement complexe et difficile.

“La complexité de l'interprétation de centaines de variables pour définir leurs relations avec le succès met en évidence le besoin de modèles pilotés par l'IA pour améliorer la prise de décision humaine.”

L'aide à la décision, pas la prise de décision

La combinaison de plusieurs sources data permet d'obtenir une compréhension globale des différents facteurs qui déterminent les taux d'occupation. Dans un cas d'utilisation particulier pour un constructeur de maisons de retraite, nous avons découvert que les indicateurs de piscines à proximité étaient l'un des cinq principaux facteurs d'occupation - ce qu'un agent immobilier peut facilement négliger ! La complexité de l'interprétation de nombreuses caractéristiques démographiques, de piscines, d'indicateurs de verdure et de centaines d'autres variables pour définir leurs relations avec le succès met en évidence le besoin de modèles pilotés par l'IA pour améliorer la prise de décision humaine.

Là où les modèles d'IA ne sont pas à la hauteur, en particulier dans le secteur immobilier, c'est lorsqu'il s'agit d'interpréter les comportements humains irrationnels. Les personnes âgées peuvent être disposées à parcourir de plus grandes distances pour se rendre dans des maisons de soins si elles sont plus proches d'amis ou de parents, ou encore pour suivre un fils ou une fille qui vient de changer de région pour un nouvel emploi. Peut-être n'ont-ils pas de parents et veulent-ils déménager plus au sud pour le “meilleur” temps et la qualité nettement supérieure des "fish & chips" locaux.

Il est également essentiel de reconnaître que toutes les régions du Royaume-Uni ne disposent pas d'une collecte data démographique solide ou ne la cataloguent pas de la même manière (l'Écosse étant une différence notable). Les modèles d'IA ne peuvent analyser que des variables pour lesquelles il existe des données historiques solides et de qualité - ils ne peuvent pas mesurer la qualité de la vue d'un site particulier ou l'amabilité des directeurs de maisons de retraite. Ils ne peuvent pas non plus mesurer la qualité de la nourriture dans des maisons de repos concurrentes ou comprendre les qualités particulières du jardin d'une maison de repos ou de son programme d'activités. En tant que tels, les limites inhérentes à ces outils d'intelligence artificielle doivent être comprises. Ils ne peuvent pas être la seule source d'information dans la prise de décision. Tant que les humains ne cesseront pas de prendre des décisions irrationnelles, l'IA ne remplacera pas (encore) les agents fonciers expérimentés. Elles complètent la prise de décision humaine plutôt qu'elles ne la remplacent.

En fin de compte, la mise en œuvre réussie de modèles de prévision de l'occupation nécessite une approche équilibrée qui intègre les connaissances data-driven avec l'expertise et la compréhension humaines. L'utilisation de données hyperlocales démographiques, macroéconomiques, commerciales, d'affaires et immobilières data pour prédire les niveaux d'occupation va bien au-delà du secteur des maisons de retraite et peut être appliquée à d'autres catégories d'actifs (logements pour étudiants, bureaux, commerce de détail, I&L, etc.) Les équipes marketing peuvent s'appuyer sur ce concept pour planifier des campagnes ciblées en fonction de la densité de population dans des lieux spécifiques et mieux comprendre le nombre idéal d'unités ou de chambres et leurs niveaux de prix optimaux. En exploitant la puissance des grands data, les dirigeants peuvent prendre des décisions mieux informées et optimiser les opérations.

Ce projet a été mené par une équipe conjointe de consultants en gestion, de scientifiques et de technologues de Data sur une période de 16 semaines, en collaboration constante avec l'équipe du client. Le projet s'est déroulé en deux phases. La première consistait à élaborer une preuve de concept relativement peu coûteuse et peu engageante sur une période de 4 semaines afin de s'assurer qu'un modèle précis pouvait être construit. La seconde phase de 12 semaines consistait à renforcer le modèle avec des sources data supplémentaires et des algorithmes plus robustes, ainsi qu'à élaborer un tableau de bord sur mesure permettant aux utilisateurs d'interagir avec le modèle.

Contactez-nous

Où se soigner : déploiement de la science data pour trouver les emplacements optimaux des maisons de soins