Déployer la science data pour trouver des emplacements optimaux pour les foyers de soins :
Les solutions scientifiques avancées de data - associées à des agents fonciers expérimentés - augmentent la probabilité d'acquérir des sites de maisons de soins à taux d'occupation élevé.
Il n'est pas facile de choisir un site optimal pour une maison de soins.
Un bon site de maison de soins doit répondre à des centaines d'exigences complexes en matière d'environnement et d'emplacement afin d'atteindre un taux d'occupation durable. Le coût moyen d'un résident étant de 1 500 livres sterling par semaine sur un marché concurrentiel, il n'y a guère de place pour l'erreur.
Traditionnellement, les acheteurs de terrains utilisent des décennies d'expérience durement acquise, les sites publics et commerciaux disponibles ( data ) et les informations fournies par les agents locaux pour prendre des décisions complexes en matière d'investissement foncier. Mais le site national data montre que près de 40 % des logements n'atteignent pas les seuils d'occupation souhaités (plus de 80 %) après 5 ans d'exploitation.
Les humains ne peuvent pas traiter les vastes quantités de données micro- et macro-économiques contenues dans le site data pour tous les codes postaux d'Angleterre et du Pays de Galles, ce qui rend presque impossible l'identification des corrélations et des relations complexes qui existent entre les centaines d'ensembles de données. L'expérience humaine peut nous apporter la plupart des réponses, mais couplée à la puissance de la science data , elle peut conduire à des améliorations significatives.
Arca Blanca a été contactée par un grand constructeur et exploitant de maisons de soins au Royaume-Uni pour combiner les connaissances et l'expérience de ses agents fonciers avec nos capacités scientifiques data et notre plateforme immobilière data . Grâce à cette collaboration, nous avons construit un puissant modèle d'apprentissage automatique qui exploite à la fois les données internes du client data (telles que les performances individuelles des maisons de soins) et plus de 450 sources externes data (démographiques, micro- et macro-économiques) couvrant les 30 dernières années.
La solution de l'apprentissage automatique
1) Analyse de l'occupation dans le temps
Nous avons cherché à déterminer la probabilité qu'une maison de soins atteigne un taux d'occupation de plus de 80 % au cours des cinq prochaines années en analysant l'évolution du taux d'occupation au fil du temps.
Pour permettre une prévision solide de l'occupation, les données externes data telles que les données démographiques data sur la richesse, la géographie et l'indice d'espace vert de la région sont essentielles et doivent être combinées avec les données internes de la maison de soins data. Nous avons identifié une cadence mensuelle de mise à jour de l'occupation interne comme étant la plus bénéfique, car elle permet d'identifier et de minimiser les effets causés par la saisonnalité.
2) Identifier le bon algorithme
Pour chaque période (mensuelle dans ce cas), nous pouvons considérer le problème soit comme une "catégorisation" ("L'occupation sera-t-elle de 80% à la fin de la 5ème année ? Oui ou Non"), soit comme une "prédiction" ("Quel pourcentage du logement sera occupé à la fin de la 5ème année ?"). En outre, nous pouvons adopter cette dernière approche pour prédire les tendances d'occupation tout au long des cinq années - une méthode privilégiée lorsque la disponibilité de data est limitée.
Pour obtenir des prédictions très précises, l'approche choisie doit être associée à des techniques telles que le réglage des hyperparamètres et la validation croisée afin d'identifier les bons paramètres pour le modèle afin de maximiser la précision de la prédiction sur des sites nouveaux/inconnus data.
3) Validation du modèle
L'algorithme est formé sur plus de 5 ans de données internes et externes data - mais il doit également être testé pour sa précision sur data qu'il n'a pas "vu" auparavant. Pour ce faire, nous mettons de côté quelques sites dont nous connaissons déjà l'occupation historique et nous les soumettons au modèle entraîné. Pour ce faire, nous faisons régresser le modèle jusqu'à la date historique à laquelle les sites sont devenus opérationnels pour voir ce qu'il aurait prédit à ce moment-là et ce qui a finalement été réalisé. La différence absolue entre l'occupation réelle et l'occupation prévue est appelée l'erreur de prédiction. Le modèle doit être ajusté à l'aide d'une approche itérative afin de maintenir cette erreur à un niveau aussi bas que possible.
Ce modèle a été testé sur une grande variété de sites et présente un taux d'erreur moyen de seulement 9 %, ce qui est nettement mieux que les prévisions actuelles établies par l'homme. Il s'agit d'un résultat incroyable compte tenu des variations historiques de la qualité et de la disponibilité de data .
4) Renforcer la confiance dans le modèle
Les modèles d'apprentissage automatique existent sur un spectre entre des degrés élevés d'explicabilité (boîte blanche) et des niveaux élevés de précision (boîte noire). Chez Arca Blanca, nous nous efforçons de trouver un juste milieu entre les deux. Si le modèle n'est pas explicable, son adoption devient complexe car il sera traité avec méfiance. Un manque de précision crée le même problème, mais d'une manière différente.
Dans le cadre de ce projet, nous nous sommes efforcés d'atteindre un niveau de précision extrêmement élevé, mais nous avons fourni des degrés de confiance dans les résultats en fonction de la disponibilité de data, de la présence de valeurs aberrantes et de la confiance générale dans les résultats sur la base d'intervalles statistiques. À cela s'ajoutent des niveaux significatifs de données locales ( data ) qui ont un lien étroit avec les résultats. L'ensemble de ces éléments brosse un tableau convaincant des niveaux de confiance dans les résultats et de ce qui peut motiver ces résultats.
Changer les méthodes de travail
Notre client a adopté le modèle en tant qu'élément essentiel de ses comités d'investissement. Nous avons construit un tableau de bord sur mesure pour permettre une prise de décision plus rapide et plus précise lors des réunions du conseil d'administration (en remplacement de l'encombrante vue d'ensemble), afin qu'ils puissent exécuter des scénarios en direct et rejeter un grand nombre de sites potentiels sans avoir besoin d'enquêtes ou de visites de sites longues et coûteuses. Toutes les opportunités d'acquisition de terrains sont désormais rapidement classées par ordre de priorité ; le site local data ainsi que les résultats du modèle constituent un soutien quotidien et essentiel pour l'équipe chargée de l'acquisition des terrains.
Fait important, l'organisation a adopté l'apprentissage automatique et le potentiel qu'il offre - non pas comme une menace pour les emplois et les méthodes de travail, mais comme un outil essentiel pour créer des avantages uniques sur un marché de l'investissement complexe et difficile.
"La complexité de l'interprétation de centaines de variables pour définir leurs relations avec le succès met en évidence le besoin de modèles pilotés par l'IA pour améliorer la prise de décision humaine."
L'aide à la décision, pas la prise de décision
La combinaison de plusieurs sources data permet d'obtenir une compréhension globale des différents facteurs qui déterminent les taux d'occupation. Dans un cas d'utilisation particulier pour un constructeur de maisons de retraite, nous avons découvert que les indicateurs de piscines à proximité étaient l'un des cinq principaux facteurs d'occupation - ce qu'un agent immobilier peut facilement négliger ! La complexité de l'interprétation de nombreuses caractéristiques démographiques, de piscines, d'indicateurs de verdure et de centaines d'autres variables pour définir leurs relations avec le succès met en évidence le besoin de modèles pilotés par l'IA pour améliorer la prise de décision humaine.
Là où les modèles d'IA ne sont pas à la hauteur, en particulier dans le secteur immobilier, c'est lorsqu'il s'agit d'interpréter les comportements humains irrationnels. Les personnes âgées peuvent être disposées à parcourir de plus grandes distances pour se rendre dans des maisons de soins si elles sont plus proches d'amis ou de parents, ou encore pour suivre un fils ou une fille qui vient de changer d'endroit pour un nouvel emploi. Peut-être n'ont-ils pas de parents et veulent-ils déménager plus au sud pour le "meilleur" temps et la qualité nettement supérieure des "fish & chips" locaux.
Il est également essentiel de reconnaître que toutes les régions du Royaume-Uni ne disposent pas d'une solide collection de données démographiques data ou ne les cataloguent pas de la même manière (l'Écosse étant une différence notable). Les modèles d'IA ne peuvent également analyser que des variables pour lesquelles il existe des données historiques solides et de qualité ( data ). Ils ne peuvent pas mesurer la qualité de la vue d'un site particulier ou l'amabilité des directeurs de maisons de repos. Ils ne peuvent pas non plus mesurer la qualité de la nourriture dans des maisons de retraite concurrentes, ni comprendre les qualités particulières du jardin d'une maison de retraite ou de son programme d'activités. En tant que tels, les limites inhérentes à ces outils d'intelligence artificielle doivent être comprises. Ils ne peuvent pas être la seule source d'information dans la prise de décision. Tant que les humains ne cesseront pas de prendre des décisions irrationnelles, l'IA ne remplacera pas (encore) les agents fonciers expérimentés. Elles complètent la prise de décision humaine plutôt qu'elles ne la remplacent.
En fin de compte, la mise en œuvre réussie de modèles de prédiction de l'occupation nécessite une approche équilibrée qui intègre des informations data avec une expertise et une compréhension humaines. L'utilisation de data hyperlocales démographiques, macroéconomiques, commerciales et immobilières pour prédire les niveaux d'occupation va bien au-delà du secteur des maisons de retraite et peut être appliquée à d'autres catégories d'actifs (logements étudiants, bureaux, commerces, I&L, etc.). Les équipes marketing peuvent s'appuyer sur ce concept pour planifier des campagnes ciblées en fonction de la densité de population dans des lieux spécifiques et mieux comprendre le nombre idéal d'unités ou de chambres et leurs niveaux de prix optimaux. En exploitant la puissance des grandes data, les dirigeants peuvent prendre des décisions mieux informées et optimiser les opérations.
Ce projet a été mené par une équipe conjointe de consultants en gestion, de scientifiques et de technologues ( Data ) sur une période de 16 semaines, en collaboration constante avec l'équipe du client. Le projet s'est déroulé en deux phases. La première consistait à construire une preuve de concept relativement peu coûteuse et peu engageante sur une période de 4 semaines pour s'assurer qu'un modèle précis pouvait être construit. La seconde phase de 12 semaines consistait à renforcer le modèle avec des sources supplémentaires data et des algorithmes plus robustes et à construire un tableau de bord sur mesure pour que les utilisateurs puissent interagir avec lui.