data science to find optimal care home locations:
Las soluciones científicas avanzadas de data , combinadas con agentes inmobiliarios experimentados, aumentan la probabilidad de adquirir solares para residencias de alta ocupación.
Elegir un emplazamiento óptimo para una residencia de ancianos no es fácil.
Un buen centro asistencial debe cumplir cientos de complejos requisitos medioambientales y de ubicación para lograr una tasa de ocupación sostenible. Con un coste medio para el residente de 1.500 libras semanales en un mercado competitivo, hay poco margen para el error.
Tradicionalmente, los compradores de suelo se han servido de décadas de experiencia adquirida con esfuerzo, de la información pública y comercial disponible en data y de las opiniones de los agentes locales para fundamentar sus complejas decisiones de inversión en suelo. Pero a nivel nacional data muestra que casi el 40% de las viviendas no alcanzan los umbrales de ocupación deseados (más del 80%) tras 5 años de funcionamiento.
Los seres humanos no pueden procesar las ingentes cantidades de datos microeconómicos y macroeconómicos data existentes en todos los códigos postales de Inglaterra y Gales, lo que hace casi imposible identificar las complejas correlaciones y relaciones que existen entre los cientos de conjuntos de datos. La experiencia humana puede darnos la mayor parte de la respuesta, pero unida al poder de la ciencia de data puede conducir a mejoras significativas.
Un gran constructor y operador de residencias de ancianos del Reino Unido se puso en contacto con Arca Blanca para combinar los conocimientos y la experiencia de sus agentes inmobiliarios con nuestras capacidades científicas data y nuestra plataforma inmobiliaria data . Gracias a esta colaboración, creamos un potente modelo de aprendizaje automático que aprovecha tanto la información interna del cliente data (como el rendimiento de cada residencia) como más de 450 fuentes externas data (demográficas, microeconómicas y macroeconómicas) de los últimos 30 años.
La solución de aprendizaje automático
1) Análisis de la ocupación a lo largo del tiempo
Nos propusimos averiguar la probabilidad de que una residencia de ancianos alcance una ocupación superior al 80% en los próximos 5 años analizando los cambios en la ocupación a lo largo del tiempo.
Para poder realizar una previsión sólida de la ocupación, es esencial disponer de datos externos ( data ), como los datos demográficos ( data ) sobre riqueza, geografía e índice de zonas verdes de la zona, que deben combinarse con los datos internos de la residencia ( data). Hemos identificado una cadencia mensual de actualización de la ocupación interna como la más beneficiosa, ya que ayuda a identificar y minimizar los efectos causados por la estacionalidad.
2) Identificar el algoritmo adecuado
Para cada periodo de tiempo (mensual en este caso), podemos considerar el problema como "categorización" ("¿La ocupación será del 80% al final del 5º año? Sí o No") o "predicción": ("¿Qué % de la vivienda estará ocupada al final del 5º año?"). Además, podemos adoptar este último enfoque para predecir las tendencias de ocupación a lo largo de los 5 años, método preferido cuando la disponibilidad de data es limitada.
Para lograr predicciones de alta precisión, el enfoque elegido debe combinarse con técnicas como el ajuste de hiperparámetros y la validación cruzada para identificar los parámetros adecuados para el modelo con el fin de maximizar la precisión de la predicción en data nuevo/no visto.
3) Validación del modelo
El algoritmo se ha entrenado con más de 5 años de información interna y externa en data , pero también hay que comprobar su precisión en data , que no ha "visto" antes. Para ello, separamos algunos sitios de los que ya conocemos la ocupación histórica y los sometemos al modelo entrenado. Para ello, se realiza una regresión del modelo hasta la fecha histórica en que los centros entraron en funcionamiento para ver lo que habría predicho en ese momento y lo que finalmente se consiguió. La diferencia absoluta entre la ocupación real y la prevista se denomina error de predicción. El modelo debe ajustarse mediante un enfoque iterativo para mantener este error lo más bajo posible.
Este modelo se probó en una gran variedad de sitios y presenta una tasa de error media de sólo el 9%, significativamente mejor que las predicciones humanas actuales. Se trata de un resultado increíble dadas las variaciones históricas en la calidad y disponibilidad de data .
4) Crear confianza en el modelo
Los modelos de aprendizaje automático existen en un espectro entre altos grados de explicabilidad (caja blanca) y altos niveles de precisión (caja negra). En Arca Blanca nos esforzamos por alcanzar un término medio entre ambos. Si el modelo no es explicable, su adopción se complica, ya que se tratará con recelo. La falta de precisión crea el mismo problema de otra manera.
En este proyecto nos esforzamos por alcanzar un nivel de precisión extremadamente alto, pero proporcionamos grados de confianza en los resultados basados en la disponibilidad de data, la presencia de valores atípicos y la confianza general en los resultados basada en intervalos estadísticos. Todo ello se complementa con unos niveles significativos de data , que guardan una estrecha relación con los resultados. En conjunto, ofrecen una imagen convincente de los niveles de confianza en los resultados y de lo que puede impulsarlos.
Cambiar la forma de trabajar
Nuestro cliente ha adoptado el modelo como componente esencial de sus comités de inversión. Hemos creado un cuadro de mandos a medida que permite tomar decisiones más rápidas y precisas en las reuniones del consejo de administración (sustituyendo a la engorrosa vista de la casa), de modo que puedan ejecutar escenarios en directo y descartar un gran número de posibles emplazamientos sin necesidad de largas y costosas investigaciones o visitas a los mismos. Todas las oportunidades de adquisición de terrenos se priorizan ahora con rapidez; la web local data , así como los resultados del modelo, constituyen un apoyo diario y esencial para el equipo de adquisición de terrenos.
Es importante destacar que la organización ha adoptado el aprendizaje automático y el potencial que ofrece Servicios , no como una amenaza para los puestos de trabajo y las formas de trabajar, sino como una herramienta esencial para crear ventajas únicas en un mercado de inversión complejo y difícil.
"La complejidad de interpretar cientos de variables para definir sus relaciones con el éxito pone de relieve la necesidad de modelos basados en AI para mejorar la toma de decisiones humanas".
Apoyo a la decisión, no toma de decisiones
La combinación de múltiples fuentes de data puede ofrecer una comprensión exhaustiva de los diversos factores que impulsan las tasas de ocupación. En un caso de uso particular para un constructor de residencias de ancianos, descubrimos que los indicadores de piscinas cercanas eran uno de los 5 principales factores impulsores de la ocupación, ¡algo que un agente inmobiliario puede pasar por alto fácilmente! La complejidad de interpretar numerosas características demográficas, piscinas, indicadores de verdor y cientos de otras variables para definir su relación con el éxito pone de relieve la necesidad de modelos basados en AI para mejorar la toma de decisiones humanas.
Donde los modelos de AI se quedan cortos, sobre todo en el sector inmobiliario, es en la interpretación de los comportamientos humanos irracionales. Los ancianos pueden estar dispuestos a recorrer distancias más largas para ir a residencias si están más cerca de amigos o parientes, tal vez se muden para seguir a un hijo o una hija que acaba de cambiar de geografía por un nuevo trabajo. Tal vez no tengan parientes y quieran mudarse más al sur por el "mejor" clima y la calidad claramente superior del pescado y las patatas fritas locales.
También es crucial reconocer que no todas las regiones del Reino Unido cuentan con una sólida recopilación demográfica data ni las catalogan de la misma manera (Escocia es una diferencia notable). Los modelos AI también pueden analizar únicamente variables para las que existe un data histórico sólido y de calidad: no pueden medir la calidad de una vista desde un lugar concreto ni la amabilidad de los gerentes de las residencias de ancianos. No puede medir la calidad de la comida en residencias competidoras ni comprender las cualidades particulares del jardín de una residencia o su programa de actividades. Por ello, hay que comprender las limitaciones inherentes a estas herramientas de AI . No pueden ser la única fuente de información en la toma de decisiones. Hasta que el ser humano deje de tomar decisiones irracionales, AI no sustituirá (todavía) a los agentes del territorio experimentados. Complementan la toma de decisiones humana en lugar de sustituirla.
En última instancia, el éxito de la aplicación de modelos de predicción de la ocupación requiere un enfoque equilibrado que integre la información de data con la experiencia y los conocimientos humanos. La utilización de datos demográficos hiperlocales, macroeconómicos, comerciales, empresariales e inmobiliarios data para predecir los niveles de ocupación va mucho más allá del sector de las residencias geriátricas y puede aplicarse a otras clases de activos (residencias de estudiantes, oficinas, comercios, I&L, etc.). Los equipos de marketing pueden aprovechar este concepto para planificar campañas específicas basadas en la densidad de población de lugares concretos, así como para comprender mejor el número ideal de unidades o habitaciones y sus niveles óptimos de precios. Aprovechando el poder de data, los ejecutivos pueden tomar decisiones mejor informadas y optimizar las operaciones.
Este proyecto fue dirigido por un equipo conjunto de consultores de gestión, científicos y tecnólogos de Data durante un periodo de 16 semanas en constante colaboración con el equipo del cliente. El proyecto se desarrolló en dos fases. La primera consistió en crear una prueba de concepto de coste y compromiso relativamente bajos durante un periodo de 4 semanas para garantizar que se podía construir un modelo preciso, mientras que la segunda fase, de 12 semanas, consistió en reforzar el modelo con fuentes adicionales de data y algoritmos más sólidos, así como en crear un cuadro de mandos a medida con el que pudieran interactuar los usuarios.