Where to care: deploying data science to find optimal care home locations

Autor

Christopher de Gruben

Gerente sênior de consultoria Data Artefact REINO UNIDO

Implantação da ciência data para encontrar a melhor localização de casas de repouso:

As soluções científicas avançadas do data - combinadas com agentes imobiliários experientes - aumentam a probabilidade de aquisição de locais para casas de repouso de alta ocupação.

Escolher um local ideal para uma casa de repouso não é fácil.

Ele tem os dados demográficos corretos da população?
Há conexões de transporte suficientes?
Há espaços verdes e azuis suficientes?
A densidade habitacional é adequada?
Qual a distância que os moradores e visitantes percorrerão?
Os níveis de poluição do ar estão muito altos?
O comércio essencial é acessível a pé?

Um bom local para uma casa de repouso precisa atender a centenas de requisitos ambientais e de localização complexos para atingir uma taxa de ocupação sustentável. Com um custo médio para os residentes de £1.500 por semana em um mercado competitivo, há pouco espaço para erros.

Tradicionalmente, os compradores de terrenos usam décadas de experiência adquirida com muito esforço, data públicos e comerciais disponíveis e percepções de agentes locais para informar decisões complexas de investimento em terrenos. Mas o data em nível nacional mostra que quase 40% das residências não atingem os limites de ocupação desejados (acima de 80%) após 5 anos de operação.

Os seres humanos não conseguem processar as grandes quantidades de data micro e macroeconômicas existentes em todos os códigos postais da Inglaterra e do País de Gales, e isso torna quase impossível identificar as complexas correlações e relações existentes entre as centenas de datasets. A experiência humana pode nos dar a maior parte da resposta, mas, juntamente com o poder da ciência do data, pode levar a melhorias significativas.

A Arca Blanca foi procurada por um grande construtor e operador de casas de repouso do Reino Unido para combinar o conhecimento e a experiência de seus agentes imobiliários com nossos recursos científicos de data e data platform de propriedades. Por meio dessa colaboração, criamos um poderoso modelo de aprendizado de máquina que aproveita tanto o data interno do cliente (como o desempenho de cada casa de repouso) quanto mais de 450 fontes externas de data (demográficas, micro e macroeconômicas) que abrangem os últimos 30 anos.

A solução de aprendizado de máquina

1) Analisar a ocupação ao longo do tempo

Procuramos descobrir a probabilidade de uma casa de repouso atingir mais de 80% de ocupação nos próximos 5 anos, analisando as mudanças na ocupação ao longo do tempo.

Para possibilitar uma previsão de ocupação robusta, os data externos, como os data demográficos sobre riqueza, geografia e o índice de espaço verde da área, são essenciais e devem ser combinados com os data internos da casa de repouso. Identificamos que uma cadência mensal de atualização da ocupação interna é mais benéfica, pois ajuda a identificar e minimizar os efeitos causados pela sazonalidade.

2) Identificar o algoritmo correto

Para cada período de tempo (mensal, nesse caso), podemos ver o problema como ‘categorização’ (“A ocupação será 80% no final do 5º ano? Sim ou Não”) ou ‘previsão’: (“Qual % da residência será ocupada no final do 5º ano?”). Além disso, podemos adotar a última abordagem para prever tendências de ocupação ao longo dos 5 anos - um método preferido quando a disponibilidade de data é limitada.

Para obter previsões de alta precisão, a abordagem escolhida deve ser combinada com técnicas como ajuste de hiperparâmetros e validação cruzada para identificar os parâmetros corretos do modelo e maximizar a precisão da previsão em data novos/não vistos.

3) Validação do modelo

O algoritmo é treinado com base em mais de 5 anos de data interno e externo, mas também deve ser testado quanto à precisão em data que ele não tenha ‘visto’ antes. Para isso, separamos alguns locais para os quais já conhecemos o histórico de ocupação e os submetemos ao modelo treinado. Para isso, regredimos o modelo para a data histórica em que os locais entraram em operação para ver o que ele teria previsto naquele momento e o que acabou sendo alcançado. A diferença absoluta entre a ocupação real e a ocupação prevista é chamada de erro de previsão. O modelo deve ser ajustado usando uma abordagem iterativa para manter esse erro o mais baixo possível.

Esse modelo foi testado em uma ampla variedade de locais e tem uma taxa de erro média de apenas 9% - significativamente melhor do que as previsões atuais feitas por humanos. Esse é um resultado incrível, considerando as variações históricas na qualidade e disponibilidade do data.

4) Criar confiança no modelo

Os modelos de aprendizado de máquina existem em um espectro entre altos graus de explicabilidade (caixa branca) e altos níveis de precisão (caixa preta). Na Arca Blanca, nós nos esforçamos para alcançar um meio termo entre os dois. Sem nenhuma explicabilidade, a adoção do modelo se torna complexa, pois ele será tratado com desconfiança. A falta de precisão cria o mesmo problema de uma forma diferente.

Nesse projeto, buscamos um nível de precisão extremamente alto, mas fornecemos graus de confiança nos resultados com base na disponibilidade do data, na presença de outliers e na confiança geral nos resultados com base em intervalos estatísticos. Isso é complementado por níveis significativos de data local que têm uma forte relação com os resultados. Juntos, esses dados traçam um quadro convincente dos níveis de confiança nos resultados e o que pode impulsionar esses resultados.

Mudança nas formas de trabalho

Nosso cliente adotou o modelo como um componente essencial de seus comitês de investimento. Criamos um painel sob medida para permitir uma tomada de decisão mais rápida e precisa nas reuniões do conselho (substituindo a incômoda visão interna), para que eles possam executar cenários ao vivo e descartar um grande número de locais em potencial sem a necessidade de investigações ou visitas demoradas e dispendiosas ao local. Todas as oportunidades de aquisição de terras agora são rapidamente priorizadas; o data local, bem como os resultados do modelo, formam um suporte diário e essencial para a equipe de aquisição de terras.

É importante ressaltar que a organização adotou o Machine Learning e o potencial que ele oferece, não como uma ameaça aos empregos e às formas de trabalho, mas como uma ferramenta essencial para criar vantagens exclusivas em um mercado de investimentos complexo e desafiador.

“A complexidade de interpretar centenas de variáveis para definir suas relações com o sucesso destaca a necessidade de modelos orientados por IA para aprimorar a tomada de decisões humanas.”

Apoio à decisão, não tomada de decisão

A combinação de várias fontes data pode oferecer uma compreensão abrangente dos vários fatores que impulsionam as taxas de ocupação. Em um caso de uso específico para um construtor de casas de repouso, descobrimos que os indicadores de piscinas próximas eram um dos cinco principais fatores de ocupação - algo que um agente imobiliário pode facilmente ignorar! A complexidade de interpretar inúmeras características demográficas, piscinas, indicadores de área verde e centenas de outras variáveis para definir suas relações com o sucesso destaca a necessidade de modelos orientados por IA para aprimorar a tomada de decisões humanas.

O ponto em que os modelos de IA ficam aquém, especialmente no setor imobiliário, é na interpretação de comportamentos humanos irracionais. Os residentes idosos podem estar dispostos a percorrer distâncias maiores para buscar casas de repouso se estiverem mais próximos de amigos ou parentes, talvez se mudem para acompanhar um filho ou uma filha que acabou de mudar de região para um novo emprego. Talvez eles não tenham parentes e queiram se mudar mais para o sul por causa do clima “melhor” e da qualidade claramente superior do fish & chips local.

Também é fundamental reconhecer que nem todas as regiões do Reino Unido têm uma coleta demográfica robusta de data ou as catalogam da mesma forma (a Escócia é uma diferença notável). Os modelos de IA também só podem analisar variáveis para as quais exista um histórico data robusto e de qualidade - não podem medir a qualidade de uma vista de um determinado local ou a simpatia dos gerentes das casas de repouso. Não é possível medir a qualidade da comida em casas de repouso concorrentes ou entender as qualidades específicas do jardim de uma casa ou sua programação de atividades. Dessa forma, as limitações inerentes a essas ferramentas de IA devem ser compreendidas. Elas não podem ser a única fonte de informações na tomada de decisões. Até que os seres humanos parem de tomar decisões irracionais, a IA (ainda) não substituirá agentes fundiários experientes. Elas complementam a tomada de decisão humana em vez de substituí-la.

Em última análise, a implementação bem-sucedida de modelos de previsão de ocupação requer uma abordagem equilibrada que integre os insights data-driven com o conhecimento e a compreensão humanos. A utilização de dados demográficos, macroeconômicos, de varejo, de negócios e de propriedades data hiperlocais para prever os níveis de ocupação vai muito além do setor de casas de repouso e pode ser aplicada a outras classes de ativos (acomodação para estudantes, escritórios, varejo, I&L etc.). As equipes de marketing podem aproveitar esse conceito para planejar campanhas direcionadas com base na densidade populacional de locais específicos, bem como entender melhor o número ideal de unidades ou quartos e seus níveis ideais de preços. Ao aproveitar o poder do grande data, os executivos podem tomar decisões mais bem informadas e otimizar as operações.

Esse projeto foi executado por uma equipe conjunta de consultores de gerenciamento, cientistas e tecnólogos da Data durante um período de 16 semanas em constante colaboração com a equipe do cliente. O projeto foi executado em duas fases. A primeira consistiu na construção de uma Prova de Conceito de custo relativamente baixo e baixo comprometimento durante um período de 4 semanas para garantir que um modelo preciso pudesse ser construído, enquanto a segunda fase de 12 semanas consistiu no fortalecimento do modelo com fontes data adicionais e algoritmos mais robustos, além da construção de um painel de controle sob medida para os usuários interagirem.

Entre em contato conosco

Onde cuidar: implantando a ciência data para encontrar as melhores localizações de casas de repouso