How we deployed a simple wildlife monitoring system on Google Cloud

Autor

Simone Gayed disse

Engenheiro de aprendizado de máquina, Artefact Benelux

Leia nosso artigo sobre

Como Artefact, nós nos preocupamos em impactar positivamente as pessoas, o meio ambiente e a comunidade. É por isso que temos o compromisso de fazer parcerias com organizações sem fins lucrativos que fazem desses valores os elementos básicos de sua visão.
Por isso, colaboramos com a Smart Parks, uma empresa holandesa que fornece soluções avançadas de sensores para conservar a vida selvagem ameaçada e gerenciar com eficiência as áreas dos parques, fornecendo tecnologia de ponta.

Nesta série de publicações, narramos nossa jornada no projeto e na criação de um sistema de ML para usar a mídia das armadilhas fotográficas do Smart Parks. Em particular, o objetivo do projeto é usar uma abordagem de ML para ingerir o data proveniente das armadilhas fotográficas e, em seguida, fornecer insights, como a presença de pessoas ou tipos específicos de animais nas imagens ou vídeos capturados pelas câmeras. Essas informações são usadas pelos guardas florestais do parque para proteger melhor a vida selvagem e detectar mais rapidamente possíveis perigos, como caçadores ilegais.

Introdução

Parques inteligentes precisava de um sistema de monitoramento da vida selvagem capaz de realizar as seguintes tarefas:

Ingerir a mídia (imagens e/ou vídeos) proveniente de armadilhas fotográficas em um único local
Detectar automaticamente a presença de humanos e animais na mídia
Acesse as previsões no Earth Rangers, um aplicativo usado para gerenciar os parques e sua vida selvagem
Monitore a mídia proveniente das armadilhas fotográficas

Nosso princípio orientador aqui era o de favorecer a velocidade. Assim, quando começamos, nossa única prioridade era implementar um produto básico, mas totalmente funcional, de ponta a ponta o mais rápido possível.

Este será o primeiro artigo de muitos e se concentrará no contexto do projeto, na visão de alto nível do sistema projetado e nas vantagens de nossa solução baseada no cloud. Nos próximos artigos, vamos nos aprofundar em como conectar as armadilhas fotográficas ao Google Cloud Platform e endpoints externos usando uma ferramenta chamada Node-RED e como projetar um aplicativo Web simples usando Streamlit para gerenciar as armadilhas fotográficas colocadas nos parques.

Vamos começar!

Armadilhas para câmeras

Antes de começarmos, vamos rever rapidamente o que são armadilhas fotográficas e como elas podem ser usadas para apoiar a proteção e a conservação dos animais.

As armadilhas fotográficas são dispositivos que possuem sensores embutidos para que, quando uma atividade for detectada na frente delas, uma foto ou um vídeo seja imediatamente capturado. Elas permitem que os guardas florestais e biólogos da vida selvagem vejam nossas espécies semelhantes sem interferir em seu comportamento normal.

Percorrer os parques e coletar informações é uma técnica válida, mas é um processo caro, trabalhoso e que exige muitas pessoas. Além disso, há também o risco de encontrar animais selvagens perigosos ou, pior ainda, caçadores ilegais.

Embora diferentes técnicas de coleta de data tenham diferentes desvantagens, as armadilhas fotográficas são uma excelente fonte. A grande vantagem das armadilhas fotográficas é que elas funcionam de forma contínua e silenciosa e podem registrar data muito precisos sem perturbar o objeto fotografado. Elas podem ser úteis tanto para monitorar sub-repticiamente possíveis atividades ilícitas quanto para quantificar o número de espécies diferentes em uma área e determinar seus padrões de comportamento e atividade.

Google Cloud Platform

Para o armazenamento e o gerenciamento de mídia das armadilhas da câmera, optamos por usar uma solução baseada em cloud, mais especificamente, o Google Cloud Platform.

O Google oferece soluções de armazenamento como Armazenamento na nuvem do Google, armazenamento de objetos com cache de borda integrado para armazenar data não estruturado, soluções de computação como Funções de nuvem, O senhor pode usar o Functions as a Service para executar código orientado por eventos e também oferece APIs de IA úteis, por exemplo:

API do Cloud Vision - Serviço de análise de imagens baseado em aprendizado de máquina
Inteligência de vídeo na nuvem - Serviço de análise de vídeo baseado em aprendizado de máquina

Ter todos esses componentes em um único ambiente unificado foi a solução ideal para nós e nos ajudou a fornecer uma solução funcional em pouco tempo.

O fluxo de trabalho

Em primeiro lugar, a mídia é carregada em um bucket do Google Cloud Storage; como exatamente isso acontece será discutido no segundo artigo desta série. O bucket é organizado em pastas, uma para cada armadilha de câmera. Depois que um arquivo é carregado, uma função do Google Cloud é acionada imediatamente, e essa função cuida das seguintes tarefas:

Leia a mídia carregada
Chame a API do Cloud Vision ou do Cloud Video Intelligence para recuperar as previsões
Arquivar as respostas da API em outro Cloud Storage Bucket
Enviar as previsões para um endpoint fora do GCP

Essa arquitetura oferece várias vantagens:

Escalabilidade: Graças ao uso do Cloud Functions, a solução pode ser dimensionada automaticamente com base no número de solicitações (ou seja, o número de mídias carregadas no bucket de entrada do Cloud Storage ao mesmo tempo)
Armazenamento barato e durável: O armazenamento não estruturado data no Google Cloud Storage é bastante econômico (apenas $0,026 por GB-mês para o nível de armazenamento Standard) e, além disso, oferece a melhor durabilidade de objetos da categoria em um determinado ano
Automação: O uso de todos esses serviços juntos nos permite ter um pipeline totalmente automatizado, sem necessidade de intervenção humana. Desde a ingestão do data até a recuperação de previsões, tudo é executado automaticamente assim que uma nova mídia é carregada

APIs do Cloud Vision e do Cloud Video Intelligence

O uso do aprendizado de máquina, especificamente da visão computacional, para identificar automaticamente pessoas e animais em imagens ou vídeos teve avanços significativos nos últimos anos e, atualmente, é amplamente considerado um “divisor de águas” pelos pesquisadores da vida selvagem. Vamos nos concentrar mais nas APIs usadas.

API de visão e API de inteligência de vídeo oferecem modelos avançados de aprendizado de máquina pré-treinados por meio de APIs REST e RPC. A primeira foi criada para trabalhar com imagens, enquanto a segunda, como o nome sugere, trabalha com vídeos. Ambos são capazes de reconhecer automaticamente um grande número de objetos, lugares e ações.

Para este projeto, nos concentramos principalmente nesses três recursos fornecidos pelas APIs:

Detecção de rótulos: Ter uma ideia das entidades (por exemplo, animais, pessoas, veículos) presentes na mídia. Com base nisso, seria possível criar regras que acionassem um alarme na presença de um conjunto específico de entidades
Detecção/rastreamento de objetos: Para ter uma ideia mais precisa do local dos animais/pessoas detectados na mídia. Diferentemente do caso da detecção de rótulos, aqui também obtemos as anotações de caixa das detecções
Detecção de rostos/pessoas: Para obter mais informações sobre as pessoas detectadas, por exemplo, para entender suas emoções ou extrair suas roupas. Essas informações adicionais poderiam ser usadas para distinguir os caçadores furtivos das pessoas normais

O senhor pode brincar com a API do Vision apenas fazendo o upload de sua imagem pelo aqui.

A trilha à frente

A jornada até agora é a base para a jornada empolgante e impactante que temos pela frente. Com as ferramentas básicas instaladas em um futuro próximo, poderemos criar muito valor não apenas para os Smart Parks, mas também para a conservação da vida selvagem e muito mais!

As próximas etapas envolverão essas áreas amplas de trabalho:

Experimentação de modelos: Até o momento, fizemos experiências apenas com APIs ou modelos pré-treinados, mas, no futuro, seria interessante criar um conjunto de imagens/vídeos coletados pelas armadilhas fotográficas. Rotulá-lo, manualmente ou usando o sistema que acabamos de apresentar, e depois usá-lo para treinar modelos personalizados de visão computacional para obter melhor precisão
Implementação de casos de uso: O fato de já termos uma solução totalmente automatizada nos permitirá focar mais no desenvolvimento de casos de uso direcionados, ou seja, pensar realmente em como explorar as informações recuperadas para causar impacto e ajudar os guardas florestais e todos os voluntários a proteger a vida selvagem dos parques
IA de borda: No momento, a velocidade de execução do nosso loop de previsão é satisfatória para o nosso caso de uso (alguns minutos). Ainda temos áreas de melhoria para nos aproximarmos de uma solução em tempo real. A IA de borda, com um modelo implantado e executado mais próximo do hardware real da armadilha da câmera, é uma opção que ajudaria a evitar viagens de ida e volta ao cloud

Neste primeiro artigo, discutimos como criamos nosso pipeline escalonável totalmente automatizado no Google Cloud, o que nos permitiu ingerir mídia e usar APIs de aprendizado de máquina para extrair insights dela. Ele fornece uma linha de base sólida, fácil e rápida de implementar para qualquer tipo de projeto que envolva o consumo de mídia e o uso do aprendizado de máquina para extrair insights deles.

Obrigado por ler e vejo o senhor no próximos artigos da série, onde explicaremos mais detalhadamente como a arquitetura apresentada é efetivamente conectada às armadilhas fotográficas, e onde veremos o aplicativo da web projetado para gerenciá-las, portanto, fique atento!

Agradecimentos especiais a Maël Deschamps por sua ajuda na revisão do conteúdo deste post e a Tim van Dam, da Smart Parks, por seu apoio durante o projeto. Os senhores são demais!

Média Blog por Artefact.

Este artigo foi publicado inicialmente no Medium.com.
Siga-nos em nosso Medium Blog !

Leia nosso artigo

Entre em contato conosco

Como implantamos um sistema simples de monitoramento da vida selvagem no Google Cloud