Lisez notre article sur

class="lazyload

.

Chez Artefact, nous avons à cœur d’avoir un impact positif sur les personnes, l’environnement et la communauté. C’est pourquoi nous nous engageons à collaborer avec des organisations à but non lucratif qui font de ces valeurs les fondements de leur vision.
C’est ainsi que nous avons collaboré avec Smart Parks, une entreprise néerlandaise qui propose des solutions de capteurs de pointe pour préserver la faune menacée et gérer efficacement les espaces verts grâce à une technologie de pointe.

Dans cette série d'articles, nous retraçons notre parcours dans la conception et la mise en place d'un système d'apprentissage automatique destiné à exploiter les données issues des pièges photographiques de Smart Parks. L'objectif du projet est notamment d'utiliser une approche d'apprentissage automatique pour ingérer les data des pièges photographiques, puis de fournir des informations, telles que la présence de personnes ou d'espèces animales spécifiques dans les images ou les vidéos capturées par les caméras. Ces informations sont ensuite utilisées par les gardes forestiers pour mieux protéger la faune sauvage et détecter plus rapidement les dangers potentiels, comme les braconniers.

Introduction

Smart Parks avait besoin d'un système de surveillance de la faune capable d'accomplir les tâches suivantes :

  • Regrouper en un seul endroit les fichiers multimédias (images et/ou vidéos) provenant des pièges photographiques
  • Détecter automatiquement la présence de personnes et d'animaux dans les fichiers multimédias

  • Accédez aux prévisions dans Earth Rangers, une application utilisée pour gérer les parcs et leur faune

  • Surveiller les images provenant des pièges photographiques

Notre principe directeur était ici de privilégier la rapidité. Ainsi, dès le début, notre seule priorité était de déployer le plus rapidement possible un produit minimaliste mais pleinement opérationnel de bout en bout.

Cet article, le premier d'une série, se concentrera sur le contexte du projet, la présentation générale du système conçu et les avantages de notre solution cloud. Dans les prochains articles, nous approfondirons la manière de connecter les pièges photographiques à la Cloud Google Cloud et à des points de terminaison externes à l'aide d'un outil appeléNode-RED, ainsi que la conception d'une application web simple utilisantStreamlitpour gérer les pièges photographiques installés dans les parcs.

C'est parti !

Caméras pièges

Avant d'entrer dans le vif du sujet, voyons rapidement ce que sont les pièges photographiques et comment ils peuvent contribuer à la protection et à la conservation des animaux.

Les pièges photographiques sont des appareils équipés de capteurs qui, dès qu'une activité est détectée devant eux, prennent immédiatement une photo ou enregistrent une vidéo. Ils permettent aux gardes forestiers et aux biologistes de la faune sauvage d'observer nos compagnons à quatre pattes sans perturber leur comportement naturel.

Faire le tour des parcs pour recueillir des informations est une technique valable, mais il s'agit d'un processus coûteux, qui demande beaucoup de travail et mobilise d'importants effectifs. De plus, il existe un risque de croiser des animaux sauvages dangereux ou, pire encore, des braconniers.

Si les différentes techniques de collecte data chacune leurs avantages et leurs inconvénients, les pièges photographiques constituent une excellente source d'informations. Leur grand avantage réside dans le fait qu'ils fonctionnent en continu et en silence, et qu'ils permettent d'enregistrer data très précises data perturber les animaux photographiés. Ils peuvent s'avérer utiles tant pour surveiller discrètement d'éventuelles activités illicites que pour quantifier le nombre d'espèces présentes dans une zone donnée et déterminer leurs comportements et leurs habitudes.

Google Cloud

Pour le stockage et la gestion des données issues des pièges photographiques, nous avons opté pour une solution cloud, plus précisément la Cloud Google Cloud .

Google propose des solutions de stockage telles queGoogle Cloud , un service de stockage d'objets avec mise en cache en périphérie intégrée pour stocker data non structurées, ainsi que des solutions de calcul commeCloud , un service de fonctions (FaaS) permettant d'exécuter du code déclenché par des événements. Il propose également des API d'IA très utiles, par exemple :

  • APICloud — Service d'analyse d'images basé sur l'apprentissage automatique
  • Cloud Intelligence— Service d'analyse vidéo basé sur l'apprentissage automatique

Le fait de disposer de tous ces éléments dans un environnement unique et unifié constituait pour nous la solution idéale et nous a permis de mettre en place une solution opérationnelle en peu de temps.

Le flux de travail

Tout d'abord, les fichiers multimédias sont téléchargés dans un compartiment Google Cloud ; le fonctionnement exact de ce processus sera abordé dans le deuxième article de cette série. Le compartiment est organisé en dossiers, à raison d'un dossier par piège photographique. Une fois qu'un fichier est téléchargé, une Cloud Google Cloud est immédiatement déclenchée ; cette fonction se charge des tâches suivantes :

  • Lire les fichiers multimédias téléchargés
  • Appelez l'API Cloud ou l'API Cloud Intelligence pour récupérer les prévisions

  • Enregistrer les réponses de l'API dans un autre compartiment Cloud

  • Envoyer les prévisions vers un point de terminaison situé en dehors de GCP

class="lazyload

Cette architecture offre de nombreux avantages :

  • Évolutivité: grâce à l'utilisation de Cloud , la solution est capable de s'adapter automatiquement en fonction du nombre de requêtes (c'est-à-dire du nombre de fichiers multimédias téléchargés simultanément dans le compartiment Cloud de destination).

  • Stockage économique et durable: le stockage data non structurées data Google Cloud est très abordable (seulement 0,026 $ par Go et par mois pour le niveau de stockage Standard) ; de plus, il offre la meilleure durabilité de sa catégorie pour les objets sur une année donnée

  • Automatisation: l'utilisation conjointe de tous ces services nous permet de disposer d'un pipeline entièrement automatisé, ne nécessitant aucune intervention humaine. De data à l'obtention des prévisions, tout se déroule automatiquement dès qu'un nouveau fichier multimédia est mis en ligne.

API Cloud et Cloud Intelligence

L'utilisation de l'apprentissage automatique, et plus particulièrement de la vision par ordinateur, pour identifier automatiquement les personnes et les animaux dans des images ou des vidéos a connu des progrès considérables ces dernières années ; aujourd'hui, cette technologie est largement considérée comme une véritable « révolution » par les chercheurs en biologie de la faune sauvage. Penchons-nous maintenant plus en détail sur les API utilisées.

Les APIVisionetVideo Intelligenceproposentdepuissants modèles d'apprentissage automatique pré-entraînés via des interfaces REST et RPC. La première est conçue pour traiter des images, tandis que la seconde, comme son nom l'indique, est destinée aux vidéos. Toutes deux sont capables de reconnaître automatiquement un grand nombre d'objets, de lieux et d'actions.

Pour ce projet, nous nous sommes principalement concentrés sur ces trois fonctionnalités offertes par les API :

  • Détection d'étiquettes: pour avoir une idée des entités (par exemple, des animaux, des personnes, des véhicules) présentes dans les médias. Sur cette base, il serait possible de créer des règles qui déclenchent une alarme en présence d'un ensemble spécifique d'entités

  • Détection et suivi d'objets: pour avoir une idée plus précise de l'emplacement des animaux ou des personnes détectés dans les données multimédias. Contrairement à la détection d'étiquettes, on obtient ici également les annotations sous forme de cadres pour les détections

  • Détection des visages/des personnes: pour obtenir davantage d'informations sur les personnes détectées, par exemple pour identifier leurs émotions ou reconnaître leurs vêtements. Ces informations supplémentaires pourraient ensuite servir à distinguer les braconniers des personnes lambda

Vous pouvez tester l'API Vision simplement en téléchargeant votre imageici.

class="lazyload

Le chemin qui s'ouvre devant nous

Le chemin parcouru jusqu'à présent jette les bases d'un parcours passionnant et porteur d'impact qui nous attend. Une fois les outils de base mis en place dans un avenir proche, nous serons en mesure de créer une grande valeur ajoutée, non seulement pour les Smart Parks, mais aussi pour la conservation de la faune sauvage et bien au-delà !

Les prochaines étapes porteront sur les grands axes de travail suivants :

  • Expérimentation de modèles: jusqu’à présent, nous n’avons testé que des API ou des modèles pré-entraînés, mais il serait intéressant, à l’avenir, de constituer un ensemble de données composé d’images et de vidéos capturées par les pièges photographiques. Il faudrait ensuite les annoter, soit manuellement, soit à l’aide du système que nous venons de présenter, puis les utiliser pour entraîner des modèles de vision par ordinateur personnalisés afin d’obtenir une meilleure précision.

  • Mise en œuvre des cas d'utilisation: le fait de disposer d'une solution entièrement automatisée nous permettra de nous concentrer davantage sur le développement de cas d'utilisation ciblés, et donc de réfléchir véritablement à la manière d'exploiter les informations recueillies pour avoir un impact réel et aider les gardes forestiers et tous les bénévoles à protéger la faune des parcs

  • IA en périphérie: pour l'instant, la vitesse d'exécution de notre boucle de prédiction est satisfaisante pour notre cas d'utilisation (quelques minutes). Il nous reste toutefois des points à améliorer pour nous rapprocher d'une solution en temps réel. L'IA en périphérie, avec un modèle déployé et fonctionnant à proximité immédiate du matériel des pièges photographiques, est une option qui permettrait d'éviter les allers-retours vers le cloud

Dans ce premier article, nous avons expliqué comment nous avons mis en place notre pipeline entièrement automatisé et évolutif sur Google Cloud, qui nous permet d'ingérer des données multimédias et d'utiliser des API d'apprentissage automatique pour en extraire des informations. Il offre une base solide, simple et rapide à mettre en œuvre pour tout type de projet impliquant l'analyse de données multimédias et l'utilisation de l'apprentissage automatique pour en extraire des informations.

Merci de votre lecture et rendez-vous dans les prochains articles de cette série, où nous expliquerons plus en détail comment l'architecture présentée est reliée aux pièges photographiques, et où nous passerons en revue l'application web conçue pour les gérer. Restez donc à l'écoute !

Un grand merci à Maël Deschamps pour son aide dans la relecture du contenu de cet article, ainsi qu'à Tim van Dam de Smart Parks pour son soutien tout au long du projet. Vous êtes géniaux !

class="lazyload

Blog Medium Blog Artefact.

Cet article a été initialement publié sur Medium.com.
Suivez-nous sur notre Blog Medium Blog