Wie wir ein einfaches System zur Überwachung von Wildtieren in der Google Cloud eingerichtet haben

Autor

Simone Gayed Sagte

Ingenieur für maschinelles Lernen, Artefact Benelux

Lesen Sie unseren Artikel über

Als Artefact ist es uns wichtig, einen positiven Einfluss auf die Menschen, die Umwelt und die Gemeinschaft auszuüben. Aus diesem Grund engagieren wir uns für Partnerschaften mit gemeinnützigen Organisationen, die diese Werte zu den Grundbausteinen ihrer Vision machen.
Aus diesem Grund haben wir mit Smart Parks zusammengearbeitet, einem niederländischen Unternehmen, das fortschrittliche Sensorlösungen anbietet, um gefährdete Wildtiere zu schützen und Parkanlagen mit Hilfe modernster Technologie effizient zu verwalten.

In dieser Reihe von Beiträgen berichten wir über unsere Reise bei der Entwicklung und dem Aufbau eines ML-Systems zur Nutzung der Kamerafallen-Medien von Smart Parks. Ziel des Projekts ist es insbesondere, einen ML-Ansatz zu verwenden, um die von den Kamerafallen stammenden Daten von data zu verarbeiten und dann Erkenntnisse zu gewinnen, z. B. über die Anwesenheit von Menschen oder bestimmten Tierarten auf den von den Kameras aufgenommenen Bildern oder Videos. Diese Informationen werden dann von den Parkwächtern genutzt, um die Wildtiere besser zu schützen und mögliche Gefahren wie Wilderer früher zu erkennen.

Einführung

Smart Parks benötigte ein Wildtierüberwachungssystem, das die folgenden Aufgaben erfüllen konnte:

Aufnahme der Medien (Bilder und/oder Videos) von Kamerafallen an einem einzigen Ort
Automatische Erkennung der Anwesenheit von Menschen und Tieren in den Medien
Zugriff auf die Prognosen in Earth Rangers, einer Anwendung zur Verwaltung der Parks und ihrer Tierwelt
Überwachen Sie die von den Kamerafallen kommenden Medien

Unser Leitgedanke dabei war, dass wir schnell sein wollten. Als wir anfingen, bestand unsere einzige Priorität darin, so schnell wie möglich ein voll funktionsfähiges End-to-End-Produkt bereitzustellen.

Dies wird der erste Artikel von vielen sein, der sich auf den Kontext des Projekts, die Übersicht über das entworfene System und die Vorteile unserer cloud Lösung konzentriert. In den kommenden Artikeln werden wir uns eingehender mit der Anbindung von Kamerafallen an die Google Cloud Platform und externe Endpunkte mithilfe eines Tools namens Node-RED befassen und eine einfache Web-App mit Streamlit zur Verwaltung der in den Parks platzierten Kamerafallen entwickeln.

Fangen wir an!

Kamera-Fallen

Bevor wir loslegen, sollten wir uns kurz ansehen, was Kamerafallen sind und wie sie für den Tier- und Naturschutz eingesetzt werden können.

Kamerafallen sind Geräte mit eingebauten Sensoren, die sofort ein Bild oder ein Video aufnehmen, wenn vor ihnen eine Aktivität festgestellt wird. Mit ihnen können Parkranger und Wildtierbiologen unsere Artgenossen beobachten, ohne ihr normales Verhalten zu stören.

In den Parks herumzugehen und Informationen zu sammeln, ist eine gute Methode, aber ein teurer, arbeitsintensiver und personalaufwändiger Prozess. Außerdem besteht das Risiko, auf gefährliche Wildtiere oder - noch schlimmer - auf Wilderer zu stoßen.

Während die verschiedenen Techniken zur Erfassung von data mit unterschiedlichen Nachteilen verbunden sind, sind Kamerafallen eine hervorragende Quelle. Der große Vorteil von Kamerafallen ist, dass sie kontinuierlich und geräuschlos arbeiten und sehr genaue data aufzeichnen können, ohne das fotografierte Objekt zu stören. Sie können sowohl bei der heimlichen Überwachung möglicher illegaler Aktivitäten als auch bei der Quantifizierung der Anzahl verschiedener Arten in einem Gebiet und der Bestimmung ihres Verhaltens und ihrer Aktivitätsmuster hilfreich sein.

Google Cloud

Für die Speicherung und Verwaltung der Kamerafallen-Medien haben wir uns für eine cloud Lösung entschieden, genauer gesagt für die Google Cloud Platform.

Google bietet Speicherlösungen wie Google Cloud Storage, Objektspeicher mit integriertem Edge Caching zum Speichern unstrukturierter data, Rechenlösungen wie Cloud Functions, Functions as a Service zum Ausführen von ereignisgesteuertem Code sowie nützliche AI :

Cloud Vision API - Bildanalysedienst basierend auf maschinellem Lernen
Cloud Video Intelligence - Videoanalysedienst basierend auf maschinellem Lernen

Alle diese Komponenten in einer einzigen, einheitlichen Umgebung zu haben, war für uns die ideale Lösung und half uns, in kurzer Zeit eine funktionierende Lösung bereitzustellen.

Der Arbeitsablauf

Zunächst werden die Medien in einen Cloud hochgeladen. Wie genau das geschieht, wird im zweiten Artikel dieser Serie erläutert. Der Bucket ist in Ordnern organisiert, einer für jede Kamerafalle. Sobald eine Datei hochgeladen ist, wird sofort eine Google Cloud ausgelöst, die sich um die folgenden Aufgaben kümmert:

Lesen Sie die hochgeladenen Medien
Rufen Sie die Cloud Vision oder die Cloud Video Intelligence API auf, um die Vorhersagen abzurufen
Archivieren Sie die API-Antworten in einem anderen Cloud Storage Bucket
Senden Sie die Vorhersagen an einen Endpunkt außerhalb von GCP

Diese Architektur bietet mehrere Vorteile:

Skalierbarkeit: Dank der Verwendung von Cloud ist die Lösung in der Lage, automatisch auf der Grundlage der Anzahl der Anfragen zu skalieren (d. h. der Anzahl der gleichzeitig in den Cloud hochgeladenen Medien).
Günstiger und langlebiger Speicher: Die Speicherung unstrukturierter data in Google Cloud Storage ist recht kostengünstig (nur 0,026 $ pro GB-Monat für die Standard-Speicherebene) und bietet darüber hinaus die klassenbeste Haltbarkeit von Objekten über ein Jahr hinweg
Automatisierung: Die gemeinsame Nutzung all dieser Dienste ermöglicht uns eine vollständig automatisierte Pipeline, bei der kein menschliches Eingreifen erforderlich ist. Von der Aufnahme von data bis zum Abruf von Vorhersagen läuft alles automatisch, sobald ein neues Medium hochgeladen wird

Cloud Vision und Cloud Video Intelligence APIs

Der Einsatz von maschinellem Lernen, insbesondere von Computer Vision, zur automatischen Identifizierung von Menschen und Tieren in Bildern oder Videos hat in den letzten Jahren erhebliche Fortschritte gemacht und wird heute von Wildtierforschern weithin als "game-changer" angesehen. Konzentrieren wir uns mehr auf die verwendeten APIs.

Vision API und Video Intelligence API bieten über REST- und RPC-APIs leistungsstarke, vorab trainierte Modelle für maschinelles Lernen. Die erste ist für die Arbeit mit Bildern gedacht, während die zweite, wie der Name schon sagt, mit Videos arbeitet. Beide sind in der Lage, automatisch eine große Anzahl von Objekten, Orten und Aktionen zu erkennen.

Bei diesem Projekt haben wir uns hauptsächlich auf diese 3 Funktionen konzentriert, die von den APIs bereitgestellt werden:

Erkennung von Etiketten: Um eine Vorstellung von den in den Medien vorhandenen Objekten (z. B. Tiere, Menschen, Fahrzeuge) zu erhalten. Auf dieser Grundlage könnten Regeln erstellt werden, die bei Vorhandensein einer bestimmten Gruppe von Objekten einen Alarm auslösen
Objekterkennung/-verfolgung: Um eine genauere Vorstellung von der Position der erkannten Tiere/Menschen in den Medien zu erhalten. Anders als bei der Erkennung von Etiketten erhalten wir hier auch die Box-Anmerkungen der Entdeckungen
Erkennung von Gesichtern/Personen: Um mehr Informationen über die erkannten Personen zu erhalten, z. B. um ihre Emotionen zu verstehen oder ihre Kleidung zu erkennen. Diese zusätzlichen Informationen könnten dann verwendet werden, um Wilderer von normalen Menschen zu unterscheiden

Sie können mit der Vision API spielen, indem Sie Ihr Bild einfach hier hochladen.

Der Weg vor uns

Der bisherige Weg ist eine Grundlage für die spannende und wirkungsvolle Reise, die vor uns liegt. Wenn in naher Zukunft die grundlegenden Werkzeuge vorhanden sind, werden wir in der Lage sein, nicht nur für Smart Parks, sondern auch für den Schutz der Wildtiere und darüber hinaus einen großen Wert zu schaffen!

Die nächsten Schritte werden diese großen Arbeitsbereiche betreffen:

Experimentieren mit Modellen: Bisher haben wir nur mit APIs oder vortrainierten Modellen experimentiert, aber in Zukunft wäre es interessant, einen Datensatz von Bildern/Videos zu erstellen, die von den Kamerafallen gesammelt wurden. Beschriften Sie diese, entweder manuell oder mit dem System, das wir gerade vorgestellt haben, und verwenden Sie sie dann, um benutzerdefinierte Computer Vision Modelle zu trainieren, um eine bessere Genauigkeit zu erreichen.
Implementierung von Anwendungsfällen: Da wir bereits über eine vollständig automatisierte Lösung verfügen, können wir uns stärker auf die Entwicklung gezielter Anwendungsfälle konzentrieren, also wirklich darüber nachdenken, wie die abgerufenen Informationen genutzt werden können, um etwas zu bewirken und den Rangern und allen Freiwilligen beim Schutz der Tierwelt in den Parks zu helfen.
Edge AI: Im Moment ist die Ausführungsgeschwindigkeit unserer Vorhersageschleife für unseren Anwendungsfall zufriedenstellend (ein paar Minuten). Wir haben noch Verbesserungsmöglichkeiten, um einer Echtzeitlösung näher zu kommen. Edge AI mit einem Modell, das näher an der eigentlichen Kamerafallen-Hardware installiert ist und läuft, ist eine Option, die helfen würde, Roundtrips zur cloud zu vermeiden.

In diesem ersten Artikel haben wir erörtert, wie wir unsere vollautomatisierte, skalierbare Pipeline in Google Cloud aufgebaut haben, die es uns ermöglicht, Medien zu erfassen und mithilfe von Machine Learning-APIs Erkenntnisse aus ihnen zu gewinnen. Sie bietet eine solide, einfache und schnell zu implementierende Grundlage für jede Art von Projekt, das den Medienkonsum und die Verwendung von maschinellem Lernen zur Gewinnung von Erkenntnissen aus diesen Medien beinhaltet.

Wir danken Ihnen für die Lektüre und sehen uns in den nächsten Artikeln der Serie wieder, in denen wir detaillierter erklären werden, wie die vorgestellte Architektur effektiv mit den Kamerafallen verbunden ist, und in denen wir die Web-App zur Verwaltung dieser Fallen vorstellen werden, also bleiben Sie dran!

Besonderer Dank geht an Maël Deschamps für seine Hilfe bei der Überprüfung des Inhalts dieses Beitrags und an Tim van Dam von Smart Parks für seine Unterstützung während des Projekts. Ihr rockt!

Medium Blog von Artefact.

Dieser Artikel wurde ursprünglich auf Medium.com veröffentlicht.
Folgen Sie uns auf unserem Medium Blog!

Unseren Artikel lesen

Kontakt