Lesen Sie unseren Artikel über

.

Als Artefact ist es uns wichtig, einen positiven Einfluss auf die Menschen, die Umwelt und die Gemeinschaft zu haben. Deshalb engagieren wir uns für Partnerschaften mit gemeinnützigen Organisationen, die diese Werte zu den Grundpfeilern ihrer Vision machen.
Deshalb haben wir mit Smart Parks zusammengearbeitet, einem niederländischen Unternehmen, das fortschrittliche Sensorlösungen anbietet, um gefährdete Wildtiere zu schützen und Parkgebiete durch den Einsatz modernster Technologie effizient zu verwalten.

In dieser Serie von Beiträgen berichten wir über die Entwicklung und den Aufbau eines ML-Systems zur Nutzung der Kamerafallen von Smart Parks. Das Ziel des Projekts ist es, einen ML-Ansatz zu verwenden, um die data von den Kamerafallen zu verarbeiten und dann Erkenntnisse zu gewinnen, z. B. über die Anwesenheit von Menschen oder bestimmten Tierarten in den von den Kameras aufgenommenen Bildern oder Videos. Diese Informationen werden dann von den Parkwächtern genutzt, um die Wildtiere besser zu schützen und mögliche Gefahren wie Wilderer früher zu erkennen.

Einführung

Intelligente Parks benötigte ein System zur Überwachung von Wildtieren, das die folgenden Aufgaben erfüllen konnte:

  • Laden Sie die Medien (Bilder und/oder Videos) von Kamerafallen an einem einzigen Ort.
  • Erkennen Sie automatisch die Anwesenheit von Menschen und Tieren in den Medien

  • Greifen Sie auf die Vorhersagen in Earth Rangers zu, einer Anwendung, die zur Verwaltung der Parks und ihrer Tierwelt dient.

  • Überwachen Sie die von den Kamerafallen kommenden Medien

Unser Leitgedanke dabei war, dass wir die Geschwindigkeit bevorzugen. Als wir anfingen, war unsere einzige Priorität, so schnell wie möglich ein voll funktionsfähiges End-to-End-Produkt bereitzustellen.

Dies wird der erste Artikel von vielen sein, der sich auf den Kontext des Projekts, die Übersicht über das entwickelte System und die Vorteile unserer cloud-basierten Lösung konzentriert. In den nächsten Artikeln werden wir uns eingehender mit dem Anschluss von Kamerafallen an das Google Cloud-Plattform und externe Endpunkte mit einem Tool namens Node-RED und wie Sie eine einfache Webanwendung mit Streamlit um die in den Parks aufgestellten Kamerafallen zu verwalten.

Fangen wir an!

Kamera-Fallen

Bevor wir loslegen, sollten wir uns kurz ansehen, was Kamerafallen sind und wie sie zum Schutz und zur Erhaltung von Tieren eingesetzt werden können.

Kamerafallen sind Geräte, die über eingebaute Sensoren verfügen, so dass sofort ein Bild oder ein Video aufgenommen wird, wenn vor ihnen eine Aktivität festgestellt wird. Sie ermöglichen es Parkrangern und Wildbiologen, unsere Artgenossen zu beobachten, ohne ihr normales Verhalten zu beeinträchtigen.

In den Parks herumzugehen und Informationen zu sammeln ist eine gute Methode, aber es ist ein teurer, arbeitsintensiver und personalaufwändiger Prozess. Außerdem besteht das Risiko, auf gefährliche Wildtiere oder - noch schlimmer - auf Wilderer zu stoßen.

Die verschiedenen Techniken zum Sammeln von data sind zwar mit unterschiedlichen Nachteilen verbunden, aber Kamerafallen sind eine hervorragende Quelle. Der große Vorteil von Kamerafallen ist, dass sie kontinuierlich und geräuschlos arbeiten und sehr genaue data aufzeichnen können, ohne das fotografierte Objekt zu stören. Sie können sowohl bei der heimlichen Überwachung möglicher illegaler Aktivitäten als auch bei der Quantifizierung der Anzahl verschiedener Arten in einem Gebiet und der Bestimmung ihres Verhaltens und ihrer Aktivitätsmuster hilfreich sein.

Google Cloud-Plattform

Für die Speicherung und Verwaltung der Kamerafallen-Medien haben wir uns für eine cloud-basierte Lösung entschieden, genauer gesagt für die Google Cloud Platform.

Google bietet Speicherlösungen wie Google Cloud-Speicher, Objektspeicher mit integriertem Edge Caching zum Speichern unstrukturierter data, Rechenlösungen wie Cloud-Funktionen, Functions as a Service, um ereignisgesteuerten Code auszuführen, und es bietet zum Beispiel auch nützliche KI-APIs:

All diese Komponenten in einer einzigen, einheitlichen Umgebung zu haben, war für uns die ideale Lösung und half uns, in kurzer Zeit eine funktionierende Lösung bereitzustellen.

Der Arbeitsablauf

Zunächst werden die Medien in einen Google Cloud Storage Bucket hochgeladen. Wie genau das geschieht, erfahren Sie im zweiten Artikel dieser Serie. Der Bucket ist in Ordnern organisiert, einer für jede Kamerafalle. Sobald eine Datei hochgeladen ist, wird sofort eine Google Cloud-Funktion ausgelöst, die sich um die folgenden Aufgaben kümmert:

  • Lesen Sie die hochgeladenen Medien
  • Rufen Sie die Cloud Vision oder die Cloud Video Intelligence API auf, um die Vorhersagen abzurufen

  • Archivieren Sie die API-Antworten in einem anderen Cloud Storage Bucket

  • Senden Sie die Vorhersagen an einen Endpunkt außerhalb von GCP

Diese Architektur bietet mehrere Vorteile:

  • Skalierbarkeit: Dank der Verwendung von Cloud-Funktionen ist die Lösung in der Lage, automatisch auf der Grundlage der Anzahl der Anfragen zu skalieren (d.h. der Anzahl der Medien, die gleichzeitig in den Eingangs-Cloud-Speicher-Bucket hochgeladen werden).

  • Günstige und dauerhafte Lagerung: Die Speicherung von unstrukturierten data in Google Cloud Storage ist recht kostengünstig (nur $0,026 pro GB-Monat für die Standard-Speicherebene) und bietet darüber hinaus die klassenbeste Haltbarkeit von Objekten über ein Jahr hinweg

  • Automatisierung: Die Nutzung all dieser Dienste zusammen ermöglicht uns eine vollständig automatisierte Pipeline, bei der kein menschliches Eingreifen erforderlich ist. Von der data-Ingestion bis zum Abruf der Vorhersagen läuft alles automatisch, sobald ein neues Medium hochgeladen wird.

Cloud Vision und Cloud Video Intelligence APIs

Die Verwendung von maschinellem Lernen, insbesondere von Computer Vision, zur automatischen Identifizierung von Menschen und Tieren in Bildern oder Videos hat in den letzten Jahren erhebliche Fortschritte gemacht und wird heute von Tierforschern als “game-changer” angesehen. Konzentrieren wir uns mehr auf die verwendeten APIs.

Vision API und Video Intelligence API bieten leistungsstarke, vorab trainierte Modelle für maschinelles Lernen über REST- und RPC-APIs. Die erste ist für Bilder gedacht, während die zweite, wie der Name schon sagt, mit Videos arbeitet. Beide sind in der Lage, automatisch eine große Anzahl von Objekten, Orten und Aktionen zu erkennen.

Bei diesem Projekt haben wir uns hauptsächlich auf diese 3 Funktionen konzentriert, die von den APIs bereitgestellt werden:

  • Erkennung von Etiketten: Um eine Vorstellung von den Entitäten (z.B. Tiere, Menschen, Fahrzeuge) zu haben, die in den Medien vorhanden sind. Auf dieser Grundlage könnten Sie Regeln erstellen, die bei Vorhandensein einer bestimmten Gruppe von Objekten einen Alarm auslösen.

  • Objekterkennung/-verfolgung: Um eine genauere Vorstellung von der Position der erkannten Tiere/Menschen in den Medien zu erhalten. Anders als bei der Erkennung von Etiketten erhalten wir hier auch die Box-Anmerkungen der Erkennungen

  • Gesichter/Personenerkennung: Um mehr Informationen über die entdeckten Personen zu erhalten, z.B. um ihre Emotionen zu verstehen oder ihre Kleidung zu entnehmen. Diese zusätzlichen Informationen könnten dann verwendet werden, um Wilderer von normalen Menschen zu unterscheiden.

Sie können mit der Vision API spielen, indem Sie Ihr Bild einfach über Hier.

Der Weg vor uns

Die bisherige Reise ist eine Grundlage für die aufregende und wirkungsvolle Reise, die vor uns liegt. Wenn wir in naher Zukunft die grundlegenden Werkzeuge zur Verfügung haben, werden wir in der Lage sein, nicht nur für Smart Parks, sondern auch für den Schutz der Tierwelt und darüber hinaus einen großen Wert zu schaffen!

Die nächsten Schritte werden diese großen Arbeitsbereiche betreffen:

  • Modellversuche: Bislang haben wir nur mit APIs oder vortrainierten Modellen experimentiert, aber in Zukunft wäre es interessant, ein dataset von Bildern/Videos zu erstellen, die von den Kamerafallen gesammelt wurden. Beschriften Sie diese, entweder manuell oder mit dem System, das wir gerade vorgestellt haben, und trainieren Sie damit eigene Computer Vision Modelle, um eine höhere Genauigkeit zu erreichen.

  • Implementierung von Anwendungsfällen: Da wir bereits über eine vollautomatische Lösung verfügen, können wir uns stärker auf die Entwicklung gezielter Anwendungsfälle konzentrieren, also wirklich darüber nachdenken, wie wir die abgerufenen Informationen nutzen können, um etwas zu bewirken und den Rangern und allen Freiwilligen beim Schutz der Tierwelt in den Parks zu helfen.

  • Edge AI: Im Moment ist die Ausführungsgeschwindigkeit unserer Vorhersageschleife für unseren Anwendungsfall zufriedenstellend (ein paar Minuten). Wir haben noch Verbesserungsmöglichkeiten, um einer Echtzeitlösung näher zu kommen. Edge AI, mit einem Modell, das näher an der eigentlichen Kamerafallen-Hardware installiert ist und läuft, ist eine Option, die helfen würde, Roundtrips zum cloud zu vermeiden.

In diesem ersten Artikel haben wir besprochen, wie wir unsere vollautomatische, skalierbare Pipeline in Google Cloud aufgebaut haben, die es uns ermöglicht, Medien aufzunehmen und mithilfe von Machine Learning-APIs Erkenntnisse aus ihnen zu gewinnen. Sie bietet eine solide, einfache und schnell zu implementierende Grundlage für jede Art von Projekt, das den Medienkonsum und die Verwendung von maschinellem Lernen zur Gewinnung von Erkenntnissen aus diesen Medien beinhaltet.

Vielen Dank fürs Lesen und bis zum nächsten Mal im nächste Artikel der Serie, in der wir genauer erklären werden, wie die vorgestellte Architektur effektiv mit den Kamerafallen verbunden ist, und in der wir die Web-App zur Verwaltung dieser Fallen vorstellen werden. Bleiben Sie also dran!

Besonderen Dank an Maël Deschamps für seine Hilfe bei der Überprüfung des Inhalts dieses Beitrags und an Tim van Dam von Smart Parks für seine Unterstützung bei diesem Projekt. Sie rocken!

Mittel Blog von Artefact.

Dieser Artikel wurde ursprünglich veröffentlicht auf Medium.com.
Folgen Sie uns auf unserem Medium Blog !