Apache Paimon: A Real-Time Data Lake Framework and Its Applications | The Engine Driving Data and AI Transformation

Autoren

Honglin Wang

Data Engineering VP, Artefact Asien

Weinan (Jayce) Zhao

Senior Data Engineer, Artefact Asien

In der Ära der digitalen Transformation häufen Unternehmen kontinuierlich riesige data-Sets an, die immer größer und komplexer werden.

Für Unternehmen ist ein data Lake nicht nur ein technisches Mittel zur Speicherung verschiedener Arten von data, sondern auch eine Infrastruktur zur Verbesserung der Effizienz von data-Analysen, zur Unterstützung von data-driven-Entscheidungen und zur Beschleunigung der Entwicklung von KI. Bei der Echtzeitverarbeitung, der Streaming-Analyse von data und komplexen Geschäftsszenarien (z.B. Analyse des Nutzerverhaltens, Bestandsverwaltung, Betrugserkennung) haben herkömmliche data-Lake-Architekturen jedoch Schwierigkeiten, die Anforderungen an eine schnelle Reaktion zu erfüllen.

Als eine neue Generation der Echtzeit data See-Technologie, Apache PAIMON ist mit Apache Flink, Spark und anderen Mainstream-Computing-Engines kompatibel und unterstützt Streaming- und Batch-Verarbeitung, schnelle Abfragen und Leistungsoptimierung, was es zu einem wichtigen Werkzeug für die Beschleunigung der KI-Transformation macht.

PAIMON-Grundsätze

Apache PAIMON ist ein Speicher- und Analysesystem, das data-Aktualisierungen in großem Umfang in Echtzeit unterstützt und effiziente Abfragen durch LSM-Bäume (Log Structure Merge Tree) und spaltenförmige Speicherformate (wie ORC/Parquet) ermöglicht. Es ist tief in Flink integriert, um data-Änderungen aus Kafka, Protokollen und geschäftlichen data-Datenbanken zu integrieren, und unterstützt Stream- und Batch-Streaming, um Aktualisierungen mit niedriger Latenz, in Echtzeit und schnelle Abfragen zu erreichen.

PAIMON-based backend data flow architecture

Beispiel einer PAIMON-basierten Backend data-Flow-Architektur

Im Vergleich zu anderen data-Lake-Frameworks (z.B. Apache Iceberg und Delta Lake) bietet PAIMON eine einzigartige native Unterstützung für eine einheitliche Stream-Batch-Verarbeitung, die nicht nur effizient mit Batch-data umgeht, sondern auch in Echtzeit auf veränderte data (z.B. CDC) reagiert. PAIMON ist außerdem mit einer Vielzahl von verteilten Speichersystemen (z.B. OSS, S3, HDFS) kompatibel und lässt sich mit OLAP-Tools (z.B. Spark, StarRocks, Doris) integrieren, um eine sichere Speicherung und effiziente Lesevorgänge zu gewährleisten und so eine flexible Unterstützung für eine schnelle Entscheidungsfindung und data-Analyse im Unternehmen zu bieten.

Wichtige PAIMON Anwendungsfälle

1. Flink CDC für das Einbringen von Data in einen Data-See

PAIMON vereinfacht und optimiert diesen Prozess. Mit einem einzigen Klick kann die gesamte data-Basis schnell in den data-See importiert werden, wodurch die Komplexität der Architektur erheblich reduziert wird. Es unterstützt Echtzeit-Updates und schnelle Abfragen zu geringen Kosten. Darüber hinaus bietet es flexible Aktualisierungsoptionen, die die Anwendung spezifischer Spalten oder verschiedener Arten von aggregierten Aktualisierungen ermöglichen.

2. Aufbau von Streaming Data Pipelines

PAIMON kann zum Aufbau einer kompletten Streaming data-Pipeline verwendet werden, mit Funktionen wie:
Erzeugen Sie ein ChangeLog, das den Streaming-Lesezugriff auf vollständig aktualisierte Datensätze ermöglicht und so den Aufbau leistungsstarker Streaming data-Pipelines erleichtert.

PAIMON entwickelt sich zu einem Nachrichtenwarteschlangensystem mit Verbrauchermechanismen. In seiner neuesten Version enthält es eine Lebenszyklusverwaltung für Änderungsprotokolle, die es Benutzern ermöglicht, Aufbewahrungszeiträume zu definieren (z. B. können Protokolle sieben Tage oder länger aufbewahrt werden), ähnlich wie bei Kafka. So entsteht eine leichtgewichtige, kostengünstige Streaming-Pipeline-Lösung.

3. Ultra-schnelle OLAP-Abfragen

Während die ersten beiden Anwendungsfälle einen data-Fluss in Echtzeit gewährleisten, unterstützt PAIMON auch Hochgeschwindigkeits-OLAP-Abfragen zur Analyse von gespeicherten data. Durch die Kombination von LSM und Indizierung ermöglicht PAIMON eine schnelle data-Analyse. Sein Ökosystem unterstützt Abfrage-Engines wie Flink, Spark, StarRocks und Trino und ermöglicht so effiziente Abfragen von gespeicherten data innerhalb von PAIMON.

ARTEFACT Anwendungsfälle

Fall 1: Verbesserung der Effizienz der Data-Echtzeitanalyse

Herausforderung: Ein globaler Einzelhandelsriese stand vor der Herausforderung, das Nutzerverhalten in Echtzeit zu analysieren und personalisierte Empfehlungen für die Plattformen in den Geschäften und im E-Commerce zu erstellen. Mit der traditionellen data-Analysearchitektur konnte das System nicht effizient mit data in großem Maßstab in Echtzeit umgehen, was zu einem schlechten Benutzererlebnis und hohen Latenzzeiten in den Empfehlungssystemen führte.
Lösung: Durch die Einführung von Apache PAIMON erreichte der Einzelhandels-Client eine Echtzeit-Synchronisierung des Einkaufsverhaltens der Benutzer und des Bestands data. In Kombination mit Flink für die Stream-Verarbeitung war der Kunde in der Lage, personalisierte Empfehlungen auf der Grundlage der aktuellsten data zu generieren. Dadurch wurde nicht nur das Einkaufserlebnis verbessert, sondern auch die Infrastrukturkosten gesenkt.
Ergebnis: Die Konversionsraten der Benutzer stiegen um 10%, und die Latenzzeit des Systems wurde von T+1 auf wenige Minuten reduziert.

Fall 2: Aufbau einer zuverlässigen Echtzeit-Geschäftsüberwachung

Herausforderung: Das Supply-Chain-Management-System eines Einzelhandelskunden wurde immer komplexer, als das Geschäft expandierte. Dadurch entstand der dringende Bedarf an einer Echtzeitüberwachung der Geschäftsabläufe, um Stabilität und Effizienz zu gewährleisten. Die bestehende Systemarchitektur unterstützte jedoch nur die Offline-Verarbeitung von data, die den Anforderungen des Echtzeitbetriebs nicht gerecht werden konnte.
Lösung: Mit der Einführung von PAIMON data lake wurde eine Echtzeit data lake Architektur mit Aliyun EMR + OSS aufgebaut. Dieses System verwendete Flink und Flink CDC, um data aus mehreren Quellen in Echtzeit zu sammeln. In Kombination mit dem OSS-Objektspeicher gewährleistet es die Abfragbarkeit von data und die hierarchische Wiederverwendung. Gleichzeitig kombiniert es Doris in der Analyseschicht, um das Problem der geringen Aktualität der OLAP-Analyse zu lösen und die Aktualität des Berichts- und Überwachungssystems zu verbessern.
Ergebnis: Die Abteilung für die Lieferkette konnte ihre Geschäftsabläufe in Echtzeit überwachen, was die Systemstabilität sicherstellt und die betriebliche Effizienz erhöht.

Die oben genannten Fälle fassen die praktischen Erfahrungen von ARTEFACT bei der Implementierung von Apache PAIMON für Kunden zusammen. Als Echtzeit-data-See-Technologie bietet PAIMON Unternehmen eine hocheffiziente und flexible Lösung für die Bewältigung komplexer data-Verarbeitungsaufgaben.

Kontaktieren Sie uns

Apache Paimon: Ein Real-Time Data Lake Framework und seine Anwendungen | Der Motor für die Transformation von Data und KI