Auteurs
À l'ère de la transformation numérique, les entreprises accumulent en permanence des ensembles data massifs dont l'échelle et la complexité ne cessent de croître.
Pour les entreprises, un lac de data n'est pas seulement un moyen technique de stocker différents types de data, mais aussi une infrastructure permettant d'améliorer l'efficacité de l'analyse de data, de soutenir la prise de décision de data-driven et d'accélérer le développement de l'IA. Toutefois, en ce qui concerne le traitement en temps réel, l'analyse de data en continu et les scénarios commerciaux complexes (par exemple, l'analyse du comportement des utilisateurs, la gestion des stocks, la détection des fraudes), les architectures traditionnelles de lacs de data peinent à répondre à la demande de réponse rapide.
En tant que nouvelle génération de technologie de lac data en temps réel, Apache PAIMON est compatible avec Apache Flink, Spark et d'autres moteurs de calcul grand public, et prend en charge le traitement en continu et par lots, les requêtes rapides et l'optimisation des performances, ce qui en fait un outil important pour accélérer la transformation de l'IA.
Principes de PAIMON
Apache PAIMON est un système de stockage et d'analyse qui prend en charge les mises à jour data en temps réel à grande échelle et permet des requêtes efficaces grâce aux arbres LSM (log structure merge tree) et aux formats de stockage en colonnes (tels que ORC/Parquet). Il est profondément intégré à Flink pour intégrer les changements data provenant de Kafka, des journaux et des bases de données commerciales data, et prend en charge le streaming et le batch streaming pour obtenir des mises à jour en temps réel à faible latence et des requêtes rapides.

Exemple d'architecture de flux data basée sur PAIMON
Comparé à d'autres frameworks de lac data (par exemple Apache Iceberg et Delta Lake), PAIMON offre un support natif unique pour le traitement unifié stream-batch, qui non seulement gère efficacement le batch data, mais répond également en temps réel au changement de data (par exemple CDC). Il est également compatible avec une variété de systèmes de stockage distribués (par exemple OSS, S3, HDFS) et s'intègre avec des outils OLAP (par exemple Spark, StarRocks, Doris) pour assurer un stockage sécurisé et des lectures efficaces, fournissant un support flexible pour la prise de décision rapide et l'analyse data dans l'entreprise.
Principaux cas d'utilisation de PAIMON

1. Flink CDC pour l'ingestion de Data dans un lac de Data
PAIMON simplifie et optimise ce processus. En un seul clic, l'ensemble de la base data peut être rapidement importée dans le lac data, ce qui réduit considérablement la complexité de l'architecture. Il prend en charge les mises à jour en temps réel et les requêtes rapides à faible coût. En outre, il offre des options de mise à jour flexibles qui permettent l'application de colonnes spécifiques ou de différents types de mises à jour agrégées.
2. Création de pipelines de diffusion en continu Data
PAIMON peut être utilisé pour construire un pipeline de streaming data complet, avec des capacités telles que
Générer un ChangeLog, permettant un accès en lecture en continu à des enregistrements entièrement mis à jour, facilitant ainsi la construction de puissants pipelines de lecture en continu data.
PAIMON évolue vers un système de file d'attente de messages avec des mécanismes de consommation. Dans sa dernière version, il inclut la gestion du cycle de vie des journaux de modifications, permettant aux utilisateurs de définir des périodes de rétention (par exemple, les journaux peuvent être conservés pendant sept jours ou plus), à l'instar de Kafka. Il en résulte une solution de pipeline de streaming légère et rentable.
3. Requêtes OLAP ultra-rapides
Alors que les deux premiers cas d'utilisation garantissent un flux de data en temps réel, PAIMON prend également en charge les requêtes OLAP à grande vitesse pour analyser les data stockées. En combinant LSM et indexation, PAIMON permet une analyse rapide de data. Son écosystème prend en charge des moteurs d'interrogation tels que Flink, Spark, StarRocks et Trino, ce qui permet d'effectuer des requêtes efficaces sur les data stockées dans PAIMON.
Cas d'utilisation du ARTEFACT
Cas 1: Améliorer l'efficacité de l'analyse en temps réel Data
Cas 2 : Mise en place d'un système fiable de suivi en temps réel des activités de l'entreprise
Les cas ci-dessus résument l'expérience pratique de ARTEFACT dans la mise en œuvre d'Apache PAIMON pour ses clients. En tant que technologie de lac data en temps réel, PAIMON offre aux entreprises une solution très efficace et flexible pour relever des défis de traitement data complexes.

BLOG






