Apache Paimon: un framework di data lake in tempo reale e le sue applicazioni - Il motore della trasformazione dei dati e dell'intelligenza artificiale

Autori

Honglin Wang

Vicepresidente dell'ingegneria dei dati, Artefact Asia

Weinan (Jayce) Zhao

Ingegnere dati senior, Artefact Asia

Nell'era della trasformazione digitale, le imprese accumulano continuamente enormi set di dati con dimensioni e complessità crescenti.

Per le aziende, un data lake non è solo un mezzo tecnico per archiviare diversi tipi di dati, ma anche un'infrastruttura per migliorare l'efficienza dell'analisi dei dati, supportare il processo decisionale guidato dai dati e accelerare lo sviluppo dell'intelligenza artificiale. Tuttavia, per quanto riguarda l'elaborazione in tempo reale, l'analisi dei dati in streaming e gli scenari aziendali complessi (ad esempio, l'analisi del comportamento degli utenti, la gestione delle scorte, il rilevamento delle frodi), le architetture di data lake tradizionali faticano a soddisfare la richiesta di una risposta rapida.

Una tecnologia di data lake in tempo reale di nuova generazione, Apache PAIMON è compatibile con Apache Flink, Spark e altri motori di calcolo mainstream e supporta l'elaborazione in streaming e in batch, l'interrogazione veloce e l'ottimizzazione delle prestazioni, diventando così uno strumento importante per accelerare la trasformazione dell'intelligenza artificiale.

Principi PAIMON

Apache PAIMON è un sistema di archiviazione e analisi che supporta l'aggiornamento dei dati in tempo reale su larga scala e realizza interrogazioni efficienti attraverso alberi LSM (log structure merge tree) e formati di archiviazione colonnare (come ORC/Parquet). È profondamente integrato con Flink per integrare i dati di modifica da Kafka, dai log e dai database aziendali, e supporta lo streaming in stream e in batch per ottenere aggiornamenti in tempo reale a bassa latenza e query veloci.

Architettura del flusso di dati backend basata su PAIMON

Esempio di architettura del flusso di dati backend basato su PAIMON

Rispetto ad altri framework di data lake (ad esempio Apache Iceberg e Delta Lake), PAIMON offre un supporto nativo unico per l'elaborazione unificata stream-batch, che non solo gestisce in modo efficiente i dati batch, ma risponde anche in tempo reale ai dati modificati (ad esempio CDC). È inoltre compatibile con diversi sistemi di archiviazione distribuita (ad esempio OSS, S3, HDFS) e si integra con strumenti OLAP (ad esempio Spark, StarRocks, Doris) per garantire un'archiviazione sicura e letture efficienti, fornendo un supporto flessibile per un rapido processo decisionale e di analisi dei dati in azienda.

Casi d'uso chiave di PAIMON

1. CDC Flink per l'inserimento di dati in un lago di dati

PAIMON semplifica e ottimizza questo processo. Con un solo clic di ingestion, l'intero database può essere rapidamente importato nel data lake, riducendo così notevolmente la complessità dell'architettura. Supporta aggiornamenti in tempo reale e query veloci a basso costo. Inoltre, offre opzioni di aggiornamento flessibili che consentono di applicare colonne specifiche o diversi tipi di aggiornamenti aggregati.

2. Costruire pipeline di dati in streaming

PAIMON può essere utilizzato per costruire una pipeline di dati in streaming completa, con funzionalità quali:
Generazione di ChangeLog, che consente l'accesso in lettura in streaming a record completamente aggiornati, facilitando la creazione di potenti pipeline di dati in streaming.

PAIMON si sta evolvendo in un sistema di code di messaggi con meccanismi di consumo. Nella sua ultima versione, include la gestione del ciclo di vita dei registri delle modifiche, consentendo agli utenti di definire periodi di conservazione (ad esempio, i registri possono essere conservati per sette giorni o più), in modo simile a Kafka. Questo crea una soluzione di streaming pipeline leggera ed economica.

3. Query OLAP ultraveloci

Mentre i primi due casi d'uso garantiscono un flusso di dati in tempo reale, PAIMON supporta anche query OLAP ad alta velocità per analizzare i dati memorizzati. Combinando LSM e indicizzazione, PAIMON consente una rapida analisi dei dati. Il suo ecosistema supporta motori di interrogazione come Flink, Spark, StarRocks e Trino, consentendo interrogazioni efficienti sui dati archiviati all'interno di PAIMON.

Casi d'uso di ARTEFACT

Caso 1: Miglioramento dell'efficienza dell'analisi dei dati in tempo reale

Sfida: Un gigante mondiale della vendita al dettaglio ha dovuto affrontare problemi di analisi del comportamento degli utenti in tempo reale e di raccomandazioni personalizzate sulle piattaforme di negozio e di e-commerce. Con l'architettura tradizionale di analisi dei dati, il sistema non era in grado di gestire in modo efficiente i dati in tempo reale su larga scala, causando una scarsa esperienza utente e un'elevata latenza nei sistemi di raccomandazione.
Soluzione: Con l'introduzione di Apache PAIMON, il cliente del settore retail ha ottenuto la sincronizzazione in tempo reale dei comportamenti di acquisto degli utenti e dei dati di inventario. In combinazione con Flink per l'elaborazione dei flussi, il cliente è stato in grado di generare raccomandazioni personalizzate basate sui dati più aggiornati. Questo non solo ha migliorato l'esperienza di acquisto, ma ha anche ridotto i costi dell'infrastruttura.
Risultato: I tassi di conversione degli utenti sono aumentati del 10% e la latenza del sistema è stata ridotta da T+1 a pochi minuti.

Caso 2: Creazione di un monitoraggio aziendale affidabile in tempo reale

Sfida: Il sistema di gestione della supply chain di un cliente del settore retail ha dovuto affrontare una complessità crescente con l'aumento dell'attività. Ciò ha creato l'urgente necessità di monitorare in tempo reale i flussi di lavoro aziendali per garantire stabilità ed efficienza. Tuttavia, l'architettura del sistema esistente supportava solo l'elaborazione dei dati offline, che non poteva soddisfare le esigenze delle operazioni in tempo reale.
Soluzione: Introducendo il data lake PAIMON, è stata realizzata un'architettura di data lake in tempo reale utilizzando Aliyun EMR + OSS. Questo sistema ha utilizzato Flink e Flink CDC per raccogliere dati da più fonti in tempo reale. In combinazione con l'archiviazione a oggetti OSS, ha garantito l'interrogabilità dei dati e il riutilizzo gerarchico. Nel frattempo, combina Doris nel livello di analisi per risolvere il problema della scarsa tempestività dell'analisi OLAP e migliorare la tempestività del sistema di reporting e monitoraggio.
Risultato: Il reparto supply chain ha ottenuto il monitoraggio in tempo reale del flusso di lavoro aziendale, garantendo la stabilità del sistema e migliorando l'efficienza operativa.

I casi sopra riportati riassumono l'esperienza pratica di ARTEFACTnell'implementazione di Apache PAIMON per i clienti. Come tecnologia di data lake in tempo reale, PAIMON offre alle aziende una soluzione altamente efficiente e flessibile per affrontare le complesse sfide di elaborazione dei dati.

Contatto

Apache Paimon: un framework di data lake in tempo reale e le sue applicazioni - Il motore della trasformazione dei dati e dell'IA