Auteurs

In het tijdperk van digitale transformatie accumuleren bedrijven voortdurend enorme data sets met een groeiende schaal en complexiteit.

Voor ondernemingen is een data lake niet alleen een technisch middel om verschillende soorten data op te slaan, maar ook een infrastructuur om de efficiëntie van data analyse te verbeteren, data-driven besluitvorming te ondersteunen en de ontwikkeling van AI te versnellen. Echter, bij real-time verwerking, streaming data analyse en complexe bedrijfsscenario's (bijv. analyse van gebruikersgedrag, voorraadbeheer, fraudedetectie), hebben traditionele data lake architecturen moeite om aan de vraag naar snelle respons te voldoen.

Als een nieuwe generatie van real-time data meertechnologie, Apache PAIMON is compatibel met Apache Flink, Spark en andere mainstream computing engines, en ondersteunt streaming en batchverwerking, snelle query's en prestatieoptimalisatie, waardoor het een belangrijk hulpmiddel is voor het versnellen van AI-transformatie.

PAIMON Principes

Apache PAIMON is een opslag- en analysesysteem dat grootschalige realtime data updates ondersteunt en efficiënte query's mogelijk maakt via LSM-bomen (logstructuur merge tree) en kolomvormige opslagformaten (zoals ORC/Parquet). Het is diep geïntegreerd met Flink om data van veranderingen te integreren vanuit Kafka, logs en zakelijke data-bases, en ondersteunt stream- en batchstreaming om updates en snelle query's met een lage latentie en in realtime te realiseren.

PAIMON-based backend data flow architecture

Voorbeeld van op PAIMON gebaseerde backend data stroomarchitectuur

Vergeleken met andere data Lake frameworks (bijv. Apache Iceberg en Delta Lake), biedt PAIMON unieke native ondersteuning voor unified stream-batch processing, die niet alleen efficiënt batch data verwerkt, maar ook in real-time reageert op veranderde data (bijv. CDC). Het is ook compatibel met een verscheidenheid aan gedistribueerde opslagsystemen (bijv. OSS, S3, HDFS) en integreert met OLAP-tools (bijv. Spark, StarRocks, Doris) om veilige opslag en efficiënt lezen te garanderen, waardoor flexibele ondersteuning wordt geboden voor snelle besluitvorming en data analyse in de onderneming.

Belangrijkste PAIMON gebruikssituaties

Key PAIMON Use Cases

1. Flink CDC voor het opnemen van Data in een Data-meer

PAIMON vereenvoudigt en optimaliseert dit proces. Met een enkele klik kan de volledige database snel in het data-meer geïmporteerd worden, waardoor de complexiteit van de architectuur sterk verminderd wordt. Het ondersteunt realtime updates en snelle queries tegen lage kosten. Daarnaast biedt het flexibele updateopties die de toepassing van specifieke kolommen of verschillende soorten geaggregeerde updates mogelijk maken.

2. Streaming Data-pijplijnen bouwen

PAIMON kan worden gebruikt om een complete streaming data pijplijn te bouwen, met mogelijkheden zoals:
Genereer ChangeLog, waardoor streaming leestoegang tot volledig bijgewerkte records mogelijk wordt, waardoor het gemakkelijker wordt om krachtige streaming data pipelines te bouwen.

PAIMON ontwikkelt zich tot een berichtwachtrijsysteem met consumentenmechanismen. In de nieuwste versie bevat het lifecycle management voor change logs, waardoor gebruikers retentieperiodes kunnen definiëren (logs kunnen bijvoorbeeld zeven dagen of langer bewaard worden), vergelijkbaar met Kafka. Dit creëert een lichtgewicht, kosteneffectieve streaming pipeline-oplossing.

3. Ultrasnelle OLAP-query's

Terwijl de eerste twee gebruikssituaties zorgen voor een real-time data stroom, ondersteunt PAIMON ook snelle OLAP-query's om opgeslagen data te analyseren. Door LSM en indexering te combineren, maakt PAIMON snelle data analyse mogelijk. Het ecosysteem ondersteunt query-engines zoals Flink, Spark, StarRocks en Trino, waardoor efficiënte query's op opgeslagen data binnen PAIMON mogelijk zijn.

ARTEFACT Gebruikscases

Geval 1: Verbetering van de efficiëntie van real-time Data analyse

  • Uitdaging: Een wereldwijde retailgigant werd geconfronteerd met uitdagingen op het gebied van realtime analyse van gebruikersgedrag en gepersonaliseerde aanbevelingen voor zowel in-store als e-commerce platformen. Onder de traditionele data analysearchitectuur kon het systeem niet efficiënt omgaan met grootschalige real-time data, wat leidde tot een slechte gebruikerservaring en een hoge latentie in aanbevelingssystemen.

  • Oplossing: Door Apache PAIMON te introduceren, kon de retailklant het winkelgedrag en de voorraad van gebruikers in real-time synchroniseren data. In combinatie met Flink voor stroomverwerking kon de klant gepersonaliseerde aanbevelingen genereren op basis van de meest actuele data. Dit verbeterde niet alleen de winkelervaring, maar verminderde ook de infrastructuurkosten.

  • Resultaat: De conversiepercentages van gebruikers stegen met 10%, en de systeemlatentie werd teruggebracht van T+1 tot een kwestie van minuten.

Geval 2: Betrouwbare real-time bedrijfsmonitoring bouwen

  • Uitdaging: Het supply chain managementsysteem van een retailklant werd steeds complexer naarmate de activiteiten toenamen. Hierdoor ontstond een dringende behoefte aan realtime bewaking van bedrijfsworkflows als middel om stabiliteit en efficiëntie te garanderen. De bestaande systeemarchitectuur ondersteunde echter alleen offline data verwerking, wat niet voldeed aan de eisen van real-time operaties.

     

  • Oplossing: Door de introductie van het PAIMON data meer werd een real-time data meer architectuur gebouwd met behulp van Aliyun EMR + OSS. Dit systeem gebruikte Flink en Flink CDC om data van meerdere bronnen in real-time te verzamelen. In combinatie met OSS-objectopslag zorgde het voor data-doorzoekbaarheid en hiërarchisch hergebruik. Ondertussen combineert het Doris in de analyselaag om het probleem van de lage tijdigheid van OLAP-analyse op te lossen en de tijdigheid van het rapportage- en monitoringsysteem te verbeteren.

  • Resultaat: De afdeling toeleveringsketen kreeg realtime bewaking van de bedrijfsworkflow, waardoor de stabiliteit van het systeem werd gegarandeerd en de operationele efficiëntie werd verbeterd.

     

Bovenstaande cases zijn een samenvatting van ARTEFACT's praktische ervaring met het implementeren van Apache PAIMON voor klanten. Als een real-time data lake technologie, biedt PAIMON ondernemingen een zeer efficiënte en flexibele oplossing om complexe data verwerkingsuitdagingen aan te pakken.