Auteurs

In het tijdperk van de digitale transformatie verzamelen bedrijven voortdurend enorme data die steeds omvangrijker en complexer worden.

Voor bedrijven is een data niet alleen een technisch middel om verschillende soorten data op te slaan, maar ook een infrastructuur om de efficiëntie van data te verbeteren, data besluitvorming te ondersteunen en de ontwikkeling van AI te versnellen. Bij realtime verwerking, data en complexe bedrijfsscenario’s (zoals analyse van gebruikersgedrag, voorraadbeheer en fraudedetectie) hebben traditionele data echter moeite om aan de vraag naar snelle reacties te voldoen.

Als een nieuwe generatie realtime data -technologie, is Apache PAIMON compatibel met Apache Flink, Spark en andere gangbare computing-engines, en ondersteunt het streaming- en batchverwerking, snelle zoekopdrachten en prestatieoptimalisatie, waardoor het een belangrijk hulpmiddel is voor het versnellen van AI .

PAIMON-principes

Apache PAIMON is een opslag- en analysesysteem dat grootschalige realtime data ondersteunt en efficiënte zoekopdrachten mogelijk maakt via LSM-bomen (Log-Structure Merge Tree) en kolomgeoriënteerde opslagformaten (zoals ORC/Parquet). Het is nauw geïntegreerd met Flink om data Kafka, logbestanden en bedrijfsdatabases samen te brengen, en ondersteunt zowel stream- als batchverwerking om realtime updates met lage latentie en snelle zoekopdrachten te realiseren.

Op PAIMON gebaseerde backend data architectuur

Voorbeeld van een op PAIMON gebaseerde backend data

In vergelijking met andere data (zoals Apache Iceberg en Delta Lake) biedt PAIMON als enige native ondersteuning voor geïntegreerde stream-batchverwerking, waardoor niet alleen data efficiënt worden verwerkt, maar ook in realtime wordt gereageerd op gewijzigde data bijv. CDC). Het is ook compatibel met diverse gedistribueerde opslagsystemen (bijv. OSS, S3, HDFS) en integreert met OLAP-tools (bijv. Spark, StarRocks, Doris) om veilige opslag en efficiënte leesbewerkingen te garanderen, waardoor flexibele ondersteuning wordt geboden voor snelle besluitvorming en data binnen de onderneming.

Belangrijkste toepassingen van PAIMON

Belangrijkste toepassingen van PAIMON

1. Flink CDC voor het importeren van Data een Data

PAIMON vereenvoudigt en optimaliseert dit proces. Met één enkele klik kan de volledige database snel in het data worden geïmporteerd, waardoor de complexiteit van de architectuur aanzienlijk wordt verminderd. Het ondersteunt realtime updates en snelle zoekopdrachten tegen lage kosten. Bovendien biedt het flexibele updateopties waarmee specifieke kolommen of verschillende soorten geaggregeerde updates kunnen worden toegepast.

2. Streaming Data opzetten

PAIMON kan worden gebruikt om een complete data op te zetten, met onder meer de volgende mogelijkheden:
Genereer een ChangeLog, waardoor streamingleestoegang tot volledig bijgewerkte records mogelijk wordt, wat het eenvoudiger maakt om krachtige data op te zetten.

PAIMON ontwikkelt zich tot een berichtenwachtrijsysteem met consumentenmechanismen. In de nieuwste versie bevat het levenscyclusbeheer voor wijzigingslogboeken, waardoor gebruikers bewaartermijnen kunnen instellen (logboeken kunnen bijvoorbeeld zeven dagen of langer worden bewaard), net als bij Kafka. Dit zorgt voor een lichtgewicht, kosteneffectieve oplossing voor streamingpijplijnen.

3. Ultrasnelle OLAP-query’s

Terwijl de eerste twee use cases zorgen voor data realtime data , ondersteunt PAIMON ook snelle OLAP-query’s voor het analyseren van opgeslagen data. Door LSM en indexering te combineren, maakt PAIMON snelle data mogelijk. Het ecosysteem ondersteunt query-engines zoals Flink, Spark, StarRocks en Trino, waardoor efficiënte query’s op opgeslagen data PAIMON mogelijk worden.

Toepassingen ARTEFACT

Voorbeeld 1: De efficiëntie van realtime Data verbeteren

  • Uitdaging: Een wereldwijde retailgigant kampte met uitdagingen op het gebied van realtime analyse van gebruikersgedrag en gepersonaliseerde aanbevelingen op zowel fysieke winkels als e-commerceplatforms. Onder de traditionele architectuur data kon het systeem grootschalige realtime data niet efficiënt verwerken, wat leidde tot een slechte gebruikerservaring en hoge latentie in aanbevelingssystemen.

  • Oplossing: Door Apache PAIMON te implementeren, realiseerde de retailklant realtime synchronisatie van het winkelgedrag van gebruikers en data. In combinatie met Flink voor streamverwerking kon de klant gepersonaliseerde aanbevelingen genereren op basis van de meest actuele data. Dit verbeterde niet alleen de winkelervaring, maar verlaagde ook de infrastructuurkosten.

  • Resultaat: De conversiepercentages van gebruikers stegen met 10% en de systeemvertraging werd teruggebracht van T+1 tot slechts enkele minuten.

Casus 2: Het opzetten van betrouwbare realtime bedrijfsmonitoring

  • Uitdaging: Het supply chain managementsysteem van een klant in de detailhandel werd steeds complexer naarmate het bedrijf groeide. Hierdoor ontstond een dringende behoefte aan realtime monitoring van bedrijfsprocessen om de stabiliteit en efficiëntie te waarborgen. De bestaande systeemarchitectuur ondersteunde echter alleen offline data , wat niet voldeed aan de eisen van realtime activiteiten.

     

  • Oplossing: Door de introductie van data werd een realtime data gebouwd met behulp van Aliyun EMR + OSS. Dit systeem maakte gebruik van Flink en Flink CDC om data meerdere bronnen in realtime te verzamelen. In combinatie met OSS-objectopslag zorgde dit voor data en hiërarchisch hergebruik. Tegelijkertijd wordt Doris in de analyselaag geïntegreerd om het probleem van de lage actualiteit van OLAP-analyses op te lossen en de actualiteit van het rapportage- en monitoringsysteem te verbeteren.

  • Resultaat: De afdeling Supply Chain heeft realtime monitoring van de bedrijfsworkflow gerealiseerd, waardoor de stabiliteit van het systeem is gewaarborgd en de operationele efficiëntie is verbeterd.

     

De bovenstaande voorbeelden geven een overzicht van de praktijkervaring ARTEFACTbij de implementatie van Apache PAIMON voor klanten. Als realtime data services PAIMON services een uiterst efficiënte en flexibele oplossing voor complexe uitdagingen op het gebied van data .