作者

在数字化转型时代,企业不断积累海量 data 集,其规模和复杂性与日俱增。.

对于企业来说,data湖不仅仅是存储不同类型data的技术手段,更是提高data分析效率、支持data-driven决策、加速人工智能发展的基础设施。然而,在实时处理、流data分析和复杂业务场景(如用户行为分析、库存管理、欺诈检测)中,传统的data湖架构难以满足快速响应的需求。.

作为新一代实时 data 湖技术、, Apache PAIMON 兼容 Apache Flink、Spark 等主流计算引擎,支持流式和批处理、快速查询和性能优化,是加速人工智能转型的重要工具。.

PAIMON 原则

Apache PAIMON 是一个存储和分析系统,支持大规模实时 data 更新,并通过 LSM 树(日志结构合并树)和列式存储格式(如 ORC/Parquet)实现高效查询。它与 Flink 深度集成,可整合来自 Kafka、日志和业务 database 的变化 data,并支持流和批量流,以实现低延迟、实时更新和快速查询。.

PAIMON-based backend data flow architecture

基于 PAIMON 的后端 data 流量结构示例

与其他 data 湖框架(如 Apache Iceberg 和 Delta Lake)相比,PAIMON 独一无二地提供了对统一流批处理的本机支持,不仅能高效处理批处理 data ,还能实时响应变化的 data (如 CDC)。它还兼容各种分布式存储系统(如 OSS、S3、HDFS),并与 OLAP 工具(如 Spark、StarRocks、Doris)集成,确保安全存储和高效读取,为企业的快速决策和 data 分析提供灵活支持。.

PAIMON 主要用例

Key PAIMON Use Cases

1.将 Data 纳入 Data 湖的 Flink CDC

PAIMON 简化并优化了这一过程。只需点击一下摄取,整个 database 就能快速导入 data 湖,从而大大降低了架构的复杂性。它以低成本支持实时更新和快速查询。此外,它还提供灵活的更新选项,允许应用特定列或不同类型的聚合更新。.

2.建立流 Data 管道

PAIMON 可用于构建完整的流 data 管道,其功能包括
生成更改日志,允许对完全更新的记录进行流式读取访问,从而更轻松地构建强大的流式 data 管道。.

PAIMON 正在发展成为一个具有消费者机制的消息队列系统。在其最新版本中,它包含了对变更日志的生命周期管理,允许用户定义保留期(例如,日志可保留七天或更多),类似于 Kafka。这就创建了一个轻量级、高性价比的流管道解决方案。.

3.超快 OLAP 查询

在前两个使用案例确保实时 data 流量的同时,PAIMON 还支持高速 OLAP 查询,以分析存储的 data。通过结合 LSM 和索引,PAIMON 可实现快速 data 分析。其生态系统支持 Flink、Spark、StarRocks 和 Trino 等查询引擎,可在 PAIMON 内对存储的 data 进行高效查询。.

ARTEFACT 使用案例

案例 1:提高 Data 实时分析效率

  • 挑战: 一家全球零售巨头在店内和电子商务平台的实时用户行为分析和个性化推荐方面面临挑战。在传统的 data 分析架构下,系统无法有效地处理大规模实时 data,导致用户体验不佳和推荐系统延迟过高。.

  • 解决方案: 通过引入 Apache PAIMON,零售客户端实现了用户购物行为和库存 data 的实时同步。结合用于流处理的 Flink,客户能够根据最新的 data 生成个性化推荐。这不仅改善了购物体验,还降低了基础设施成本。.

  • 结果: 用户转换率提高了 10%,系统延迟时间从 T+1 分钟缩短到几分钟。.

案例 2: 建立可靠的实时业务监控

  • 挑战: 随着业务规模的扩大,一家零售客户的供应链管理系统面临着日益复杂的问题。这就迫切需要对业务工作流程进行实时监控,以确保稳定性和效率。然而,现有的系统架构仅支持离线 data 处理,无法满足实时操作的需求。.

     

  • 解决方案: 通过引入 PAIMON data 湖,利用阿里云 EMR + OSS 构建了实时 data 湖架构。该系统使用 Flink 和 Flink CDC 从多个来源实时收集 data。结合 OSS 对象存储,确保了 data 的可查询性和分层重用性。同时,在分析层结合了 Doris,解决了 OLAP 分析时效性低的问题,提高了报告和监控系统的时效性。.

  • 结果: 供应链部门实现了对业务工作流程的实时监控,确保了系统的稳定性,提高了运营效率。.

     

以上案例总结了 ARTEFACT 为客户实施 Apache PAIMON 的实践经验。作为一种实时 data 湖技术,PAIMON 为企业应对复杂的 data 处理挑战提供了高效灵活的解决方案。.