Apache Paimon: A Real-Time Data Lake Framework and Its Applications | The Engine Driving Data and AI Transformation

Autores

Honglin Wang

Data Engineering VP, Artefact Ásia

Weinan (Jayce) Zhao

Sênior Data Engineer, Artefact Ásia

Na era da transformação digital, as empresas acumulam continuamente conjuntos data maciços com escala e complexidade crescentes.

Para as empresas, um lago data não é apenas um meio técnico de armazenar diferentes tipos de data, mas também uma infraestrutura para melhorar a eficiência da análise data, apoiar a tomada de decisões data-driven e acelerar o desenvolvimento da IA. No entanto, no processamento em tempo real, na análise de streaming de data e em cenários comerciais complexos (por exemplo, análise do comportamento do usuário, gerenciamento de inventário, detecção de fraudes), as arquiteturas tradicionais de lago de data têm dificuldades para atender à demanda por respostas rápidas.

Como uma nova geração de tecnologia de lago data em tempo real, O Apache PAIMON é compatível com o Apache Flink, Spark e outros mecanismos de computação convencionais, e oferece suporte ao processamento de streaming e em lote, consulta rápida e otimização de desempenho, o que o torna uma ferramenta importante para acelerar a transformação da IA.

Princípios da PAIMON

O Apache PAIMON é um sistema de armazenamento e análise que oferece suporte à atualização data em tempo real em larga escala e realiza consultas eficientes por meio de árvores LSM (árvore de mesclagem de estrutura de registro) e formatos de armazenamento colunar (como ORC/Parquet). Ele é profundamente integrado ao Flink para integrar mudanças data do Kafka, logs e bases data de negócios, e suporta streaming e batch streaming para obter atualizações em tempo real de baixa latência e consultas rápidas.

PAIMON-based backend data flow architecture

Exemplo de arquitetura de fluxo data de backend baseado em PAIMON

Em comparação com outras estruturas de lago data (por exemplo, Apache Iceberg e Delta Lake), a PAIMON oferece suporte nativo exclusivo para o processamento unificado de lote de fluxo, que não só lida com eficiência com o data em lote, mas também responde em tempo real ao data alterado (por exemplo, CDC). Ele também é compatível com uma variedade de sistemas de armazenamento distribuído (por exemplo, OSS, S3, HDFS) e se integra a ferramentas OLAP (por exemplo, Spark, StarRocks, Doris) para garantir o armazenamento seguro e leituras eficientes, fornecendo suporte flexível para a rápida tomada de decisões e análise data na empresa.

Principais casos de uso da PAIMON

1. Flink CDC para ingerir Data em um lago Data

O PAIMON simplifica e otimiza esse processo. Com a ingestão de um único clique, toda a base do data pode ser rapidamente importada para o lago do data, reduzindo consideravelmente a complexidade da arquitetura. Ele suporta atualizações em tempo real e consultas rápidas a baixo custo. Além disso, oferece opções flexíveis de atualização que permitem a aplicação de colunas específicas ou diferentes tipos de atualizações agregadas.

2. Criando pipelines de streaming Data

O PAIMON pode ser usado para criar um pipeline completo de streaming data, com recursos que incluem:
Gerar ChangeLog, permitindo o acesso de leitura de streaming a registros totalmente atualizados, facilitando a criação de pipelines data de streaming avançados.

O PAIMON está evoluindo para um sistema de fila de mensagens com mecanismos de consumo. Em sua versão mais recente, ele inclui o gerenciamento do ciclo de vida dos logs de alterações, permitindo que os usuários definam períodos de retenção (por exemplo, os logs podem ser retidos por sete dias ou mais), semelhante ao Kafka. Isso cria uma solução de pipeline de streaming leve e econômica.

3. Consultas OLAP ultrarrápidas

Embora os dois primeiros casos de uso garantam o fluxo de data em tempo real, a PAIMON também suporta consultas OLAP de alta velocidade para analisar o data armazenado. Ao combinar LSM e indexação, a PAIMON permite uma análise rápida do data. Seu ecossistema é compatível com mecanismos de consulta, como Flink, Spark, StarRocks e Trino, permitindo consultas eficientes no data armazenado dentro da PAIMON.

Casos de uso do ARTEFACT

Caso 1: Aumento da eficiência da análise em tempo real Data

Desafio: Um gigante do varejo global enfrentou desafios na análise do comportamento do usuário em tempo real e nas recomendações personalizadas nas plataformas de loja e comércio eletrônico. Com a arquitetura tradicional de análise data, o sistema não conseguia lidar eficientemente com o data em tempo real e em grande escala, o que resultava em uma experiência ruim para o usuário e alta latência nos sistemas de recomendação.
Solução: Com a introdução do Apache PAIMON, o cliente de varejo conseguiu sincronizar em tempo real os comportamentos de compra dos usuários e o data do estoque. Combinado com o Flink para processamento de fluxo, o cliente conseguiu gerar recomendações personalizadas com base no data mais atualizado. Isso não apenas melhorou a experiência de compra, mas também reduziu os custos de infraestrutura.
Resultado: As taxas de conversão dos usuários aumentaram em 10%, e a latência do sistema foi reduzida de T+1 para uma questão de minutos.

Caso 2: Criando um monitoramento de negócios confiável em tempo real

Desafio: O sistema de gerenciamento da cadeia de suprimentos de um cliente varejista enfrentou uma complexidade cada vez maior à medida que os negócios cresciam. Isso criou uma necessidade urgente de monitoramento em tempo real dos fluxos de trabalho comerciais como forma de garantir estabilidade e eficiência. No entanto, a arquitetura do sistema existente suportava apenas o processamento data off-line, que não conseguia atender às demandas das operações em tempo real.
Solução: Com a introdução do lago PAIMON data, foi criada uma arquitetura de lago data em tempo real usando Aliyun EMR + OSS. Esse sistema usou o Flink e o Flink CDC para coletar o data de várias fontes em tempo real. Combinado com o armazenamento de objetos do OSS, ele garantiu a capacidade de consulta e a reutilização hierárquica do data. Enquanto isso, ele combina o Doris na camada de análise para resolver o problema de baixa pontualidade da análise OLAP e melhorar a pontualidade do sistema de relatórios e monitoramento.
Resultado: O departamento de cadeia de suprimentos conseguiu monitorar o fluxo de trabalho comercial em tempo real, garantindo a estabilidade do sistema e melhorando a eficiência operacional.

Os casos acima resumem a experiência prática da ARTEFACT na implementação do Apache PAIMON para os clientes. Como uma tecnologia de lago data em tempo real, o PAIMON oferece às empresas uma solução altamente eficiente e flexível para enfrentar desafios complexos de processamento data.

Entre em contato conosco

Apache Paimon: uma estrutura de lago Data em tempo real e seus aplicativos - o motor que impulsiona a transformação do Data e da IA