Autores

Na era da transformação digital, as empresas acumulam continuamente conjuntos data maciços com escala e complexidade crescentes.

Para as empresas, um data lake não é apenas um meio técnico de armazenar diferentes tipos de data, mas também uma infraestrutura para melhorar a eficiência da análise data , apoiar a tomada de decisões data e acelerar o desenvolvimento da AI. No entanto, no processamento em tempo real, na análise data streaming e em cenários de negócios complexos (por exemplo, análise do comportamento do usuário, gerenciamento de inventário, detecção de fraudes), as arquiteturas tradicionais de data lake têm dificuldades para atender à demanda por respostas rápidas.

Como uma nova geração de tecnologia de data lake em tempo real, O Apache PAIMON é compatível com o Apache Flink, o Spark e outros mecanismos de computação convencionais, e oferece suporte ao processamento de streaming e em lote, à consulta rápida e à otimização de desempenho, o que o torna uma ferramenta importante para acelerar a transformação AI .

Princípios da PAIMON

O Apache PAIMON é um sistema de armazenamento e análise que oferece suporte à atualização de data em tempo real em grande escala e realiza consultas eficientes por meio de árvores LSM (árvore de mesclagem de estrutura de registro) e formatos de armazenamento em colunas (como ORC/Parquet). Ele é profundamente integrado ao Flink para integrar data de alteração do Kafka, logs e bancos de dados comerciais, e oferece suporte a streaming de fluxo e de lote para obter atualizações em tempo real de baixa latência e consultas rápidas.

Arquitetura de fluxo data back-end baseada em PAIMON

Exemplo de arquitetura de fluxo data back-end baseada em PAIMON

Em comparação com outras estruturas de data lake (por exemplo, Apache Iceberg e Delta Lake), a PAIMON oferece suporte nativo exclusivo para o processamento unificado de fluxo em lote, que não só lida com eficiência com data em lote, mas também responde em tempo real a data alterados (por exemplo, CDC). Ele também é compatível com uma variedade de sistemas de armazenamento distribuído (por exemplo, OSS, S3, HDFS) e se integra a ferramentas OLAP (por exemplo, Spark, StarRocks, Doris) para garantir o armazenamento seguro e leituras eficientes, fornecendo suporte flexível para a rápida tomada de decisões e análise data na empresa.

Principais casos de uso da PAIMON

Principais casos de uso da PAIMON

1. Flink CDC para ingestão de Data em um lago Data

A PAIMON simplifica e otimiza esse processo. Com a ingestão de um único clique, todo o banco de dados pode ser importado rapidamente para o lago de data , reduzindo muito a complexidade da arquitetura. Ele oferece suporte a atualizações em tempo real e consultas rápidas a baixo custo. Além disso, oferece opções de atualização flexíveis que permitem a aplicação de colunas específicas ou diferentes tipos de atualizações agregadas.

2. Criação de pipelines Data streaming

A PAIMON pode ser usada para criar um pipeline de data streaming completo, com recursos que incluem:
Gerar ChangeLog, permitindo o acesso de leitura de streaming a registros totalmente atualizados, facilitando a criação de pipelines de data de streaming avançados.

O PAIMON está evoluindo para um sistema de fila de mensagens com mecanismos de consumo. Em sua versão mais recente, ele inclui o gerenciamento do ciclo de vida dos logs de alterações, permitindo que os usuários definam períodos de retenção (por exemplo, os logs podem ser retidos por sete dias ou mais), semelhante ao Kafka. Isso cria uma solução de pipeline de streaming leve e econômica.

3. Consultas OLAP ultrarrápidas

Embora os dois primeiros casos de uso garantam o fluxo data em tempo real, a PAIMON também oferece suporte a consultas OLAP de alta velocidade para analisar data armazenados. Ao combinar LSM e indexação, a PAIMON permite a análise rápida data . Seu ecossistema oferece suporte a mecanismos de consulta como Flink, Spark, StarRocks e Trino, permitindo consultas eficientes em data armazenados dentro da PAIMON.

Casos de uso ARTEFACT

Caso 1: Aumento da eficiência da análise Data em tempo real

  • Desafio: Um gigante do varejo global enfrentou desafios na análise do comportamento do usuário em tempo real e nas recomendações personalizadas nas plataformas de loja e comércio eletrônico. Com a arquitetura tradicional de análise data , o sistema não conseguia lidar eficientemente com data em tempo real em grande escala, o que resultava em uma experiência ruim para o usuário e alta latência nos sistemas de recomendação.

  • Solução: Com a introdução do Apache PAIMON, o cliente de varejo conseguiu sincronizar em tempo real os comportamentos de compra dos usuários e data de inventário. Combinado com o Flink para processamento de fluxo, o cliente conseguiu gerar recomendações personalizadas com base nos data mais atualizados. Isso não apenas melhorou a experiência de compra, mas também reduziu os custos de infraestrutura.

  • Resultado: As taxas de conversão dos usuários aumentaram em 10% e a latência do sistema foi reduzida de T+1 para uma questão de minutos.

Caso 2: Criando um monitoramento de negócios confiável em tempo real

  • Desafio: O sistema de gerenciamento da cadeia de suprimentos de um cliente varejista enfrentou uma complexidade crescente à medida que os negócios aumentaram. Isso criou uma necessidade urgente de monitoramento em tempo real dos fluxos de trabalho comerciais como forma de garantir estabilidade e eficiência. No entanto, a arquitetura do sistema existente suportava apenas o processamento data off-line, o que não atendia às demandas das operações em tempo real.

     

  • Solução: Com a introdução do lago data PAIMON, foi criada uma arquitetura de lago data em tempo real usando Aliyun EMR + OSS. Esse sistema usou o Flink e o Flink CDC para coletar data de várias fontes em tempo real. Combinado com o armazenamento de objetos OSS, ele garantiu a capacidade de consulta data e a reutilização hierárquica. Enquanto isso, ele combina o Doris na camada de análise para resolver o problema de baixa pontualidade da análise OLAP e melhorar a pontualidade do sistema de relatórios e monitoramento.

  • Resultado: O departamento de cadeia de suprimentos conseguiu monitorar o fluxo de trabalho comercial em tempo real, garantindo a estabilidade do sistema e melhorando a eficiência operacional.

     

Os casos acima resumem a experiência prática da ARTEFACTna implementação do Apache PAIMON para os clientes. Como uma tecnologia de data lake em tempo real, o PAIMON oferece às empresas uma solução altamente eficiente e flexível para enfrentar desafios complexos de processamento data .