Autores
Na era da transformação digital, as empresas acumulam continuamente conjuntos data maciços com escala e complexidade crescentes.
Para as empresas, um lago data não é apenas um meio técnico de armazenar diferentes tipos de data, mas também uma infraestrutura para melhorar a eficiência da análise data, apoiar a tomada de decisões data-driven e acelerar o desenvolvimento da IA. No entanto, no processamento em tempo real, na análise de streaming de data e em cenários comerciais complexos (por exemplo, análise do comportamento do usuário, gerenciamento de inventário, detecção de fraudes), as arquiteturas tradicionais de lago de data têm dificuldades para atender à demanda por respostas rápidas.
Como uma nova geração de tecnologia de lago data em tempo real, O Apache PAIMON é compatível com o Apache Flink, Spark e outros mecanismos de computação convencionais, e oferece suporte ao processamento de streaming e em lote, consulta rápida e otimização de desempenho, o que o torna uma ferramenta importante para acelerar a transformação da IA.
Princípios da PAIMON
O Apache PAIMON é um sistema de armazenamento e análise que oferece suporte à atualização data em tempo real em larga escala e realiza consultas eficientes por meio de árvores LSM (árvore de mesclagem de estrutura de registro) e formatos de armazenamento colunar (como ORC/Parquet). Ele é profundamente integrado ao Flink para integrar mudanças data do Kafka, logs e bases data de negócios, e suporta streaming e batch streaming para obter atualizações em tempo real de baixa latência e consultas rápidas.

Exemplo de arquitetura de fluxo data de backend baseado em PAIMON
Em comparação com outras estruturas de lago data (por exemplo, Apache Iceberg e Delta Lake), a PAIMON oferece suporte nativo exclusivo para o processamento unificado de lote de fluxo, que não só lida com eficiência com o data em lote, mas também responde em tempo real ao data alterado (por exemplo, CDC). Ele também é compatível com uma variedade de sistemas de armazenamento distribuído (por exemplo, OSS, S3, HDFS) e se integra a ferramentas OLAP (por exemplo, Spark, StarRocks, Doris) para garantir o armazenamento seguro e leituras eficientes, fornecendo suporte flexível para a rápida tomada de decisões e análise data na empresa.
Principais casos de uso da PAIMON

1. Flink CDC para ingerir Data em um lago Data
O PAIMON simplifica e otimiza esse processo. Com a ingestão de um único clique, toda a base do data pode ser rapidamente importada para o lago do data, reduzindo consideravelmente a complexidade da arquitetura. Ele suporta atualizações em tempo real e consultas rápidas a baixo custo. Além disso, oferece opções flexíveis de atualização que permitem a aplicação de colunas específicas ou diferentes tipos de atualizações agregadas.
2. Criando pipelines de streaming Data
O PAIMON pode ser usado para criar um pipeline completo de streaming data, com recursos que incluem:
Gerar ChangeLog, permitindo o acesso de leitura de streaming a registros totalmente atualizados, facilitando a criação de pipelines data de streaming avançados.
O PAIMON está evoluindo para um sistema de fila de mensagens com mecanismos de consumo. Em sua versão mais recente, ele inclui o gerenciamento do ciclo de vida dos logs de alterações, permitindo que os usuários definam períodos de retenção (por exemplo, os logs podem ser retidos por sete dias ou mais), semelhante ao Kafka. Isso cria uma solução de pipeline de streaming leve e econômica.
3. Consultas OLAP ultrarrápidas
Embora os dois primeiros casos de uso garantam o fluxo de data em tempo real, a PAIMON também suporta consultas OLAP de alta velocidade para analisar o data armazenado. Ao combinar LSM e indexação, a PAIMON permite uma análise rápida do data. Seu ecossistema é compatível com mecanismos de consulta, como Flink, Spark, StarRocks e Trino, permitindo consultas eficientes no data armazenado dentro da PAIMON.
Casos de uso do ARTEFACT
Caso 1: Aumento da eficiência da análise em tempo real Data
Caso 2: Criando um monitoramento de negócios confiável em tempo real
Os casos acima resumem a experiência prática da ARTEFACT na implementação do Apache PAIMON para os clientes. Como uma tecnologia de lago data em tempo real, o PAIMON oferece às empresas uma solução altamente eficiente e flexível para enfrentar desafios complexos de processamento data.

BLOG






