Autores

Na era da transformação digital, as empresas acumulam continuamente enormes data , cuja escala e complexidade não param de crescer.

Para as empresas, um data não é apenas um meio técnico para armazenar diferentes tipos de data, mas também uma infraestrutura para melhorar a eficiência da data , apoiar a tomada de decisões data e acelerar o desenvolvimento da AI. No entanto, no processamento em tempo real, data em fluxo contínuo e em cenários de negócios complexos (por exemplo, análise do comportamento do usuário, gestão de estoque, detecção de fraudes), as arquiteturas tradicionais data têm dificuldade em atender à demanda por respostas rápidas.

Como uma nova geração de tecnologia data em tempo real, o Apache PAIMON é compatível com o Apache Flink, o Spark e outros motores de computação convencionais, além de oferecer suporte a processamento em streaming e em lote, consultas rápidas e otimização de desempenho, tornando-se uma ferramenta importante para acelerar AI .

Princípios PAIMON

O Apache PAIMON é um sistema de armazenamento e análise que suporta data em tempo real em grande escala e permite consultas eficientes por meio de árvores LSM (árvores de fusão de estruturas de log) e formatos de armazenamento colunar (como ORC/Parquet). Ele está profundamente integrado ao Flink para incorporar data de alterações data Kafka, data logs e data bancos de dados de negócios, e suporta processamento em fluxo contínuo e em lote para proporcionar atualizações em tempo real com baixa latência e consultas rápidas.

Arquitetura de data de back-end baseada em PAIMON

Exemplo de arquitetura data de back-end baseada em PAIMON

Em comparação com outras estruturas data (por exemplo, Apache Iceberg e Delta Lake), o PAIMON oferece, de forma exclusiva, suporte nativo para o processamento unificado de fluxos e lotes, o que não só lida com eficiência com data em lote, mas também responde em tempo real a alterações data por exemplo, CDC). Ele também é compatível com uma variedade de sistemas de armazenamento distribuído (por exemplo, OSS, S3, HDFS) e se integra a ferramentas OLAP (por exemplo, Spark, StarRocks, Doris) para garantir armazenamento seguro e leituras eficientes, oferecendo suporte flexível para tomada de decisão rápida e data na empresa.

Principais casos de uso do PAIMON

Principais casos de uso do PAIMON

1. Flink CDC para a importação Data um Data

O PAIMON simplifica e otimiza esse processo. Com a importação em um único clique, todo o banco de dados pode ser rapidamente importado para o data , reduzindo assim significativamente a complexidade da arquitetura. Ele suporta atualizações em tempo real e consultas rápidas a um custo baixo. Além disso, oferece opções flexíveis de atualização que permitem a aplicação de colunas específicas ou diferentes tipos de atualizações agregadas.

2. Criação de Data em tempo real

O PAIMON pode ser usado para criar um data completo data em streaming, com recursos que incluem:
Gerar ChangeLog, permitindo acesso de leitura em streaming a registros totalmente atualizados, facilitando a criação de data em streaming robustos.

O PAIMON está se transformando em um sistema de fila de mensagens com mecanismos de consumidor. Em sua versão mais recente, ele inclui gerenciamento do ciclo de vida dos registros de alterações, permitindo que os usuários definam períodos de retenção (por exemplo, os registros podem ser mantidos por sete dias ou mais), de forma semelhante ao Kafka. Isso cria uma solução de pipeline de streaming leve e econômica.

3. Consultas OLAP ultrarrápidas

Embora os dois primeiros casos de uso garantam data em tempo real, o PAIMON também oferece suporte a consultas OLAP de alta velocidade para analisar data armazenados. Ao combinar LSM e indexação, o PAIMON permite data rápida data . Seu ecossistema é compatível com mecanismos de consulta como Flink, Spark, StarRocks e Trino, possibilitando consultas eficientes nos data armazenados data PAIMON.

Casos ARTEFACT

Caso 1: Aumentando a eficiência Data em tempo real

  • Desafio: Uma gigante global do varejo enfrentava desafios na análise em tempo real do comportamento dos usuários e nas recomendações personalizadas nas plataformas físicas e de comércio eletrônico. Sob a arquitetura tradicional data , o sistema não conseguia lidar de forma eficiente data em tempo real em grande escala, o que resultava em uma experiência do usuário insatisfatória e alta latência nos sistemas de recomendação.

  • Solução: Com a implementação do Apache PAIMON, o cliente do setor de varejo conseguiu sincronizar em tempo real os comportamentos de compra dos usuários e data de estoque. Em combinação com o Flink para processamento de fluxos, o cliente conseguiu gerar recomendações personalizadas com base nos data mais atualizados. Isso não só melhorou a experiência de compra, como também reduziu os custos de infraestrutura.

  • Resultado: As taxas de conversão dos usuários aumentaram em 10%, e a latência do sistema foi reduzida de T+1 para apenas alguns minutos.

Caso 2: Implantação de um sistema confiável de monitoramento de negócios em tempo real

  • Desafio: O sistema de gestão da cadeia de suprimentos de um cliente do setor de varejo enfrentava uma complexidade crescente à medida que os negócios se expandiam. Isso criou uma necessidade urgente de monitoramento em tempo real dos fluxos de trabalho da empresa, como forma de garantir estabilidade e eficiência. No entanto, a arquitetura do sistema existente suportava apenas data offline, o que não conseguia atender às demandas das operações em tempo real.

     

  • Solução: Com a introdução data PAIMON, foi construída uma arquitetura data em tempo real utilizando o Aliyun EMR + OSS. Esse sistema utilizou o Flink e o Flink CDC para coletar data múltiplas fontes em tempo real. Combinado com o armazenamento de objetos OSS, garantiu data e a reutilização hierárquica. Ao mesmo tempo, integra o Doris na camada de análise para resolver o problema da baixa atualidade da análise OLAP e melhorar a atualidade do sistema de relatórios e monitoramento.

  • Resultado: O departamento de cadeia de suprimentos conseguiu monitorar o fluxo de trabalho da empresa em tempo real, garantindo a estabilidade do sistema e aumentando a eficiência operacional.

     

Os casos acima resumem a experiência prática ARTEFACTna implementação do Apache PAIMON para clientes. Como tecnologia data em tempo real, o PAIMON oferece às empresas uma solução altamente eficiente e flexível para enfrentar desafios complexos data .