Autores

En la era de la transformación digital, las empresas acumulan continuamente conjuntos masivos de data con una escala y complejidad crecientes.

Para las empresas, un lago data no es sólo un medio técnico para almacenar diferentes tipos de data, sino también una infraestructura para mejorar la eficiencia del análisis data, apoyar la toma de decisiones data-driven y acelerar el desarrollo de la IA. Sin embargo, en el procesamiento en tiempo real, el análisis de data en flujo continuo y los escenarios empresariales complejos (por ejemplo, el análisis del comportamiento de los usuarios, la gestión de inventarios o la detección de fraudes), las arquitecturas tradicionales de data lake tienen dificultades para satisfacer la demanda de respuesta rápida.

Como una nueva generación de tecnología lago data en tiempo real, Apache PAIMON es compatible con Apache Flink, Spark y otros motores informáticos convencionales, y admite el procesamiento en flujo y por lotes, las consultas rápidas y la optimización del rendimiento, lo que lo convierte en una herramienta importante para acelerar la transformación de la IA.

Principios PAIMON

Apache PAIMON es un sistema de almacenamiento y análisis que admite actualizaciones data a gran escala en tiempo real y logra consultas eficientes mediante árboles LSM (árbol de fusión de estructuras de registro) y formatos de almacenamiento en columnas (como ORC/Parquet). Está profundamente integrado con Flink para integrar cambios data de Kafka, logs y bases de datos data empresariales, y admite streaming y streaming por lotes para lograr actualizaciones en tiempo real de baja latencia y consultas rápidas.

PAIMON-based backend data flow architecture

Ejemplo de arquitectura de flujo data backend basada en PAIMON

En comparación con otros frameworks de lago data (por ejemplo, Apache Iceberg y Delta Lake), PAIMON ofrece de forma exclusiva soporte nativo para el procesamiento unificado de flujo por lotes, que no solo gestiona de forma eficiente el data por lotes, sino que también responde en tiempo real a los data modificados (por ejemplo, CDC). También es compatible con una variedad de sistemas de almacenamiento distribuido (por ejemplo, OSS, S3, HDFS) y se integra con herramientas OLAP (por ejemplo, Spark, StarRocks, Doris) para garantizar un almacenamiento seguro y lecturas eficientes, proporcionando un soporte flexible para la toma rápida de decisiones y el análisis data en la empresa.

Casos clave de uso de PAIMON

Key PAIMON Use Cases

1. Flink CDC para la ingesta de Data en un lago Data

PAIMON simplifica y optimiza este proceso. Con un solo clic de ingestión, toda la base data puede importarse rápidamente al lago data, reduciendo así en gran medida la complejidad de la arquitectura. Admite actualizaciones en tiempo real y consultas rápidas a bajo coste. Además, ofrece opciones de actualización flexibles que permiten la aplicación de columnas específicas o diferentes tipos de actualizaciones agregadas.

2. Construcción de canalizaciones de streaming Data

PAIMON puede utilizarse para construir una tubería completa de flujo data , con capacidades que incluyen:
Genere ChangeLog, permitiendo el acceso de lectura en streaming a registros totalmente actualizados, facilitando la construcción de potentes pipelines de streaming data.

PAIMON está evolucionando hacia un sistema de colas de mensajes con mecanismos de consumo. En su última versión, incluye la gestión del ciclo de vida de los registros de cambios, lo que permite a los usuarios definir periodos de retención (por ejemplo, los registros pueden conservarse durante siete días o más), de forma similar a Kafka. Esto crea una solución de canalización de flujo ligera y rentable.

3. Consultas OLAP ultrarrápidas

Mientras que los dos primeros casos de uso garantizan el flujo de data en tiempo real, PAIMON también admite consultas OLAP de alta velocidad para analizar data almacenados. Al combinar LSM e indexación, PAIMON permite un análisis data rápido. Su ecosistema es compatible con motores de consulta como Flink, Spark, StarRocks y Trino, lo que permite realizar consultas eficientes sobre data almacenados dentro de PAIMON.

ARTEFACT Casos de uso

Caso 1: Mejora de la eficacia del análisis en tiempo real Data

  • Desafío: Un gigante mundial de la venta al por menor se enfrentaba a retos en el análisis del comportamiento de los usuarios en tiempo real y las recomendaciones personalizadas en las plataformas de tienda y comercio electrónico. Con la arquitectura de análisis data tradicional, el sistema no podía gestionar eficientemente el data en tiempo real a gran escala, lo que provocaba una mala experiencia de usuario y una alta latencia en los sistemas de recomendación.

  • Solución: Al introducir Apache PAIMON, el cliente minorista consiguió sincronizar en tiempo real los comportamientos de compra de los usuarios y el inventario data. Combinado con Flink para el procesamiento de flujos, el cliente pudo generar recomendaciones personalizadas basadas en el data más actualizado. Esto no sólo mejoró la experiencia de compra, sino que también redujo los costes de infraestructura.

  • Resultado: Las tasas de conversión de los usuarios aumentaron en 10%, y la latencia del sistema se redujo de T+1 a cuestión de minutos.

Caso 2: Construir una supervisión fiable de las empresas en tiempo real

  • Desafío: El sistema de gestión de la cadena de suministro de un cliente minorista se enfrentaba a una complejidad creciente a medida que aumentaba el negocio. Esto creó una necesidad urgente de supervisión en tiempo real de los flujos de trabajo empresariales como medio para garantizar la estabilidad y la eficacia. Sin embargo, la arquitectura del sistema existente sólo admitía el procesamiento data fuera de línea, lo que no podía satisfacer las demandas de las operaciones en tiempo real.

     

  • Solución: Con la introducción del lago PAIMON data, se construyó una arquitectura de lago data en tiempo real utilizando Aliyun EMR + OSS. Este sistema utilizó Flink y Flink CDC para recopilar data de múltiples fuentes en tiempo real. Combinado con el almacenamiento de objetos OSS, garantizaba la consulta de data y su reutilización jerárquica. Mientras tanto, combina Doris en la capa de análisis para resolver el problema de la baja puntualidad del análisis OLAP y mejorar la puntualidad del sistema de informes y supervisión.

  • Resultado: El departamento de la cadena de suministro consiguió supervisar el flujo de trabajo empresarial en tiempo real, garantizando la estabilidad del sistema y mejorando la eficacia operativa.

     

Los casos anteriores resumen la experiencia práctica de ARTEFACT en la implementación de Apache PAIMON para clientes. Como tecnología de lago data en tiempo real, PAIMON ofrece a las empresas una solución muy eficaz y flexible para afrontar retos de procesamiento data complejos.