Autor

Autor

Autor

En la era digital actual, las organizaciones se enfrentan al reto de seguir el ritmo sin precedentes de generación de data y la plétora de sistemas empresariales y tecnologías digitales que recopilan todo tipo de data. A esto se une la necesidad de analizar rápida y eficazmente estos grandes volúmenes de data para generar perspectivas e inteligencia con el fin de maximizar su valor empresarial. Como resultado, los big data platforms se han convertido en una base esencial para que las organizaciones desplieguen eficientemente soluciones data que proporcionen decisiones empresariales data-driven oportunas y ventajas competitivas.

“Las soluciones de análisis e inteligencia Data están proliferando en las organizaciones para permitir el crecimiento empresarial. Las organizaciones deben construir grandes data platforms como cimientos sólidos para desplegar soluciones data a escala. Estas data platforms deben estar diseñadas específicamente para el negocio, ya que sólo son tan buenas como el conocimiento y la inteligencia empresarial que permiten; y deben construirse para estar preparadas para el futuro, beneficiándose de los constantes avances en los servicios y tecnologías de infraestructura data.”
Oussama Ahmad, Data Socio consultor en Artefact

Objetivos clave de la plataforma Big Data

Los Big data platforms pretenden acabar con los silos data e integrar los distintos tipos de fuentes data necesarios para implantar soluciones avanzadas de análisis e inteligencia data. Proporcionan una infraestructura escalable y flexible para recopilar, almacenar y analizar grandes volúmenes de data procedentes de múltiples fuentes. Estas plataformas deben aprovechar los mejores servicios y tecnologías de gestión de data y cumplir tres objetivos clave:

  • Centralizar fuentes data: Un gran data platform debería romper los silos data ingestando y almacenando automáticamente diferentes tipos y tamaños de fuentes data procedentes de sistemas data empresariales y fuentes data de terceros. Debería convertirse en el repositorio central data, proporcionando una única fuente de verdad para todas las fuentes data necesarias para las soluciones analíticas data.

  • Habilitar soluciones analíticas data: Un gran data platform debe proporcionar una infraestructura robusta para desarrollar, ejecutar y desplegar diferentes tipos de soluciones analíticas (desde la simple generación de informes hasta el aprendizaje automático avanzado) según sea necesario para satisfacer las necesidades empresariales de inteligencia y conocimientos para la toma de decisiones.

  • Garantice un acceso conforme y seguro al data y a las aplicaciones: Con un gran data platform, las organizaciones deberían ser capaces de proporcionar un acceso data consolidado y seguro tanto a las partes interesadas internas como externas. También debe almacenar, procesar y distribuir data de manera que cumpla las leyes y reglamentos data locales, así como las normas y mejores prácticas internacionales.

Infraestructura de la Gran Plataforma Data

Existen varias opciones de infraestructura para una gran data platform: totalmente on-premise, totalmente cloud o híbrida cloud/on-premise, cada una con sus propias ventajas y retos. Las organizaciones deben tener en cuenta una serie de factores a la hora de elegir la opción de infraestructura más adecuada para su gran data platform, incluidos los requisitos de seguridad y residencia data, las integraciones de fuentes data, los requisitos de funcionalidad y escalabilidad, y el coste y el tiempo. Una arquitectura totalmente cloud ofrece costes más bajos y predecibles, servicios e integraciones listos para usar y una rápida escalabilidad, pero carece de control sobre el hardware y puede no cumplir las normativas de data privacidad y residencia. Una arquitectura totalmente on-premise proporciona un control total sobre el hardware y la seguridad data, suele cumplir las normativas de privacidad y residencia, pero incurre en costes más elevados y requiere una planificación a largo plazo para su ampliación. Una arquitectura híbrida cloud/on-premise ofrece lo mejor de ambos mundos, facilitando la migración completa al cloud en una fecha posterior, pero puede requerir una configuración más compleja.

Muchas organizaciones eligen una infraestructura híbrida para su gran data platforms debido a los requisitos organizativos de mantener la data altamente sensible (como la data financiera y de clientes) en sus propios servidores, o debido a la falta de proveedores de servicios cloud certificados por el gobierno (CSP) que cumplan los requisitos locales de privacidad y residencia de data. Estas organizaciones también prefieren mantener las fuentes cloud nativas o no sensibles data en el cloud para optimizar los costes de almacenamiento y recursos informáticos y aprovechar los servicios de análisis y aprendizaje automático data listos para usar disponibles en los CSP. Otras organizaciones que no tienen requisitos organizativos o normativos para la residencia de data dentro de la empresa o el país optan por una infraestructura totalmente basada en cloud para obtener un tiempo de implantación más rápido, costes optimizados y recursos fácilmente escalables.

Figura 1: Infraestructura de la plataforma Data en las instalaciones y en la nube híbrida

Un gran data platform suele implicar la creación de siete capas principales que reflejan el ciclo de vida del data desde el “data en bruto” a la “información” y a los “insights”. Las organizaciones deben considerar cuidadosamente los servicios y herramientas apropiados que requiere cada una de las capas para garantizar un flujo data fluido y una generación eficiente de insights data. Estos servicios y herramientas deben desempeñar funciones clave en cada capa de la big data platform, como se muestra en la Figura 2: Capas de la plataforma big Data.

Figura 2: Capas de la gran plataforma Data

Evolución de la plataforma Big Data

El desarrollo de una big data platform debería evolucionar a través de varias etapas, empezando por una plataforma mínima viable (MVP) y continuando con actualizaciones incrementales. Una organización debe sincronizar la evolución de su big data platform con el aumento de los requisitos para obtener conocimientos e inteligencia data más amplios y rápidos para las decisiones empresariales. Estos mayores requisitos afectan a la complejidad del big data platform en términos de soluciones analíticas data, volúmenes y tipos de fuentes data y usuarios internos y externos. La evolución del big data platform incluye la adición de más recursos de almacenamiento y computación, características y funcionalidades avanzadas, y mejoras en la seguridad y gestión de la plataforma.

Recuadro 3: Evolución de la plataforma Big Data

“Hemos visto que muchas organizaciones tienden a construir grandes data platforms con funciones avanzadas e innecesarias desde el primer día, lo que aumenta el coste tecnológico de propiedad. El despliegue de una gran data platform debería comenzar con una plataforma mínima viable y evolucionar en función de los requisitos empresariales y tecnológicos. En las primeras fases de la construcción de la plataforma, las organizaciones deberían implantar una capa robusta de data governance y gestión que garantice la calidad, la privacidad, la seguridad y el cumplimiento de las leyes locales y regionales de data.”
 Anthony Cassab, Data Director consultor en Artefact

Directrices para una plataforma Big Data a prueba de futuro

Una gran data platform debe construirse de acuerdo con unas directrices arquitectónicas clave para garantizar que está preparada para el futuro, permitiendo una fácil escalabilidad de los recursos, la portabilidad a través de diferentes infraestructuras locales y cloud, la actualización y sustitución de los servicios, y la ampliación de los mecanismos de recopilación e intercambio de data.

  • Capas modulares data: Todas las capas de la plataforma deben estar bien definidas e integradas, desde la capa de ingestión data hasta la capa de visualización y BI data. Cada capa debe aprovechar los mejores servicios o herramientas de su clase, lo que normalmente requiere que la arquitectura no se base en una solución de “caja negra” y permita la configuración e integración de herramientas y servicios independientes que proporcionen una funcionalidad específica.

  • Aplicaciones en contenedores: La plataforma debe contenerizar los procedimientos y aplicaciones de ingestión, procesamiento y análisis data utilizando plataformas de orquestación como Kubernetes. Los contenedores ofrecen un mecanismo de empaquetado lógico en el que las aplicaciones pueden abstraerse del entorno de ejecución permitiendo la ejecución de cargas de trabajo en contenedores en varios tipos de infraestructura. Esto facilita la portabilidad de las aplicaciones de la plataforma a través de diferentes infraestructuras locales y cloud y el despliegue en múltiples cloud.

  • Arquitectura basada en microservicios: Las aplicaciones de plataforma deben descomponerse en microservicios, cada uno de los cuales cumple una función específica e interactúa con los demás. Esto facilita la construcción y el mantenimiento de las aplicaciones, permite el despliegue independiente y el escalado de los microservicios, y posibilita la entrega rápida y frecuente de grandes aplicaciones complejas.

  • Servicios y herramientas estándar: La selección de herramientas y servicios para la plataforma debe centrarse en los estándares compartidos por la industria (estándares abiertos) y reducir la dependencia de aquellos que son específicos de un único proveedor de tecnología. Por ejemplo, la plataforma debería incluir servicios cloud que sean comunes a múltiples proveedores de servicios cloud. Esto facilita la migración entre diferentes infraestructuras locales y cloud y los despliegues multi-cloud, reduciendo costes y tiempo.

  • Robusto data governance: Desde el principio, la plataforma debe incorporar un marco data governance sólido en forma de herramientas de gobernanza, servicios, procesos, controles y normas que garanticen la supervisión y mejora continuas de la calidad data, el acceso seguro a los análisis data y data, la protección de la privacidad, el almacenamiento y procesamiento conformes y la gestión estandarizada de data y metadata. Esto facilita el escalado de los recursos y capacidades de la plataforma, y facilita la amplia adopción de soluciones analíticas data y el uso de los conjuntos data disponibles.

“Una plataforma adaptable y modular que pueda escalarse a medida que evolucionan las necesidades empresariales es preferible a una plataforma “caja negra” que esté bien integrada pero permita una personalización limitada. Estas arquitecturas de plataforma pueden construirse total o parcialmente en el cloud para aprovechar las ventajas de la informática del cloud, como la escalabilidad y la rentabilidad, al tiempo que se cumplen los requisitos de privacidad y seguridad de la normativa de protección del data.”
Faisal Najmuddin, Director de Data Engineering en Artefact

En resumen, una gran data platform aporta múltiples beneficios a las organizaciones, como centralizar las fuentes de data, habilitar soluciones analíticas avanzadas de data y proporcionar acceso en toda la empresa a soluciones y fuentes analíticas de data. Sin embargo, implantar una gran data platform conlleva una serie de decisiones estratégicas, como elegir la(s) infraestructura(s) adecuada(s), adoptar una arquitectura preparada para el futuro, seleccionar servicios estándar y “migrables”, considerar cuidadosamente la normativa de protección de la data y, por último, definir un plan de evolución óptimo que esté estrechamente vinculado a los requisitos empresariales y maximice el retorno de la inversión en data.