Autor

Kais LARIBI

Científico Senior Data en Artefact

Lea nuestro artículo sobre

MLflow es una herramienta de uso común para el seguimiento de experimentos de aprendizaje automático, versionado de modelos y servicio. En nuestro primer artículo de la serie “Servir modelos ML a escala”, explicamos cómo desplegar la instancia de seguimiento en Kubernetes y utilizarla para registrar experimentos y almacenar modelos.

Parte 1 - ¿Cómo desplegar la instancia de seguimiento de Mlflow en Kubernetes?

Introducción

Mlflow es una herramienta muy utilizada en la comunidad científica/ML de data para hacer un seguimiento de los experimentos y gestionar los modelos de aprendizaje automático en diferentes etapas. Utilizándola, podemos almacenar métricas, modelos y artefactos para comparar fácilmente el rendimiento de los modelos y gestionar sus ciclos de vida. Además, Mlflow proporciona un módulo para servir modelos como un punto final API que facilita su integración en cualquier producto o aplicación web.

Dicho esto, utilizar el aprendizaje automático en productos en línea es genial, pero dependiendo del tamaño del modelo, la naturaleza (ML, aprendizaje profundo,... ) y la carga (solicitudes de los usuarios) podría ser un reto dimensionar los recursos necesarios y garantizar un tiempo de respuesta razonable. Por lo tanto, utilizar una infraestructura escalable como los clústeres Kubernetes es clave para mantener la disponibilidad y el rendimiento del servicio en la fase de inferencia.

En este contexto, publicamos una serie de tres artículos en los que respondemos a las siguientes preguntas:

¿Cómo desplegar y utilizar la instancia de seguimiento de Mlflow en Kubernetes?
¿Cómo servir modelos de aprendizaje automático como API utilizando Mlflow?
¿Cómo manejar un elevado número de solicitudes y hacer que nuestra tarea de inferencia sea escalable para productos industrializados?

Así que empecemos este primer artículo introduciendo Kubernetes y sus componentes y pasemos por el despliegue de una instancia de rastreo a modelos de registro.

Visión general sobre Kubernetes

Kubernetes es un proyecto de código abierto, lanzado por Google en 2014. Es un sistema de control y orquestación de contenedores que permite el despliegue, escalado y programación automáticos de aplicaciones. Tiene la siguiente arquitectura:

Maestro: Se encarga de las configuraciones de entrada, programa las aplicaciones en contenedores en los distintos nodos y supervisa sus estados. El maestro se compone de:

Servidor API: permite la interacción con el cluster y valida los comandos enviados por el desarrollador para actualizar el cluster o el estado de la app.
Programador: decide en qué nodos deben ejecutarse los nuevos objetos para garantizar la estabilidad y el equilibrio de la carga.
Etcd: una base clave-valor data que almacena las diferentes configuraciones y estados de los recursos
Director del Controlador:supervisa el estado del cluster y los diferentes recursos y se asegura de que el estado actual coincide con el deseado.

Nodos: Son los nodos de ejecución en los que viven los contenedores desplegados. Sus componentes principales son:

Vainas: son la unidad básica fundamental de ejecución en Kubernetes. Un Pod encapsula una aplicación, ya sea como un único contenedor o como varios contenedores que funcionan juntos con volúmenes de almacenamiento y redes compartidos.
Kubelet:es un agente para inspeccionar el estado del contenedor y comunicarse con el maestro Kubernetes.

Es la mejor opción cuando una aplicación tiene varios servicios que se comunican entre sí, ya que garantiza que cada servicio tenga su propio entorno en contenedores con un conjunto de reglas para interactuar con los demás. Además, ofrece la interesante capacidad de escalar una aplicación sin preocuparse de gestionar o sincronizar nuevos servicios y de equilibrar los recursos entre diferentes máquinas.

Desde una perspectiva de alto nivel, como científicos data o ingenieros ML, interactuaremos con Kubernetes a través de su API de servidor utilizando comandos CLI o archivos de configuración YAML para desplegar y exponer aplicaciones u obtener los estados de nuestros recursos.

Prerrequisitos prácticos

Para esta práctica, utilizaremos GCP como proveedor de cloud. En primer lugar, necesitamos :

1. Crear los elementos infraestructurales

mlflow_gke: un cubo para almacenar archivos, datasets...
mlflow-k8s: un clúster GKE de tres nodos (e2-highcpu-4) para desplegar tanto el módulo de seguimiento como el modelo de aprendizaje automático.
pruebas de carga: un clúster GKE de tres nodos (e2-standard-2) para realizar pruebas de carga. Se utilizará en el tercer artículo de esta serie.

2. Configure la estación de trabajo local

Instale los requisitos de python para interactuar con GCP y mlflow cli
```
pip install mlflow gcsfs google-cloud google-cloud-storage kubernetes
```
Tenga gcloud y kubectl configurado con las credenciales para acceder al proyecto GCP y a los clusters
Tenga el Helm CLI instalado e inicializado. Por favor encuentre aquí las instrucciones en caso de que aún no tenga el cliente.

3. Clone el repositorio del proyecto práctico para obtener el código

git clone https://github.com/artefactory-global/mlflow-serving-example

Despliegue de la instancia Mlflow Tracking

1. Configure el entorno del clúster

Crear una cuenta de servicio para permitir la interacción con GCS
Esto podría hacerse a través de la consola google cloud, en la sección sección iam. Necesitamos crear una cuenta de servicio con permiso de administrador de objetos de almacenamiento, generar una clave de autenticación y descargarla como keyfile.json
Montar el archivo de autenticación como secreto
Los secretos nos permiten manejar de forma segura las credenciales para que sólo sean visibles para los recursos pertinentes. Para ello, crearemos un volumen secreto y expondremos el archivo de autenticación sólo a los contenedores necesarios.
kubectl create secret generic gcsfs-creds -from-file=./keyfile.json

2. Seguimiento del despliegue del servidor

Almacén Postgres
Postgre sirve como elemento de almacenamiento backend para que mlflow guarde los modelos metadata y las métricas.
Para desplegarlo utilizaremos Helm: un gestor de recursos para Kubernetes en el que muchas aplicaciones están disponibles en formato de tablas o plantillas que pueden configurarse con sencillos comandos.
```
#docs: https://artifacthub.io/packages/helm/bitnami/postgresqlhelm repo add bitnami https://charts.bitnami.com/bitnamihelm install mlf-db bitnami/postgresql --set postgresqlDatabase=mlflow_db --set postgresqlPassword=mlflow --set service.type=NodePort
```
Instancia de seguimiento
También utilizaremos gráficos Helm para desplegar el servidor de seguimiento, pero primero, necesitamos construir una imagen docker con la versión que queremos para que pueda ser descargada y desplegada por Helm. Observe que para Postgres, la imagen ya estaba en un repositorio público, sin embargo aquí crearemos nuestra propia imagen.
```
cd mlflow-serving-ejemplodocker build --tag $/mlflow-tracking-server:v1 --file dockerfile_mlflow_tracking .docker push $/mlflow-tracking-server:v1
```

Una vez que la imagen es empujada al registro de imágenes podemos desplegarla en el cluster a través de helm utilizando los siguientes comandos.

helm repo add mlflow-tracking https://artefactory-global.github.io/mlflow-tracking-server/helm install mlf-ts mlflow-tracking/mlflow-tracking-server
--set env.mlflowArtifactPath=$
--set env.mlflowDBAddr=mlf-db-postgresql
--set env.mlflowUser=postgres
--set env.mlflowPass=mlflow
--set env.mlflowDBName=mlflow_db
--set env.mlflowDBPort=5432
--set service.type=LoadBalancer
--set image.repository=$/mlflow-tracking-server
--set image.tag=v1

Ahora, Mlflow debería estar en funcionamiento y la interfaz de usuario debería ser accesible a través de la IP del equilibrador de carga. Podemos comprobar la IP asignada utilizando kubectl obtener servicios.AAdemás, podemos depurar el despliegue accediendo a los registros vía kubectl describe pods.
Hasta ahora, nuestra arquitectura actual tiene el siguiente aspecto:

Tenga en cuenta que los equilibradores de carga son accesibles a cualquier persona en Internet, por lo que es esencial pensar en asegurar nuestra instancia de seguimiento añadiendo una capa de autenticación. Esto podría hacerse con el proxy consciente de la identidad en GCP, pero no se abordará en este artículo.

3. Creación de modelos básicos

Ahora que nuestra infraestructura y nuestra instancia de Mlflow están listas, podemos intentar ejecutar un modelo ML sencillo y guardarlo en el registro de modelos para su uso posterior.
Utilizaremos el conjunto data de calidad del vino, compuesto por unas 4900 muestras y 11 características que reflejan las características del vino. La etiqueta oscila entre 3 y 9 y podría considerarse como una calificación.
Se trata de un ejemplo clásico, en el que entrenamos un modelo de regresión Xgboost y lo almacenamos junto con sus parámetros y métricas. El código completo puede encontrarse en cuaderno.
Se habrá dado cuenta de que la integración de Mlflow es sencilla y podría resumirse en el siguiente fragmento de código que invoca a mlflow.start_run(), mlflow.log_param(), mlflow.log_metric() y mlflow.xgboost.log_model()para crear respectivamente un nuevo experimento, almacenar los parámetros de entrenamiento, las métricas de evaluación y el propio modelo entrenado.

con mlflow.start_run() como ejecutar: # Iniciar sesión mlflow mlflow.log_param("max_depth", max_depth) mlflow.log_param("min_child_weight", min_child_weight) mlflow.log_param("estimadores", estimadores)# Crear y ajustar el modelo modelo = xgb.XGBRegressor( profundidad_máx=profundidad_máx, peso_infantil_min=peso_infantil_min, n_estimadores=estimadores random_state=42) model.fit(X_entrenamiento, y_entrenamiento)# Métricas MLflow predicciones = model.predict(X_prueba) rmse = np.sqrt(error_medio_cuadrado(y_prueba, predicciones)) mlflow.log_metric("rmse", rmse)Modelo log # mlflow.xgboost.log_model(modelo, "xgboost-modelo", nombre_modelo_registrado = nombre_modelo)

Al ejecutar el cuaderno proporcionado, se añadirá una nueva fila en la interfaz de la instancia de seguimiento que corresponderá al nuevo experimento.

Por último, suponiendo que estemos satisfechos con el rendimiento del modelo, podemos cargarlo desde la instancia de seguimiento y utilizarlo para la inferencia en python. Esto podría hacerse también con el cuaderno compartido anteriormente. Observe que en este ejemplo, cargamos el modelo utilizando el ID de ejecución, pero tenga en cuenta que Mlflow ofrece también otras formas interesantes de identificar modelos por etiquetas, versiones o etapas. Para más detalles, consulte la documentación del registro de modelos aquí.

Conclusión

A lo largo de este artículo, hemos conseguido desplegar la instancia de seguimiento de Mlflow para gestionar nuestros experimentos científicos data y hemos realizado un ejemplo rápido que muestra cómo registrar un modelo y guardarlo para futuras inferencias en python. En el próximo artículo de esta serie, aprenderemos a servir este modelo como una API. Esto tiene una gran importancia, ya que facilita la interacción con el modelo y su integración en un producto o una aplicación. Además, hacerlo sobre Kubernetes garantiza que siga siendo fácilmente escalable y capaz de manejar diferentes niveles de carga.

Medio Blog por Artefact.

Este artículo se publicó inicialmente en Medium.com.
¡Síganos en nuestro Medium Blog !

Lea nuestro artículo

Contáctenos

Servir modelos ML a escala utilizando Mlflow en Kubernetes - Parte 1