Data & ML challenges for 2022

Autor

Bruce Delattre

Data Director científico en Artefact

Lea nuestro artículo sobre

Tendencias clave de 2021 en data y ML... y lo que significan para 2022

El año 2021 ha sido bastante rico en noticias relacionadas con el data y la IA. ¿Y qué será lo próximo? En este artículo, hemos seleccionado algunas historias y entradas de blog que nos han parecido perspicaces, hemos dado un paso atrás y hemos intentado deducir qué cabe esperar de esas primeras “señales” para 2022.

Este artículo ha sido posible gracias a las aportaciones de Arthur Derennes, Robin Doumerc, Amale El Hamri, Benoît Goujon, Vincent Luciani y Hanania Ouazan.

1 - Domar la indecencia de los modelos de fundación

2021 tuvo su ración de nuevos grandes modelos. Después del GPT-3 (Brown et al., 2020) el año anterior, puede que haya oído hablar de CLIP o, más recientemente, Gopher. Estos “modelos fundacionales”, como Bommasani et al. (2021) denominan (ya que su arquitectura se reutiliza a menudo, se modifica ligeramente para adaptarla a una tarea específica de Aprendizaje Automático, o también se suelen afinar aún más mediante el aprendizaje por transferencia), siguen su camino y progresan, ya que no parece haber ningún límite al número de parámetros optimizados o data aprovechados para entrenarlos. Lo interesante es que estos modelos traen consigo grandes ganancias de productividad, aprovechando, como observan Bommasani y sus coautores, la combinación de emergencia y homogeneización.

Empecemos por la homogeneización: no sólo la mayoría de los modelos que se ven en la literatura están adaptados de estas arquitecturas genéricas (piense en el BERT, omnipresente hoy en día); pero a menudo también los profesionales no cambian la arquitectura, se limitan a ajustar un modelo “grande” disponible a una tarea posterior mediante el aprendizaje por transferencia. Esta “invariancia” de la arquitectura significa que las nuevas mejoras de un modelo base pueden fluir fácilmente a todos sus modelos hijos.

La emergencia, a continuación, proviene de la forma en que manejan el entrenamiento data. Entrenados bajo autosupervisión, basándose en data brutos que no han sido etiquetados de forma específica, están empezando a demostrar que pueden responder a necesidades para las que no fueron diseñados en un principio (una capacidad de “disparo cero”). Las tareas complejas de aprendizaje automático que adolecen de una escasa disponibilidad de data pueden resolverse mejor aprovechando el “conocimiento” que estos modelos extraen de grandes trozos de data. Aún estamos en las primeras fases y los resultados suelen ser más inquietantes que satisfactorios, pero GPT-3, por ejemplo, aprende directamente a resolver una tarea a partir de una indicación que no ha visto durante el entrenamiento (al menos, teóricamente no debería haber visto...). Esta aparición de capacidades no planificadas significa que podríamos avanzar hacia más capaz y de uso general aprendizaje automático.

Estas ventajas no se consiguen sin cambios estructurales. Al ser grandes por naturaleza, la lista de organizaciones y empresas capaces de crear estos modelos es restringida. Esto debería impulsar definitivamente el uso del aprendizaje automático a través de API de IA propias o interfaces rápidas, abstrayendo el entrenamiento y el mantenimiento de los modelos de base a los ingenieros. Por otro lado, a medida que más modelos dependan de un único progenitor, cabe esperar una mayor regulación e investigación ética y social de estos modelos (ya que los niños heredan el sesgo de su modelo fundacional). Definitivamente, cada vez será más valioso trabajar con talentos que conozcan la capacidad, los límites y los sesgos que se esconden tras estas interfaces, de una forma u otra... empezando por su huella de carbono.

2 - Hacer que la IA sea sostenible

No es de extrañar que estas nuevas formas de IA tengan un alto coste en términos de emisiones de carbono: Strubell et al. estiman que un solo entrenamiento de BERT en GPU equivale aproximadamente a un vuelo de NY a SF, mientras que Taddeo et al. evaluar una sola formación GPT-3 para emitir tanto CO2 como 49 coches durante un año.

La IA se vio por primera vez como una herramienta valiosa para resolver problemas relacionados con el cambio climático (véanse las numerosas ideas del NeurIPS “Tackling climate change with machine learning” 2019 taller), pero muchos expertos apuntan también a su huella de carbono. “IA sostenible”, como dice Aimee van Wynsberghe, debería abarcar no sólo la IA para la sostenibilidad sino también la sostenibilidad de la IA (que tampoco deberían limitarse a las preocupaciones ecológicas).

Como Abhishek Gupta recomienda, trabajando en Favorecer una IA sostenible significa explorar nuevas formas de trabajo. TinyML podría nos ayudan a evitar el coste energético del cómputo inalámbrico, mientras conciencia del carbono debería ayudarnos a comprender en qué ubicación geográfica podríamos entrenar y desplegar mejor nuestros modelos de aprendizaje automático. Un uso más sensato del hardware y los servicios existentes también debería ser sencillamente una preocupación de todos.

Sean cuales sean las soluciones utilizadas para adoptar una IA sostenible, esperamos que los responsables de la toma de decisiones se lo piensen dos veces antes de lanzar proyectos de IA.. Esto plantea el reto de medición aprendizaje automático impacto medioambiental.

El desarrollo del aprendizaje automático, en 2022, debería ir acompañado de una notificación más sistemática de las emisiones de CO2e junto a las métricas de rendimiento (véase por ejemplo codecarbon), más transparencia por parte de los proveedores de cloud (véase la huella de carbono GCP salpicadero) y, sobre todo, una reflexión más profunda sobre los beneficios y los costes de aprovechar la IA. Los proyectos más convincentes serán los que adopten un enfoque holístico: no sólo cuantificar la huella de carbono de la computación sino sopesarla frente a la eficiencia que aportan estos nuevos productos, sin olvidar tener en cuenta un potencial efecto rebote. No basta con medir la huella de carbono de estos grandes modelos: debemos tener en cuenta todo el proceso de principio a fin: formación, despliegue, seguimiento y también su impacto en la forma de trabajar de las personas.

3 - Añadir un toque zen a sus MLOP

Esto es importante a medida que la parte de producción del aprendizaje automático se vuelve cada vez más intrincada y sofisticada. En particular, los MLOP siguieron en auge este año y tuvieron su buena ración de innovaciones o conceptos en boga como Matt Turck explica. Piense simplemente en características tiendas, streaming capacidades y todas las iniciativas DataOps que cubriremos justo a continuación.

Aunque 2021 fue de nuevo un año de auge para MLOPs, También hemos empezado a presenciar una crítica reflexiva contra su propio zumbido. Y los argumentos son justos: el panorama de los MLOP es apenas legible, que abarca cientos de conceptos y herramientas, tal vez a menudo matando en exceso y se podría argumentar razonablemente que un proyecto medio no necesariamente las necesitará todas. La mayoría de los “escala razonable” empresas que no son FAANG (es decir. sin enormes equipos técnicos, sin un ROI infinito generado por la IA, volúmenes razonables de data) debe mantener la sencillez.

Sigue siendo difícil predecir cómo evolucionará este panorama: sin duda debemos esperar que aparezcan más startups y también cierta homogeneización y consolidación detrás de los grandes actores. Sin duda, las herramientas sin código o de bajo código seguirán creciendo y pondrán esas características al alcance de todos. Sin embargo, las cosas pueden cambiar, también creemos realmente en la aparición en los próximos años de estándares abiertos y de una “pila de ML canónica” como la que la Alianza para la Infraestructura de la IA pretende construya (descargo de responsabilidad: Artefact forma parte de la Alianza).

Así que deseamos que añada un toque de Zen a sus MLOP en 2022. Significa, en primer lugar, dar un paso atrás y podar su pila a lo que realmente importa: la eficacia de sus modelos de aprendizaje automático y la productividad de sus científicos data, por ejemplo con un “agresivamente útil” como la que ha adoptado el equipo de la plataforma Stitch Fix. Entonces, como la mayoría de los antipatrones de un proyecto de aprendizaje automático parecen venir del lado del data, trabajar en la consolidación de los cimientos de su proyecto: cómo se abastece y procesa el propio data. En palabras de Ciro Greco, el data debería convertirse de hecho en un “ciudadano de primera clase” de su pila de producción.

4 - Hacer del data más un producto que una simple entrada

“Siempre se ha tratado del data” debería declarar 2021, con su renovado interés por él, como demuestra, por supuesto, el Data-AI centrada movimiento lanzado por Andrew Ng. El data no sólo es el combustible del rendimiento de su modelo de aprendizaje automático, sino también donde surgen los problemas, ya que un data desequilibrado, sesgado o mal etiquetado tendrá sin duda un impacto perjudicial en los algoritmos posteriores.. Así pues, para un modelo dado y fijo, deberíamos ser capaces de ganar calidad simplemente trabajando sobre su entrada, el data.

Lo interesante es que este movimiento debería reconciliar a todos a lo largo de la cadena de valor, desde el lado de la ingeniería data y sus recientes llamamientos a nutrir DataOps prácticas (y nosotros mismos nos dimos un verdadero placer este año en incluir herramientas como Grandes esperanzas en todos nuestros proyectos) a los científicos y analistas data que no carecerán de sofisticados metodologías para perfeccionar el data en cuestión (aumento, etiquetado, corrección de sesgos, muestreo...). Por supuesto, pensamos que esto no será posible sin una inversión clara por parte de la alta dirección y la aplicación de medidas explícitas de procesa de data governance para identificar primero y estructurar después los diferentes dominios y sus propietarios dentro de la organización.

Esto, combinado con el hecho de que el data será cada vez más fácil de desplazar gracias a iniciativas como Airbyte y la mejora continua de data compartir tecnologías en nuestra moderna pila data permitiría empresas obviamente para encontrar nuevos perspectivas del propio data, en paralelo a lo que ya aporta la IA en términos de automatización y conocimientos.

***

Eso es. En este periodo de propósitos de Año Nuevo, le deseamos por tanto que domestique la indecencia de los modelos de cimentación, haga sostenible la IA, añada un toque zen a sus MLOP y, por último, nutra su data como un producto más que considerarlo simplemente como un insumo. ¿Y usted? ¿Qué fue lo que más le sorprendió el año pasado? ¿Qué espera que ocurra este año?

Medio Blog por Artefact.

Este artículo se publicó inicialmente en Medium.com.
¡Síganos en nuestro Medium Blog !

Lea nuestro artículo

Contáctenos

Data y retos ML para 2022