He aquí algunas pautas para construir soluciones de aprendizaje automático fiables sin caer en trampas éticas.
Introducción
El uso del aprendizaje automático como medio para la toma de decisiones se ha convertido ya en omnipresente. Muchas de las salidas de los servicios que utilizamos a diario son el resultado de una decisión tomada por el aprendizaje automático. Como consecuencia, estamos asistiendo a una reducción gradual de la intervención humana en áreas que afectan a todos los aspectos de nuestra vida cotidiana y en las que cualquier fallo en el juicio del modelo algorítmico podría tener implicaciones adversas. Por lo tanto, es esencial establecer directrices adecuadas para construir soluciones de aprendizaje automático fiables y responsables, teniendo en cuenta la ética como pilar fundamental.
En los últimos años, la ética en el aprendizaje automático ha experimentado un aumento significativo en la investigación académica, con importantes conferencias como FACCT y AIES, así como en grandes empresas tecnológicas que están formando equipos de rápido crecimiento para afrontar los retos éticos.
La IA ética es un tema amplio que abarca muchos aspectos, como la privacidad, el data governance, el bienestar social y medioambiental, la responsabilidad algorítmica, etc. En este artículo nos centraremos principalmente en los siguientes componentes de la ética en el aprendizaje automático: equidad, explicabilidad y trazabilidad. Primero discutiremos lo que está en juego y por qué es obligatorio prestar atención a la ética, después exploraremos cómo enmarcar y desarrollar su proyecto de aprendizaje automático teniendo la ética en mente y cómo hacer un seguimiento de la ética una vez desplegado en producción.
Por qué debemos prestar atención a la ética
Con los algoritmos de aprendizaje automático y el conjunto de abstracciones e hipótesis subyacentes cada vez más complejos, se ha convertido en un reto captar y comprender plenamente todas las posibles consecuencias de todo el sistema.
Ha habido varios ejemplos de alto perfil en el mundo real de algoritmos injustos de aprendizaje automático que han dado lugar a resultados subóptimos y discriminatorios. Entre ellos, el conocido ejemplo de COMPAS. COMPAS era un software comercial ampliamente utilizado que mide el riesgo de que una persona vuelva a cometer otro delito, que se comparó con el juicio humano normal en un estudie y posteriormente se descubrió que estaba sesgado en contra de los afroamericanos: El COMPAS tenía más probabilidades de asignar una puntuación de riesgo más alta a los delincuentes afroamericanos que a los caucásicos con el mismo perfil.
En el campo de la PNL, se detectó biais de género en las primeras versiones de Google Translate que se abordó en 2018 y más recientemente.
En el ámbito de la atribución de créditos, Goldman Sachs estaba siendo investigado por utilizar un algoritmo de IA que supuestamente discriminaba a los women al conceder límites de crédito mayores a los hombres que a los women en sus tarjetas Apple.
En el ámbito de la atención sanitaria, un algoritmo de predicción de riesgos utilizado en más de 200 millones de personas en EE.UU. demostró un sesgo racial.
Sin un marco claramente definido sobre cómo analizar, identificar y mitigar los sesgos, los riesgos de caer en trampas éticas pueden ser bastante elevados. Por ello, cada vez es más importante establecer unas directrices adecuadas para construir modelos que produzcan resultados que sean apropiados y justos, sobre todo en los ámbitos en los que intervienen personas. Construir una IA digna de confianza hace que los usuarios finales se sientan seguros cuando la utilizan, y permite a las empresas ejercer un mayor control sobre su uso con el fin de aumentar la eficacia y evitar al mismo tiempo cualquier perjuicio. Para que su IA sea digna de confianza, en realidad tiene que empezar a pensar en la ética incluso antes de procesar data y desarrollar algoritmos.
Cómo pensar en la ética incluso antes de que comience su proyecto
La ética debe tenerse en cuenta desde el principio de un nuevo proyecto, sobre todo en la fase de planteamiento del problema. Debe tener en mente a los usuarios finales a los que se dirige, así como el objetivo de la solución propuesta, para establecer el marco de análisis y gestión de riesgos adecuado para identificar los daños directos o indirectos que puede inducir la solución. Debería preguntarse, en estas condiciones, ¿podría mi solución conducir a decisiones que podrían estar sesgadas hacia un subgrupo concreto de usuarios finales?
Por lo tanto, es fundamental crear indicadores clave de rendimiento para realizar un seguimiento de los métodos que llevan a cabo la eficacia de su estrategia de gestión de riesgos. Un marco sólido también podría incorporar, cuando sea posible, un mecanismo ético de reducción de riesgos.
Cuando se trata de un tema delicado que tiene un alto potencial de riesgo, es necesario ampliar el tiempo asignado a la fase de exploración y construcción para inyectar un análisis de evaluación ética exhaustivo y mitigación de sesgos estrategias.
También debe establecer mecanismos que faciliten al sistema de IA auditabilidad y reproducibilidad . Una traza lógica debe estar disponible para su inspección, de modo que cualquier problema pueda ser revisado o investigado más a fondo. Esto se consigue imponiendo un buen nivel de trazabilidad mediante la documentación, el registro, el seguimiento y el control de versiones.
Cada fuente de data y cada transformación de data también deben documentarse para que las decisiones tomadas para procesar el data sean transparentes y trazables. Esto permite localizar los pasos que pueden haber inyectado o reforzado un sesgo.
Cómo incluir la ética en el desarrollo de su proyecto data
Para incluir la ética en el desarrollo de su proyecto data, es importante incluir al menos tres componentes: imparcialidad, explicabilidad y trazabilidad.
Equidad
El primer paso en la mayoría de los proyectos de aprendizaje automático suele ser la recopilación de data. Tanto si se lleva a cabo el proceso de recopilación de data como si se utiliza un dataset existente, es crucial conocer cómo se realizó la recopilación. Por lo general, no es factible incluir a toda la población objetivo, por lo que las características y las etiquetas podrían muestrearse a partir de un subconjunto, filtrarse según algún criterio o agregarse. Todos estos pasos pueden introducir sesgos estadísticos que pueden tener consecuencias éticas.
Sesgo de representación
surge de la forma en que definimos y muestreamos una población. Por ejemplo, la falta de diversidad geográfica en datasets como ImageNet ha demostrado un sesgo hacia los países occidentales. Como consecuencia de sesgo de muestreo, las tendencias estimadas para una población pueden no generalizarse al data recogido de una nueva población.

De ahí la necesidad de definir protocolos adecuados de recogida de data y de analizar la diversidad de los data recibidos e informar al equipo de las lagunas o riesgos detectados. Es necesario recoger el data de la forma más objetiva posible. Por ejemplo, asegurándose, mediante algún análisis estadístico, de que la muestra es representativa de la población o grupo que está estudiando y, en la medida de lo posible, combinando aportaciones de múltiples fuentes para garantizar la diversidad de data.
Es obligatorio documentar los hallazgos y todo el proceso de recogida de data.
De hecho, hay muchas fuentes posibles de sesgo que pueden existir de muchas formas, algunas de las cuales pueden dar lugar a injusticias en diferentes tareas de aprendizaje descendente.
Dado que el núcleo de los algoritmos de aprendizaje automático supervisado es el data de entrenamiento, los modelos pueden aprender su comportamiento a partir de data que pueden sufrir la inclusión de sesgos históricos o estadísticos no intencionados. Sesgo histórico pueden filtrarse en el proceso de generación de data incluso con un muestreo y una selección de características perfectos. La persistencia de estos sesgos podría dar lugar a una discriminación involuntaria contra determinados grupos o individuos, lo que puede exacerbar los prejuicios y la marginación.
No todas las fuentes de sesgo tienen su origen en el data, el proceso completo de aprendizaje automático implica una serie de elecciones y prácticas a lo largo del camino, desde el preprocesamiento del data hasta el despliegue del modelo.
No es sencillo identificar desde el principio si pueden surgir problemas y cómo. Se necesita un análisis exhaustivo para detectar los problemas que puedan surgir. Dependiendo del caso de uso, del tipo de data y del objetivo de la tarea, se aplicarán diferentes métodos.
En esta sección, exploraremos algunas técnicas para identificar y mitigar el sesgo ético a través de un caso de uso ilustrativo. Primero plantearemos el problema, después veremos cómo medir el sesgo y, por último, utilizaremos algunas técnicas para mitigar el sesgo durante el preprocesamiento, el procesamiento y el postprocesamiento.
Planteamiento del problema
Digamos que está construyendo un algoritmo de puntuación en el sector bancario para automatizar la targeting de los clientes que se beneficiarán o no de un acuerdo premium. Le dan un conjunto histórico data que contiene muchas características sobre su data significativa acerca de sus clientes, así como el objetivo binario “elegible para un acuerdo premium”. Los elementos de PII (información personal identificable) han sido previamente eliminados del dataset por lo que no habrá ningún problema de privacidad en juego (a este respecto, el servicio de prevención de pérdidas cloud de google es una gran herramienta para realizar la tarea de desidentificación de su data sensible).
Este caso de uso puede parecer algo ficticio, pero el problema se acerca a un caso de uso real que tratamos en el pasado en otro sector.
Medición del sesgo
El primer paso del análisis consiste en explorar el data para identificar las características sensibles, el valor privilegiado y la etiqueta favorable.
Características sensibles (o a veces llamado atributos protegidos) son características que dividen a una población en grupos que deberían tener paridad en cuanto a las prestaciones recibidas. Estas características pueden tener un potencial discriminatorio hacia determinados subgrupos. Por ejemplo: el sexo, el género, la edad, la situación familiar, la clasificación socioeconómica, el estado civil, etc. y cualquier proxy data derivado de ellos (por ejemplo, la ubicación geográfica o los importes de las facturas pueden actuar como proxies de la clasificación socioeconómica, ya que se ha observado en algunas situaciones que pueden estar fuertemente correlacionados) son características sensibles.
A valor privilegiado de un rasgo sensible denota un grupo que ha tenido, históricamente, una ventaja sistemática.
A etiqueta favorable es una etiqueta cuyo valor proporciona un resultado positivo que beneficia al receptor.Durante la fase de preparación de la data, pasos como la división de la data, el submuestreo o el sobremuestreo, el tratamiento de los valores perdidos y los valores atípicos podrían introducir sesgos si no se llevan a cabo con cuidado. Las proporciones de valores perdidos o valores atípicos en los subgrupos sobre características sensibles pueden ser un primer paso para identificar el sesgo. Algunas estrategias de imputación pueden introducir sesgos estadísticos, por ejemplo, imputar los valores perdidos de la característica edad del cliente por su mediana.
En nuestro ejemplo de puntuación, dibujamos el gráfico de cómo se distribuye la formación data entre géneros con respecto al objetivo “elegible para un acuerdo premium” :

Podemos ver que la distribución del objetivo está desequilibrada a favor del género Hombre. Partamos de la hipótesis de que el valor de privilegio es Hombre donde género es una característica sensible y la etiqueta favorable es “elegible para un trato preferente”. Además, esto podría corresponder a un sesgo de representación en el data. De hecho, en un caso en el que se respete la equidad, se podría asegurar que las distribuciones en el data están totalmente equilibradas o corresponden a las distribuciones en el data demográfico.
Llegados a este punto, podría tener la tentación de descartar simplemente los rasgos sensibles de su dataset, pero se ha demostrado que eliminar los atributos sensibles no es necesariamente suficiente para que su modelo sea justo. El modelo podría utilizar otros rasgos que se correlacionen con el rasgo sensible eliminado, reproduciendo sesgos históricos. Por poner un ejemplo, una característica A podría estar fuertemente correlacionada con la edad de un cliente, de modo que si el data tiene un sesgo hacia una determinada franja de edad (el sesgo histórico podría dar lugar a discriminación por motivos de edad en la contratación, promoción, etc.) este sesgo se codificará en la característica A y eliminar la edad de un cliente no aliviará el problema. Si mantiene la característica sensible en su data, cuando sea necesario, podrá tener un mayor control sobre las mediciones y la mitigación del sesgo y la imparcialidad.
Métricas de sesgo
Existe una gran variedad de definiciones de equidad y de métricas de equidad. Podemos dividir la equidad en equidad individual y equidad de grupo. La equidad individual da predicciones similares a individuos similares mientras que la equidad de grupo trata por igual a grupos diferentes.
Para lograr la equidad de grupo, queremos que la probabilidad de un resultado positivo sea la misma independientemente de si la persona está en el protegido (por ejemplo, mujer) grupo o no.
Una métrica de grupo sencilla consiste en comparar el porcentaje de resultados favorables para los grupos privilegiados y no privilegiados (en nuestro ejemplo el género Hombre que son “elegibles para un acuerdo premium” en comparación con el género Mujer que son “elegibles para un acuerdo premium”). Puede calcular esta comparación como una diferencia entre los dos porcentajes, lo que lleva a la diferencia de paridad estadística métrica (también llamada paridad demográfica):
Para que no haya diferencias en los resultados favorables entre los grupos privilegiados y no privilegiados, la diferencia de paridad estadística debe ser igual a 0.
Sobre el tema de la métrica de la equidad individual existe la coherencia que mide el grado de similitud de las etiquetas de individuos similares mediante un algoritmo de vecino más próximo:

No nos centraremos en este tema pero el lector interesado podría consultar esto artículo.
Puede utilizar la práctica biblioteca AIF360 que le permite calcular muchas métricas de equidad.
Todo lo que tiene que hacer es envolver su dataframe en el Estándar1TP42Conjunto. AIF360 utiliza un Estándar1TP42Conjunto que envuelve un Pandas DataFrame con muchos atributos y métodos específicos para procesar y medir los sesgos éticos. A continuación, puede utilizarlo como entrada para el BinaryLabelDatasetMetric que calculará un conjunto de métricas útiles.
| params_aif = | |
| # Crear aif360 EstándarDatasets | |
| train_standard_dataset = Estándar1TP42Conjunto(df=train_dataframe, | |
| **params_aif) | |
| grupos_privilegiados = [] | |
| grupos_no_privilegiados = [] | |
| train_bldm = BinaryLabelDatasetMetric(train_standard_dataset, | |
| grupos_no_privilegiados=grupos_no_privilegiados, | |
| grupos_privilegiados=grupos_privilegiados) |
Una vez medido en el entrenamiento de nuestro ejemplo de puntuación data, observamos una diferencia de paridad estadística media de -0,21 que indica que el grupo privilegiado Hombre tuvo 21% resultados más positivos en el conjunto de entrenamiento data.
Mitigación de sesgos
Los métodos que se centran en los sesgos algorítmicos suelen dividirse en tres categorías:
Utilizamos una técnica de preprocesamiento en el data de entrenamiento para optimizar la diferencia de paridad estadística. Aplicamos la Nuevo pesaje algoritmo (más detalles en este artículo) que se implementa en AIF360 con el fin de ponderar los ejemplos de forma diferente en cada combinación (grupo, etiqueta) para garantizar la equidad antes de la clasificación.
RW = Reweighing(unprivileged_groups=grupos_no_privilegiados,
grupos_privilegiados=grupos_privilegiados)
reweighted_train = RW.fit_transform(train_standard_dataset)
|
El atributo de pesos de la instancia se ha modificado para reequilibrar el rasgo sensible con respecto al objetivo. Al hacerlo, el Nuevo pesaje El algoritmo mitigó el sesgo de grupo en el data de entrenamiento: una nueva medida de la diferencia de paridad estadística se reequilibra completamente de -0,21 a 0.
Existen otros algoritmos de mitigación de sesgos de preprocesamiento implementados en AIF360, como el DisparateImpactRemover que es una técnica que edita los valores de las características para aumentar la equidad de los grupos, preservando al mismo tiempo el orden de clasificación dentro de los mismos (más información en artículo) o LFR (Aprendizaje de la representación justa) que es una técnica de preprocesamiento que encuentra una representación latente que codifica el data pero oscurece la información sobre los atributos protegidos (más información en el siguiente artículo).
A continuación, entrenamos dos modelos clasificadores, uno sobre el data de entrenamiento original y otro sobre el data repesado. Observamos que la reponderación sólo tuvo un impacto débil en el rendimiento, perdiendo 1% de Puntuación F1.
También probamos un algoritmo de procesamiento interno en nuestro caso de uso de ejemplo: debiasing adversarial que mejoró significativamente las métricas de sesgo de grupo (la diferencia de paridad estadística se dividió por 2) con un escaso deterioro del rendimiento del modelo (alrededor de 1% en la puntuación F1).
Por tanto, puede haber un compromiso entre las métricas de rendimiento y de sesgo. Aquí el deterioro es bastante pequeño pero en algunas situaciones el compromiso podría ser más agudo. Esta información debe ponerse en conocimiento del equipo y de las partes interesadas adecuadas, que podrán tomar decisiones sobre cómo abordar esta cuestión.
Ahora que tenemos modelos entrenados podemos explorar sus predicciones e investigar si hay desequilibrios hacia el resultado favorable entre géneros. Existen muchas herramientas como Herramienta Y si... o Aequitas que le permiten sondear el comportamiento de los modelos de aprendizaje automático entrenados e investigar el rendimiento del modelo y la equidad entre subgrupos.
A modo de ilustración, puede utilizar Aequitas para generar tablas cruzadas y visualizaciones que presenten diversas métricas de sesgo y rendimiento distribuidas entre los subgrupos. Por ejemplo, podemos comparar rápidamente las tasas de verdaderos positivos de los clasificadores que se entrenaron con el data original y con el data reponderado. Vemos que esta tasa se ha equilibrado y, por lo tanto, permite una mayor equidad de género hacia el resultado favorable del modelo de ser elegible para un acuerdo premium.

Como técnica de posprocesamiento interactuamos con el umbral de clasificación. Un modelo de clasificación suele proporcionarnos las probabilidades asociadas a la realización de cada clase como predicción. Esta probabilidad puede utilizarse tal cual o convertirse en un valor binario.
Para identificar la clase correspondiente a las probabilidades obtenidas, hay que definir un umbral de clasificación (también llamado umbral de decisión). Cualquier valor por encima de este umbral corresponderá a la categoría positiva “tiene derecho a un trato preferente” y viceversa para los valores por debajo de este umbral.
Trazando la métrica del rendimiento y la métrica del sesgo (aquí 1 - impacto dispar) a través de todos los umbrales de clasificación, podemos definir el umbral óptimo. Esto nos ayuda a elegir el umbral adecuado para maximizar el rendimiento y minimizar el sesgo.

En la figura de la izquierda vemos que si empujamos el umbral hacia la izquierda, bajando así un poco el rendimiento, podemos mejorar en la métrica del sesgo.
También, como era de esperar, observamos una clara mejora de las métricas de sesgo de grupo en el modelo reponderado (figura de la derecha), que podría mejorarse aún más eligiendo otro umbral de clasificación, pero a expensas del rendimiento.
Explicabilidad
Otro pilar fundamental para construir modelos de aprendizaje automático fiables es la explicabilidad. La explicabilidad es la capacidad de explicar tanto los procesos técnicos del sistema de IA como el razonamiento que subyace a las decisiones o predicciones que realiza el sistema de IA, pudiendo cuantificar así la influencia de cada característica/atributo en las predicciones. Utilizar en la medida de lo posible modelos fácilmente interpretables en lugar de modelos de caja negra es una buena práctica.
Existen muchos métodos para obtener la explicabilidad de los modelos. Estos métodos pueden agruparse en 2 categorías:
Aquí aplicaremos un famoso método post-hoc, a saber SHAP (SHapley Additive exPlanations), para más información recomendamos explorar este recurso muy completo sobre el tema. Shap es una biblioteca que implementa un enfoque teórico de juegos para explicar la salida de cualquier modelo de aprendizaje automático.
Observemos el impacto del algoritmo Reweighing en la explicabilidad del modelo:

Recordatorio rápido sobre cómo leer Shap's Calentador de abejas parcelas:
A la izquierda, tenemos la explicabilidad del modelo original donde observamos que en este caso la variable de género tiene un poder predictivo muy fuerte y que el género Mujer tiene un impacto que influye en la decisión hacia el objetivo “no elegible para un acuerdo premium” con una gran brecha con respecto al género Hombre.
Podemos ver en el gráfico de la derecha, en este caso en el que el modelo se entrenó con el data reponderado, que la importancia del rasgo de género ha disminuido fuertemente. Ahora forma parte de los rasgos menos importantes. Además, la influencia de la clase femenina frente a la masculina en la predicción del objetivo está mucho más equilibrada (los colores se acercan a 0 en el valor de Shapley).
Trazabilidad
Otro aspecto esencial en el proceso de creación de algoritmos de aprendizaje automático fiables es la trazabilidad de los resultados y la buena reproducibilidad de los experimentos. Esto facilita la identificación de la versión de un modelo que se ha puesto en producción, de modo que pueda auditarse si su comportamiento causa daños y deja de ajustarse a los valores éticos de la empresa.
Para ello, hay que poder rastrear y registrar cada versión del modelo y sus data de entrenamiento, hiperparámetros y resultados asociados. Varias herramientas pueden llevar a cabo esta tarea: Mlflow es una gran opción que le permite generar rápidamente una interfaz web que centralice todas las ejecuciones, al tiempo que guarda sus artefactos en el almacenamiento de su elección. Cada versión del experimento puede ser rastreada con el hash del commit asociado. Cada una de estas versiones contendrá todos los elementos registrados por MLflow.
Aquí tiene una herramienta que hemos abierto en Artefact y que le permite desplegar un MLflow seguro en un proyecto GCP con un solo comando.
También es una buena práctica crear un Hoja informativa para cada modelo, que corresponde a una tarjeta de identidad del modelo que resume varios elementos que trazan los pasos del preprocesamiento, las métricas de rendimiento, las métricas de sesgo, etc.
Estas fichas son entregadas por los científicos del data a los equipos operativos de los modelos, lo que les permite determinar si el modelo se adapta a su situación. Para más detalles sobre la metodología de creación de una ficha de datos, le recomendamos esto artículo. La FactSheet también puede almacenarse, en forma tabular por ejemplo, en MLFlow junto con el modelo asociado.
Cómo hacer un seguimiento ético una vez desplegado
Una vez desplegado su modelo, tiene que asegurarse de que se utiliza para el fin para el que fue pensado, diseñado y construido. El sesgo de despliegue se produce cuando hay un desajuste entre el problema que se pretende resolver con un modelo y la forma en que se utiliza realmente. Esto ocurre con frecuencia cuando un sistema se desarrolla y evalúa como si fuera totalmente autónomo, mientras que en realidad forma parte de un complejo sistema sociotécnico regido por un gran número de responsables de la toma de decisiones.
La data de producción puede derivar con el tiempo, lo que puede provocar una degradación del rendimiento del algoritmo que podría inyectar sesgo. El seguimiento de la calidad del data de producción y de la deriva del data mediante la supervisión de las distribuciones del nuevo data en comparación con el data utilizado para entrenar los modelos, debería ser un paso en la cadena de producción para lanzar las alertas adecuadas cuando sea necesario y definir cuándo es obligatorio el reentrenamiento.
La cadena de producción debe diseñarse de modo que exista una forma de desactivar el modelo actual o de volver a una versión anterior.
Conclusión
En este artículo hemos presentado algunas buenas prácticas y protocolos para guiarle en la construcción de pipelines de aprendizaje automático que minimicen el riesgo de caer en trampas éticas.
Este artículo apenas ha arañado la superficie del vasto tema que es la IA ética y sólo ha tocado una parte de las herramientas interesantes que se están desarrollando y que ya están disponibles.
Como hemos visto, la forma más lógica de abordar explícitamente los problemas de imparcialidad es declarar una colección de rasgos seleccionados como potencialmente discriminatorios y luego investigar a través de este prisma el sesgo ético. Esta técnica directa, sin embargo, tiene un fallo y es que la discriminación puede ser el resultado de una combinación de características que no son discriminatorias por sí solas. Además, en muchos casos no tendrá acceso a ningún rasgo sensible (más sobre este tema aquí).
La evaluación de la equidad es una tarea compleja que depende de la naturaleza del problema. No será lo mismo abordar un problema de puntuación basado en data tabulares que mitigar el sesgo en el procesamiento del lenguaje natural.
¡Esperamos que compartir nuestra perspectiva y metodologías le inspire en sus propios proyectos ! Gracias por leernos, no dude en seguir el Artefact tech blog ¡si desea que le avisemos cuando publiquemos nuestro próximo artículo!

BLOG






