	{"id":61815,"date":"2021-07-27T16:15:44","date_gmt":"2021-07-27T15:15:44","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=news&#038;p=61815"},"modified":"2024-09-20T17:45:46","modified_gmt":"2024-09-20T16:45:46","slug":"including-ethics-best-practices-in-your-data-science-project-from-day-one","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/es\/blog\/including-ethics-best-practices-in-your-data-science-project-from-day-one\/","title":{"rendered":"Incluir las mejores pr\u00e1cticas \u00e9ticas en su proyecto cient\u00edfico Data desde el primer d\u00eda"},"content":{"rendered":"<p><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling article-author\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-background-color:#ffffff;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_2 1_2 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:50%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:50%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-1 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Autor<\/h2><\/div><img decoding=\"async\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27150%27%20height%3D%270%27%20viewBox%3D%270%200%20150%200%27%3E%3Crect%20width%3D%27150%27%20height%3D%270%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/02\/Karim-e1614443653963.png\" alt=\"Image\" class=\"lazyload artefact-elegant-image align-left article-author-image\" style=\"width: 150px; border-radius: 54% 46% 77% 23% \/ 74% 40% 60% 26%; overflow: hidden;\" width=\"150\" height=\"auto\" \/><div class=\"fusion-title title fusion-title-2 fusion-sep-none fusion-title-text fusion-title-size-three article-author-name-title\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Karim Si Larbi<\/h3><\/div><div class=\"fusion-text fusion-text-1 article-author-description\"><p>Cient\u00edfico Senior Data en Artefact<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-2 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-1 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-2 description\"><p>He aqu\u00ed algunas pautas para construir soluciones de aprendizaje autom\u00e1tico fiables sin caer en trampas \u00e9ticas.<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-3 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-2 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:20px;--awb-padding-right:20px;--awb-padding-bottom:20px;--awb-padding-left:20px;--awb-overflow:hidden;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-top:1px;--awb-border-right:1px;--awb-border-bottom:1px;--awb-border-left:1px;--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/\/es\/&\/#47;&#x2f;&#109;&#x65;&#100;&#x69;&#117;&#x6d;&#46;&#x63;&#111;&#x6d;\/&#x40;k&#x61;r&#x69;m&#x2e;s&#x69;l&#97;&#x72;&#98;&#x69;?p=c15b26c2bf99\" rel=\"noopener noreferrer\" target=\"_blank\"><span class=\"fusion-column-inner-bg-image\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-row fusion-flex-align-items-center\"><div class=\"fusion-text fusion-text-3\"><p><u>Lea nuestro art\u00edculo sobre<\/u><\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-1 hover-type-none\"><img decoding=\"async\" width=\"72\" height=\"41\" title=\"medio\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%2772%27%20height%3D%2741%27%20viewBox%3D%270%200%2072%2041%27%3E%3Crect%20width%3D%2772%27%20height%3D%2741%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/medium.png\" alt class=\"lazyload img-responsive wp-image-60927\"\/><\/span><\/div><div class=\"fusion-text fusion-text-4\"><p>.<\/p>\n<\/div><\/div><\/div><\/div><\/div><article class=\"fusion-fullwidth fullwidth-box fusion-builder-row-4 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-3 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-3 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Introducci\u00f3n<\/h2><\/div><div class=\"fusion-text fusion-text-5\"><p>El uso del aprendizaje autom\u00e1tico como medio para la toma de decisiones se ha convertido ya en omnipresente. Muchas de las salidas de los servicios que utilizamos a diario son el resultado de una decisi\u00f3n tomada por el aprendizaje autom\u00e1tico. Como consecuencia, estamos asistiendo a una reducci\u00f3n gradual de la intervenci\u00f3n humana en \u00e1reas que afectan a todos los aspectos de nuestra vida cotidiana y en las que cualquier fallo en el juicio del modelo algor\u00edtmico podr\u00eda tener implicaciones adversas. Por lo tanto, es esencial establecer directrices adecuadas para construir soluciones de aprendizaje autom\u00e1tico fiables y responsables, teniendo en cuenta la \u00e9tica como pilar fundamental.<\/p>\n<\/div><div class=\"fusion-text fusion-text-6\"><p>En los \u00faltimos a\u00f1os, la \u00e9tica en el aprendizaje autom\u00e1tico ha experimentado un aumento significativo en la investigaci\u00f3n acad\u00e9mica, con importantes conferencias como\u00a0<a class=\"ds iu\" href=\"https:\/\/facctconference.org\/index.html\" rel=\"noopener nofollow\" target=\"_blank\">FACCT<\/a>\u00a0y\u00a0<a class=\"ds iu\" href=\"https:\/\/www.aies-conference.com\/2021\/\" rel=\"noopener nofollow\" target=\"_blank\">AIES<\/a>, as\u00ed como en grandes empresas tecnol\u00f3gicas que est\u00e1n formando equipos de r\u00e1pido crecimiento para afrontar los retos \u00e9ticos.<\/p>\n<\/div><div class=\"fusion-text fusion-text-7\"><p>La IA \u00e9tica es un tema amplio que abarca muchos aspectos, como la privacidad, el data governance, el bienestar social y medioambiental, la responsabilidad algor\u00edtmica, etc. En este art\u00edculo nos centraremos principalmente en los siguientes componentes de la \u00e9tica en el aprendizaje autom\u00e1tico:\u00a0<strong>equidad, explicabilidad y trazabilidad<\/strong>. Primero discutiremos lo que est\u00e1 en juego y por qu\u00e9 es obligatorio prestar atenci\u00f3n a la \u00e9tica, despu\u00e9s exploraremos c\u00f3mo enmarcar y desarrollar su proyecto de aprendizaje autom\u00e1tico teniendo la \u00e9tica en mente y c\u00f3mo hacer un seguimiento de la \u00e9tica una vez desplegado en producci\u00f3n.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-4 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Por qu\u00e9 debemos prestar atenci\u00f3n a la \u00e9tica<\/h2><\/div><div class=\"fusion-text fusion-text-8\"><p>Con los algoritmos de aprendizaje autom\u00e1tico y el conjunto de abstracciones e hip\u00f3tesis subyacentes cada vez m\u00e1s complejos, se ha convertido en un reto captar y comprender plenamente todas las posibles consecuencias de todo el sistema.<br \/>\nHa habido varios ejemplos de alto perfil en el mundo real de algoritmos injustos de aprendizaje autom\u00e1tico que han dado lugar a resultados sub\u00f3ptimos y discriminatorios. Entre ellos, el conocido ejemplo de COMPAS. COMPAS era un software comercial ampliamente utilizado que mide el riesgo de que una persona vuelva a cometer otro delito, que se compar\u00f3 con el juicio humano normal en un\u00a0<a class=\"ds iu\" href=\"https:\/\/www.propublica.org\/article\/machine-bias-risk-assessments-in-criminal-sentencing\" rel=\"noopener nofollow\" target=\"_blank\">estudie<\/a>\u00a0y posteriormente se descubri\u00f3 que estaba sesgado en contra de los afroamericanos: El COMPAS ten\u00eda m\u00e1s probabilidades de asignar una puntuaci\u00f3n de riesgo m\u00e1s alta a los delincuentes afroamericanos que a los cauc\u00e1sicos con el mismo perfil.<\/p>\n<\/div><div class=\"fusion-text fusion-text-9\"><p>En el campo de la PNL, se detect\u00f3 biais de g\u00e9nero en las primeras versiones de Google Translate que se abord\u00f3 en 2018 y m\u00e1s recientemente.<\/p>\n<p>En el \u00e1mbito de la atribuci\u00f3n de cr\u00e9ditos, Goldman Sachs estaba siendo investigado por utilizar un algoritmo de IA que supuestamente discriminaba a los women al conceder l\u00edmites de cr\u00e9dito mayores a los hombres que a los women en sus tarjetas Apple.<\/p>\n<p>En el \u00e1mbito de la atenci\u00f3n sanitaria, un algoritmo de predicci\u00f3n de riesgos utilizado en m\u00e1s de 200 millones de personas en EE.UU. demostr\u00f3 un sesgo racial.<\/p>\n<\/div><div class=\"fusion-text fusion-text-10\"><p>Sin un marco claramente definido sobre c\u00f3mo analizar, identificar y mitigar los sesgos, los riesgos de caer en trampas \u00e9ticas pueden ser bastante elevados. Por ello, cada vez es m\u00e1s importante establecer unas directrices adecuadas para construir modelos que produzcan resultados que sean apropiados y justos, sobre todo en los \u00e1mbitos en los que intervienen personas. Construir una IA digna de confianza hace que los usuarios finales se sientan seguros cuando la utilizan, y permite a las empresas ejercer un mayor control sobre su uso con el fin de aumentar la eficacia y evitar al mismo tiempo cualquier perjuicio.\u00a0<strong>Para que su IA sea digna de confianza, en realidad tiene que empezar a pensar en la \u00e9tica incluso antes de procesar data y desarrollar algoritmos.<\/strong><\/p>\n<\/div><div class=\"fusion-title title fusion-title-5 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">C\u00f3mo pensar en la \u00e9tica incluso antes de que comience su proyecto<\/h2><\/div><div class=\"fusion-text fusion-text-11\"><p><strong>La \u00e9tica debe tenerse en cuenta desde el principio de un nuevo proyecto, sobre todo en la fase de planteamiento del problema. Debe tener en mente a los usuarios finales a los que se dirige, as\u00ed como el objetivo de la soluci\u00f3n propuesta, para establecer el marco de an\u00e1lisis y gesti\u00f3n de riesgos adecuado para identificar los da\u00f1os directos o indirectos que puede inducir la soluci\u00f3n.<\/strong>\u00a0Deber\u00eda preguntarse, en estas condiciones, \u00bfpodr\u00eda mi soluci\u00f3n conducir a decisiones que podr\u00edan estar sesgadas hacia un subgrupo concreto de usuarios finales?<\/p>\n<\/div><div class=\"fusion-text fusion-text-12\"><p>Por lo tanto, es fundamental crear indicadores clave de rendimiento para realizar un seguimiento de los m\u00e9todos que llevan a cabo la eficacia de su estrategia de gesti\u00f3n de riesgos. Un marco s\u00f3lido tambi\u00e9n podr\u00eda incorporar, cuando sea posible, un mecanismo \u00e9tico de reducci\u00f3n de riesgos.<br \/>\nCuando se trata de un tema delicado que tiene un alto potencial de riesgo, es necesario ampliar el tiempo asignado a la fase de exploraci\u00f3n y construcci\u00f3n para inyectar un an\u00e1lisis de evaluaci\u00f3n \u00e9tica exhaustivo y\u00a0<strong>mitigaci\u00f3n de sesgos<\/strong>\u00a0estrategias.<\/p>\n<\/div><div class=\"fusion-text fusion-text-13\"><p>Tambi\u00e9n debe establecer mecanismos que faciliten al sistema de IA\u00a0<strong>auditabilidad<\/strong>\u00a0y\u00a0<strong> reproducibilidad <\/strong>. Una traza l\u00f3gica debe estar disponible para su inspecci\u00f3n, de modo que cualquier problema pueda ser revisado o investigado m\u00e1s a fondo. Esto se consigue imponiendo un buen nivel de\u00a0<strong>trazabilidad<\/strong>\u00a0mediante la documentaci\u00f3n, el registro, el seguimiento y el control de versiones.<\/p>\n<p>Cada fuente de data y cada transformaci\u00f3n de data tambi\u00e9n deben documentarse para que las decisiones tomadas para procesar el data sean transparentes y trazables. Esto permite localizar los pasos que pueden haber inyectado o reforzado un sesgo.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-6 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">C\u00f3mo incluir la \u00e9tica en el desarrollo de su proyecto data<\/h2><\/div><div class=\"fusion-text fusion-text-14\"><p>Para incluir la \u00e9tica en el desarrollo de su proyecto data, es importante incluir al menos tres componentes: imparcialidad, explicabilidad y trazabilidad.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-7 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Equidad<\/h3><\/div><div class=\"fusion-text fusion-text-15\"><p>El primer paso en la mayor\u00eda de los proyectos de aprendizaje autom\u00e1tico suele ser la recopilaci\u00f3n de data. Tanto si se lleva a cabo el proceso de recopilaci\u00f3n de data como si se utiliza un dataset existente, es crucial conocer c\u00f3mo se realiz\u00f3 la recopilaci\u00f3n. Por lo general, no es factible incluir a toda la poblaci\u00f3n objetivo, por lo que las caracter\u00edsticas y las etiquetas podr\u00edan muestrearse a partir de un subconjunto, filtrarse seg\u00fan alg\u00fan criterio o agregarse. Todos estos pasos pueden introducir sesgos estad\u00edsticos que pueden tener consecuencias \u00e9ticas.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-8 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Sesgo de representaci\u00f3n<\/h3><\/div><div class=\"fusion-text fusion-text-16\"><p>surge de la forma en que definimos y muestreamos una poblaci\u00f3n. Por ejemplo, la falta de diversidad geogr\u00e1fica en datasets como ImageNet ha demostrado un sesgo hacia los pa\u00edses occidentales. Como consecuencia de\u00a0<strong>sesgo de muestreo<\/strong>, las tendencias estimadas para una poblaci\u00f3n pueden no generalizarse al data recogido de una nueva poblaci\u00f3n.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-2 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"594\" title=\"Art\u00edculo-Incluyendo-\u00e9tica\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg\" alt class=\"lazyload img-responsive wp-image-61822\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27594%27%20viewBox%3D%270%200%20700%20594%27%3E%3Crect%20width%3D%27700%27%20height%3D%27594%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-200x170.jpeg 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-400x339.jpeg 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-600x509.jpeg 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-17\"><p>De ah\u00ed la necesidad de definir protocolos adecuados de recogida de data y de analizar la diversidad de los data recibidos e informar al equipo de las lagunas o riesgos detectados. Es necesario recoger el data de la forma m\u00e1s objetiva posible. Por ejemplo, asegur\u00e1ndose, mediante alg\u00fan an\u00e1lisis estad\u00edstico, de que la muestra es representativa de la poblaci\u00f3n o grupo que est\u00e1 estudiando y, en la medida de lo posible, combinando aportaciones de m\u00faltiples fuentes para garantizar la diversidad de data.<br \/>\nEs obligatorio documentar los hallazgos y todo el proceso de recogida de data.<\/p>\n<\/div><div class=\"fusion-text fusion-text-18\"><p>De hecho, hay muchas fuentes posibles de sesgo que pueden existir de muchas formas, algunas de las cuales pueden dar lugar a injusticias en diferentes tareas de aprendizaje descendente.<br \/>\nDado que el n\u00facleo de los algoritmos de aprendizaje autom\u00e1tico supervisado es el data de entrenamiento, los modelos pueden aprender su comportamiento a partir de data que pueden sufrir la inclusi\u00f3n de sesgos hist\u00f3ricos o estad\u00edsticos no intencionados.\u00a0<strong>Sesgo hist\u00f3rico<\/strong>\u00a0pueden filtrarse en el proceso de generaci\u00f3n de data incluso con un muestreo y una selecci\u00f3n de caracter\u00edsticas perfectos. La persistencia de estos sesgos podr\u00eda dar lugar a una discriminaci\u00f3n involuntaria contra determinados grupos o individuos, lo que puede exacerbar los prejuicios y la marginaci\u00f3n.<\/p>\n<\/div><div class=\"fusion-text fusion-text-19\"><p>No todas las fuentes de sesgo tienen su origen en el data, el proceso completo de aprendizaje autom\u00e1tico implica una serie de elecciones y pr\u00e1cticas a lo largo del camino, desde el preprocesamiento del data hasta el despliegue del modelo.<br \/>\nNo es sencillo identificar desde el principio si pueden surgir problemas y c\u00f3mo. Se necesita un an\u00e1lisis exhaustivo para detectar los problemas que puedan surgir. Dependiendo del caso de uso, del tipo de data y del objetivo de la tarea, se aplicar\u00e1n diferentes m\u00e9todos.<br \/>\nEn esta secci\u00f3n, exploraremos algunas t\u00e9cnicas para identificar y mitigar el sesgo \u00e9tico a trav\u00e9s de un caso de uso ilustrativo. Primero plantearemos el problema, despu\u00e9s veremos c\u00f3mo medir el sesgo y, por \u00faltimo, utilizaremos algunas t\u00e9cnicas para mitigar el sesgo durante el preprocesamiento, el procesamiento y el postprocesamiento.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-9 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Planteamiento del problema<\/h4><\/div><div class=\"fusion-text fusion-text-20\"><p>Digamos que est\u00e1 construyendo un algoritmo de puntuaci\u00f3n en el sector bancario para automatizar la targeting de los clientes que se beneficiar\u00e1n o no de un acuerdo premium. Le dan un conjunto hist\u00f3rico data que contiene muchas caracter\u00edsticas sobre su data significativa acerca de sus clientes, as\u00ed como el objetivo binario \u201celegible para un acuerdo premium\u201d. Los elementos de PII (informaci\u00f3n personal identificable) han sido previamente eliminados del dataset por lo que no habr\u00e1 ning\u00fan problema de privacidad en juego (a este respecto, el servicio de prevenci\u00f3n de p\u00e9rdidas cloud de google es una gran herramienta para realizar la tarea de desidentificaci\u00f3n de su data sensible).<br \/>\nEste caso de uso puede parecer algo ficticio, pero el problema se acerca a un caso de uso real que tratamos en el pasado en otro sector.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-10 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Medici\u00f3n del sesgo<\/h4><\/div><div class=\"fusion-text fusion-text-21\"><p>El primer paso del an\u00e1lisis consiste en explorar el data para identificar las caracter\u00edsticas sensibles, el valor privilegiado y la etiqueta favorable.<\/p>\n<p><strong>Caracter\u00edsticas sensibles\u00a0<\/strong>(o a veces llamado\u00a0<strong>atributos protegidos<\/strong>) son caracter\u00edsticas que dividen a una poblaci\u00f3n en grupos que deber\u00edan tener paridad en cuanto a las prestaciones recibidas. Estas caracter\u00edsticas pueden tener un potencial discriminatorio hacia determinados subgrupos. Por ejemplo: el sexo, el g\u00e9nero, la edad, la situaci\u00f3n familiar, la clasificaci\u00f3n socioecon\u00f3mica, el estado civil, etc. y cualquier proxy data derivado de ellos (por ejemplo, la ubicaci\u00f3n geogr\u00e1fica o los importes de las facturas pueden actuar como proxies de la clasificaci\u00f3n socioecon\u00f3mica, ya que se ha observado en algunas situaciones que pueden estar fuertemente correlacionados) son caracter\u00edsticas sensibles.<\/p>\n<p>A<strong> valor privilegiado<\/strong>\u00a0de un rasgo sensible denota un grupo que ha tenido, hist\u00f3ricamente, una ventaja sistem\u00e1tica.<\/p>\n<\/div><div class=\"fusion-text fusion-text-22\"><p>A <strong>etiqueta favorable<\/strong>\u00a0es una etiqueta cuyo valor proporciona un resultado positivo que beneficia al receptor.Durante la fase de preparaci\u00f3n de la data, pasos como la divisi\u00f3n de la data, el submuestreo o el sobremuestreo, el tratamiento de los valores perdidos y los valores at\u00edpicos podr\u00edan introducir sesgos si no se llevan a cabo con cuidado. Las proporciones de valores perdidos o valores at\u00edpicos en los subgrupos sobre caracter\u00edsticas sensibles pueden ser un primer paso para identificar el sesgo. Algunas estrategias de imputaci\u00f3n pueden introducir sesgos estad\u00edsticos, por ejemplo, imputar los valores perdidos de la caracter\u00edstica edad del cliente por su mediana.<\/p>\n<p>En nuestro ejemplo de puntuaci\u00f3n, dibujamos el gr\u00e1fico de c\u00f3mo se distribuye la formaci\u00f3n data entre g\u00e9neros con respecto al objetivo \u201celegible para un acuerdo premium\u201d :<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-3 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"324\" title=\"karim-si-larbi-blog\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png\" alt class=\"lazyload img-responsive wp-image-61823\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27324%27%20viewBox%3D%270%200%20700%20324%27%3E%3Crect%20width%3D%27700%27%20height%3D%27324%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-200x93.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-400x185.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-600x278.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-23\"><p>Podemos ver que la distribuci\u00f3n del objetivo est\u00e1 desequilibrada a favor del g\u00e9nero\u00a0<em>Hombre<\/em>. Partamos de la hip\u00f3tesis de que el valor de privilegio es\u00a0<em>Hombre<\/em>\u00a0donde\u00a0<em>g\u00e9nero<\/em> es una caracter\u00edstica sensible y la etiqueta favorable es \u201celegible para un trato preferente\u201d. Adem\u00e1s, esto podr\u00eda corresponder a un sesgo de representaci\u00f3n en el data. De hecho, en un caso en el que se respete la equidad, se podr\u00eda asegurar que las distribuciones en el data est\u00e1n totalmente equilibradas o corresponden a las distribuciones en el data demogr\u00e1fico.<\/p>\n<p>Llegados a este punto, podr\u00eda tener la tentaci\u00f3n de descartar simplemente los rasgos sensibles de su dataset, pero se ha demostrado que eliminar los atributos sensibles no es necesariamente suficiente para que su modelo sea justo. El modelo podr\u00eda utilizar otros rasgos que se correlacionen con el rasgo sensible eliminado, reproduciendo sesgos hist\u00f3ricos. Por poner un ejemplo, una caracter\u00edstica A podr\u00eda estar fuertemente correlacionada con la edad de un cliente, de modo que si el data tiene un sesgo hacia una determinada franja de edad (el sesgo hist\u00f3rico podr\u00eda dar lugar a discriminaci\u00f3n por motivos de edad en la contrataci\u00f3n, promoci\u00f3n, etc.) este sesgo se codificar\u00e1 en la caracter\u00edstica A y eliminar la edad de un cliente no aliviar\u00e1 el problema. Si mantiene la caracter\u00edstica sensible en su data, cuando sea necesario, podr\u00e1 tener un mayor control sobre las mediciones y la mitigaci\u00f3n del sesgo y la imparcialidad.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-11 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">M\u00e9tricas de sesgo<\/h4><\/div><div class=\"fusion-text fusion-text-24\"><p>Existe una gran variedad de definiciones de equidad y de m\u00e9tricas de equidad. Podemos dividir la equidad en\u00a0<strong>equidad individual<\/strong>\u00a0y\u00a0<strong>equidad de grupo<\/strong>. La equidad individual da predicciones similares a individuos similares mientras que la equidad de grupo trata por igual a grupos diferentes.<\/p>\n<p>Para lograr la equidad de grupo, queremos que la probabilidad de un resultado positivo sea la misma independientemente de si la persona est\u00e1 en el protegido (por ejemplo,\u00a0<em>mujer<\/em>) grupo o no.<br \/>\nUna m\u00e9trica de grupo sencilla consiste en comparar el porcentaje de resultados favorables para los grupos privilegiados y no privilegiados (en nuestro ejemplo el g\u00e9nero\u00a0<em>Hombre<\/em>\u00a0que son \u201celegibles para un acuerdo premium\u201d en comparaci\u00f3n con el g\u00e9nero\u00a0<em>Mujer<\/em>\u00a0que son \u201celegibles para un acuerdo premium\u201d). Puede calcular esta comparaci\u00f3n como una diferencia entre los dos porcentajes, lo que lleva a la\u00a0<strong>diferencia de paridad estad\u00edstica<\/strong>\u00a0m\u00e9trica (tambi\u00e9n llamada\u00a0<strong>paridad demogr\u00e1fica<\/strong>):<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-4 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"17\" title=\"c\u00f3digo-blog-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png\" alt class=\"lazyload img-responsive wp-image-61828\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%2717%27%20viewBox%3D%270%200%20700%2017%27%3E%3Crect%20width%3D%27700%27%20height%3D%2717%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-200x5.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-400x10.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-600x15.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-25\"><p>Para que no haya diferencias en los resultados favorables entre los grupos privilegiados y no privilegiados, la diferencia de paridad estad\u00edstica debe ser igual a 0.<br \/>\nSobre el tema de la m\u00e9trica de la equidad individual existe la\u00a0<strong>coherencia<\/strong>\u00a0que mide el grado de similitud de las etiquetas de individuos similares mediante un algoritmo de vecino m\u00e1s pr\u00f3ximo:<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-5 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"75\" title=\"blog-karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png\" alt class=\"lazyload img-responsive wp-image-61829\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%2775%27%20viewBox%3D%270%200%20700%2075%27%3E%3Crect%20width%3D%27700%27%20height%3D%2775%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-200x21.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-400x43.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-600x64.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-26\"><p>No nos centraremos en este tema pero el lector interesado podr\u00eda consultar esto\u00a0<a class=\"ds iu\" href=\"http:\/\/proceedings.mlr.press\/v28\/zemel13.pdf\" rel=\"noopener nofollow\" target=\"_blank\">art\u00edculo<\/a>.<br \/>\nPuede utilizar la pr\u00e1ctica biblioteca\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/Trusted-AI\/AIF360\" rel=\"noopener nofollow\" target=\"_blank\">AIF360<\/a>\u00a0que le permite calcular muchas m\u00e9tricas de equidad.<br \/>\nTodo lo que tiene que hacer es envolver su dataframe en el\u00a0<em>Est\u00e1ndar1TP42Conjunto<\/em>. AIF360 utiliza un\u00a0<em>Est\u00e1ndar1TP42Conjunto<\/em>\u00a0que envuelve un Pandas DataFrame con muchos atributos y m\u00e9todos espec\u00edficos para procesar y medir los sesgos \u00e9ticos. A continuaci\u00f3n, puede utilizarlo como entrada para el\u00a0<em>BinaryLabelDatasetMetric<\/em> que calcular\u00e1 un conjunto de m\u00e9tricas \u00fatiles.<\/p>\n<\/div><div class=\"fusion-text fusion-text-27\"><div class=\"code\">\n<table class=\"highlight tab-size js-file-line-container\" data-tab-size=\"8\" data-paste-markdown-skip=\"\">\n<tbody>\n<tr>\n<td id=\"file-gist_for_medium_article-py-LC1\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">params_aif<\/span> <span class=\"pl-c1\">=<\/span> <\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L7\" class=\"blob-num js-line-number\" data-line-number=\"7\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC7\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L8\" class=\"blob-num js-line-number\" data-line-number=\"8\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC8\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-c\"># Crear aif360 Est\u00e1ndarDatasets<\/span><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L9\" class=\"blob-num js-line-number\" data-line-number=\"9\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC9\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">train_standard_dataset<\/span> <span class=\"pl-c1\">=<\/span> <span class=\"pl-v\">Est\u00e1ndar1TP42Conjunto<\/span>(<span class=\"pl-s1\">df<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">train_dataframe<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L10\" class=\"blob-num js-line-number\" data-line-number=\"10\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC10\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-c1\">**<\/span><span class=\"pl-s1\">params_aif<\/span>)<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L11\" class=\"blob-num js-line-number\" data-line-number=\"11\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC11\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L12\" class=\"blob-num js-line-number\" data-line-number=\"12\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC12\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">grupos_privilegiados<\/span> <span class=\"pl-c1\">=<\/span> []<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L13\" class=\"blob-num js-line-number\" data-line-number=\"13\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC13\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">grupos_no_privilegiados<\/span> <span class=\"pl-c1\">=<\/span> []<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L14\" class=\"blob-num js-line-number\" data-line-number=\"14\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC14\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L15\" class=\"blob-num js-line-number\" data-line-number=\"15\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC15\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">train_bldm<\/span> <span class=\"pl-c1\">=<\/span> <span class=\"pl-v\">BinaryLabelDatasetMetric<\/span>(<span class=\"pl-s1\">train_standard_dataset<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L16\" class=\"blob-num js-line-number\" data-line-number=\"16\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC16\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">grupos_no_privilegiados<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">grupos_no_privilegiados<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L17\" class=\"blob-num js-line-number\" data-line-number=\"17\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC17\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">grupos_privilegiados<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">grupos_privilegiados<\/span>)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div><div class=\"fusion-text fusion-text-28\"><p>Una vez medido en el entrenamiento de nuestro ejemplo de puntuaci\u00f3n data, observamos una diferencia de paridad estad\u00edstica media de -0,21 que indica que el grupo privilegiado\u00a0<em>Hombre<\/em>\u00a0tuvo 21% resultados m\u00e1s positivos en el conjunto de entrenamiento data.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-12 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Mitigaci\u00f3n de sesgos<\/h4><\/div><div class=\"fusion-text fusion-text-29\"><p>Los m\u00e9todos que se centran en los sesgos algor\u00edtmicos suelen dividirse en tres categor\u00edas:<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-1 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>Preprocesamiento.<\/strong> Las t\u00e9cnicas de preprocesamiento act\u00faan sobre el data de entrenamiento e intentan transformarlo para eliminar la discriminaci\u00f3n subyacente.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>En proceso.<\/strong> Las t\u00e9cnicas de procesamiento interno act\u00faan sobre los algoritmos de aprendizaje para eliminar la discriminaci\u00f3n durante el proceso de entrenamiento del modelo, ya sea incorporando cambios en la funci\u00f3n objetivo o imponiendo una restricci\u00f3n.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\"><strong>Post-procesamiento<\/strong>. T\u00e9cnicas de postprocesamiento que toman un modelo ya entrenado y transforman sus predicciones para que satisfagan las restricciones impl\u00edcitas en la m\u00e9trica de equidad seleccionada. Es especialmente \u00fatil en el caso de que el algoritmo s\u00f3lo pueda tratar el modelo aprendido como una caja negra sin ninguna capacidad de modificar el data de entrenamiento o el algoritmo de aprendizaje.<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-30\"><p>Utilizamos una t\u00e9cnica de preprocesamiento en el data de entrenamiento para optimizar la diferencia de paridad estad\u00edstica. Aplicamos la\u00a0<em>Nuevo pesaje<\/em>\u00a0algoritmo (m\u00e1s detalles en este\u00a0<a class=\"ds iu\" href=\"https:\/\/core.ac.uk\/download\/pdf\/81728147.pdf\" rel=\"noopener nofollow\" target=\"_blank\">art\u00edculo<\/a><a class=\"ds iu\" href=\"https:\/\/core.ac.uk\/download\/pdf\/81728147.pdf)\" rel=\"noopener nofollow\" target=\"_blank\">)<\/a>\u00a0que se implementa en AIF360 con el fin de ponderar los ejemplos de forma diferente en cada combinaci\u00f3n (grupo, etiqueta) para garantizar la equidad antes de la clasificaci\u00f3n.<\/p>\n<\/div><div class=\"fusion-text fusion-text-31\"><div class=\"code\">\n<table class=\"highlight tab-size js-file-line-container\" data-tab-size=\"8\" data-paste-markdown-skip=\"\">\n<tbody>\n<tr>\n<td id=\"file-gist_for_medium_article-py-LC1\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L2\" class=\"blob-num js-line-number\" data-line-number=\"2\">\n<pre>RW = Reweighing(unprivileged_groups=grupos_no_privilegiados,\n                grupos_privilegiados=grupos_privilegiados)\n\nreweighted_train = RW.fit_transform(train_standard_dataset)<\/pre>\n<\/td>\n<td id=\"file-gist_for_medium_article-py-LC2\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div><div class=\"fusion-text fusion-text-32\"><p>El atributo de pesos de la instancia se ha modificado para reequilibrar el rasgo sensible con respecto al objetivo. Al hacerlo, el\u00a0<em>Nuevo pesaje<\/em>\u00a0El algoritmo mitig\u00f3 el sesgo de grupo en el data de entrenamiento: una nueva medida de la diferencia de paridad estad\u00edstica se reequilibra completamente de -0,21 a 0.<\/p>\n<p>Existen otros algoritmos de mitigaci\u00f3n de sesgos de preprocesamiento implementados en AIF360, como el\u00a0<em>DisparateImpactRemover<\/em>\u00a0que es una t\u00e9cnica que edita los valores de las caracter\u00edsticas para aumentar la equidad de los grupos, preservando al mismo tiempo el orden de clasificaci\u00f3n dentro de los mismos (m\u00e1s informaci\u00f3n en\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1412.3756\" rel=\"noopener nofollow\" target=\"_blank\">art\u00edculo<\/a>) o\u00a0<em>LFR<\/em>\u00a0(Aprendizaje de la representaci\u00f3n justa) que es una t\u00e9cnica de preprocesamiento que encuentra una representaci\u00f3n latente que codifica el data pero oscurece la informaci\u00f3n sobre los atributos protegidos (m\u00e1s informaci\u00f3n en el siguiente\u00a0<a class=\"ds iu\" href=\"http:\/\/www.cs.toronto.edu\/~toni\/Papers\/icml-final.pdf\" rel=\"noopener nofollow\" target=\"_blank\">art\u00edculo<\/a>).<\/p>\n<p>A continuaci\u00f3n, entrenamos dos modelos clasificadores, uno sobre el data de entrenamiento original y otro sobre el data repesado. Observamos que la reponderaci\u00f3n s\u00f3lo tuvo un impacto d\u00e9bil en el rendimiento, perdiendo 1% de\u00a0<a class=\"ds iu\" href=\"https:\/\/en.wikipedia.org\/wiki\/F-score\" rel=\"noopener nofollow\" target=\"_blank\">Puntuaci\u00f3n F1<\/a>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-33\"><p>Tambi\u00e9n probamos un algoritmo de procesamiento interno en nuestro caso de uso de ejemplo:\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1801.07593\" rel=\"noopener nofollow\" target=\"_blank\"><em>debiasing adversarial<\/em><\/a>\u00a0que mejor\u00f3 significativamente las m\u00e9tricas de sesgo de grupo (la diferencia de paridad estad\u00edstica se dividi\u00f3 por 2) con un escaso deterioro del rendimiento del modelo (alrededor de 1% en la puntuaci\u00f3n F1).<\/p>\n<p>Por tanto, puede haber un compromiso entre las m\u00e9tricas de rendimiento y de sesgo. Aqu\u00ed el deterioro es bastante peque\u00f1o pero en algunas situaciones el compromiso podr\u00eda ser m\u00e1s agudo. Esta informaci\u00f3n debe ponerse en conocimiento del equipo y de las partes interesadas adecuadas, que podr\u00e1n tomar decisiones sobre c\u00f3mo abordar esta cuesti\u00f3n.<\/p>\n<p>Ahora que tenemos modelos entrenados podemos explorar sus predicciones e investigar si hay desequilibrios hacia el resultado favorable entre g\u00e9neros. Existen muchas herramientas como\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/PAIR-code\/what-if-tool\" rel=\"noopener nofollow\" target=\"_blank\">Herramienta Y si...<\/a>\u00a0o\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/dssg\/aequitas\" rel=\"noopener nofollow\" target=\"_blank\">Aequitas<\/a>\u00a0que le permiten sondear el comportamiento de los modelos de aprendizaje autom\u00e1tico entrenados e investigar el rendimiento del modelo y la equidad entre subgrupos.<\/p>\n<p>A modo de ilustraci\u00f3n, puede utilizar Aequitas para generar tablas cruzadas y visualizaciones que presenten diversas m\u00e9tricas de sesgo y rendimiento distribuidas entre los subgrupos. Por ejemplo, podemos comparar r\u00e1pidamente las tasas de verdaderos positivos de los clasificadores que se entrenaron con el data original y con el data reponderado. Vemos que esta tasa se ha equilibrado y, por lo tanto, permite una mayor equidad de g\u00e9nero hacia el resultado favorable del modelo de ser elegible para un acuerdo premium.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-6 hover-type-none\"><img decoding=\"async\" width=\"1000\" height=\"381\" title=\"blog-2-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png\" alt class=\"lazyload img-responsive wp-image-61834\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%271000%27%20height%3D%27381%27%20viewBox%3D%270%200%201000%20381%27%3E%3Crect%20width%3D%271000%27%20height%3D%27381%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-200x76.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-400x152.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-600x229.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-800x305.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png 1000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 1000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-34\"><p>Como t\u00e9cnica de posprocesamiento interactuamos con el umbral de clasificaci\u00f3n. Un modelo de clasificaci\u00f3n suele proporcionarnos las probabilidades asociadas a la realizaci\u00f3n de cada clase como predicci\u00f3n. Esta probabilidad puede utilizarse tal cual o convertirse en un valor binario.<br \/>\nPara identificar la clase correspondiente a las probabilidades obtenidas, hay que definir un umbral de clasificaci\u00f3n (tambi\u00e9n llamado umbral de decisi\u00f3n). Cualquier valor por encima de este umbral corresponder\u00e1 a la categor\u00eda positiva \u201ctiene derecho a un trato preferente\u201d y viceversa para los valores por debajo de este umbral.<br \/>\nTrazando la m\u00e9trica del rendimiento y la m\u00e9trica del sesgo (aqu\u00ed 1 - impacto dispar) a trav\u00e9s de todos los umbrales de clasificaci\u00f3n, podemos definir el umbral \u00f3ptimo. Esto nos ayuda a elegir el umbral adecuado para maximizar el rendimiento y minimizar el sesgo.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-7 hover-type-none\"><img decoding=\"async\" width=\"1000\" height=\"364\" title=\"blog-4-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png\" alt class=\"lazyload img-responsive wp-image-61835\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%271000%27%20height%3D%27364%27%20viewBox%3D%270%200%201000%20364%27%3E%3Crect%20width%3D%271000%27%20height%3D%27364%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-200x73.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-400x146.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-600x218.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-800x291.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png 1000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 1000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-35\"><p>En la figura de la izquierda vemos que si empujamos el umbral hacia la izquierda, bajando as\u00ed un poco el rendimiento, podemos mejorar en la m\u00e9trica del sesgo.<br \/>\nTambi\u00e9n, como era de esperar, observamos una clara mejora de las m\u00e9tricas de sesgo de grupo en el modelo reponderado (figura de la derecha), que podr\u00eda mejorarse a\u00fan m\u00e1s eligiendo otro umbral de clasificaci\u00f3n, pero a expensas del rendimiento.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-13 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Explicabilidad<\/h3><\/div><div class=\"fusion-text fusion-text-36\"><p>Otro pilar fundamental para construir modelos de aprendizaje autom\u00e1tico fiables es la explicabilidad. La explicabilidad es la capacidad de explicar tanto los procesos t\u00e9cnicos del sistema de IA como el razonamiento que subyace a las decisiones o predicciones que realiza el sistema de IA, pudiendo cuantificar as\u00ed la influencia de cada caracter\u00edstica\/atributo en las predicciones. Utilizar en la medida de lo posible modelos f\u00e1cilmente interpretables en lugar de modelos de caja negra es una buena pr\u00e1ctica.<\/p>\n<p>Existen muchos m\u00e9todos para obtener la explicabilidad de los modelos. Estos m\u00e9todos pueden agruparse en 2 categor\u00edas:<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-2 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\"><strong>Explicabilidad intr\u00ednseca\u00a0<\/strong>donde el propio modelo da la importancia de la caracter\u00edstica o los pesos de la caracter\u00edstica.<\/p>\n<p><strong>Explicabilidad post hoc<\/strong>\u00a0donde los peque\u00f1os cambios de entrada se aprovechan para inferir la importancia de las caracter\u00edsticas.<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>En proceso.<\/strong> Las t\u00e9cnicas de procesamiento interno act\u00faan sobre los algoritmos de aprendizaje para eliminar la discriminaci\u00f3n durante el proceso de entrenamiento del modelo, ya sea incorporando cambios en la funci\u00f3n objetivo o imponiendo una restricci\u00f3n.<\/p>\n<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-37\"><p>Aqu\u00ed aplicaremos un famoso m\u00e9todo post-hoc, a saber SHAP (SHapley Additive exPlanations), para m\u00e1s informaci\u00f3n recomendamos explorar\u00a0<a class=\"ds iu\" href=\"https:\/\/christophm.github.io\/interpretable-ml-book\/shap.html\" rel=\"noopener nofollow\" target=\"_blank\">este recurso muy completo sobre el tema<\/a>.\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/slundberg\/shap\" rel=\"noopener nofollow\" target=\"_blank\">Shap<\/a>\u00a0es una biblioteca que implementa un enfoque te\u00f3rico de juegos para explicar la salida de cualquier modelo de aprendizaje autom\u00e1tico.<br \/>\nObservemos el impacto del algoritmo Reweighing en la explicabilidad del modelo:<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-8 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"508\" title=\"blog-5-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg\" alt class=\"lazyload img-responsive wp-image-61836\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27508%27%20viewBox%3D%270%200%20700%20508%27%3E%3Crect%20width%3D%27700%27%20height%3D%27508%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-200x145.jpeg 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-400x290.jpeg 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-600x435.jpeg 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-38\"><p>Recordatorio r\u00e1pido sobre c\u00f3mo leer Shap's\u00a0<em>Calentador de abejas<\/em>\u00a0parcelas:<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-3 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>Las caracter\u00edsticas se ordenan de arriba a abajo, de la m\u00e1s importante a la menos importante.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>El color corresponde a la amplitud de los valores del rasgo. Cuanto m\u00e1s rojo sea el color, menor ser\u00e1 el valor y viceversa para el azul.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>El eje horizontal corresponde a la direcci\u00f3n de influencia de la caracter\u00edstica en la predicci\u00f3n del objetivo. Por ejemplo, en nuestro ejemplo de puntuaci\u00f3n, los valores negativos tendr\u00e1n el impacto de influir en la predicci\u00f3n hacia la clase \u201cno apto para un acuerdo premium\u201d y viceversa para los valores positivos.<\/p>\n<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-39\"><p>A la izquierda, tenemos la explicabilidad del modelo original donde observamos que en este caso la variable de g\u00e9nero tiene un poder predictivo muy fuerte y que el g\u00e9nero\u00a0<em>Mujer<\/em>\u00a0tiene un impacto que influye en la decisi\u00f3n hacia el objetivo \u201cno elegible para un acuerdo premium\u201d con una gran brecha con respecto al g\u00e9nero\u00a0<em>Hombre<\/em>.<\/p>\n<p>Podemos ver en el gr\u00e1fico de la derecha, en este caso en el que el modelo se entren\u00f3 con el data reponderado, que la importancia del rasgo de g\u00e9nero ha disminuido fuertemente. Ahora forma parte de los rasgos menos importantes. Adem\u00e1s, la influencia de la clase femenina frente a la masculina en la predicci\u00f3n del objetivo est\u00e1 mucho m\u00e1s equilibrada (los colores se acercan a 0 en el valor de Shapley).<\/p>\n<\/div><div class=\"fusion-title title fusion-title-14 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Trazabilidad<\/h3><\/div><div class=\"fusion-text fusion-text-40\"><p>Otro aspecto esencial en el proceso de creaci\u00f3n de algoritmos de aprendizaje autom\u00e1tico fiables es la trazabilidad de los resultados y la buena reproducibilidad de los experimentos. Esto facilita la identificaci\u00f3n de la versi\u00f3n de un modelo que se ha puesto en producci\u00f3n, de modo que pueda auditarse si su comportamiento causa da\u00f1os y deja de ajustarse a los valores \u00e9ticos de la empresa.<\/p>\n<p>Para ello, hay que poder rastrear y registrar cada versi\u00f3n del modelo y sus data de entrenamiento, hiperpar\u00e1metros y resultados asociados. Varias herramientas pueden llevar a cabo esta tarea:\u00a0<a class=\"ds iu\" href=\"https:\/\/mlflow.org\/docs\/latest\/index.html\" rel=\"noopener nofollow\" target=\"_blank\">Mlflow<\/a>\u00a0es una gran opci\u00f3n que le permite generar r\u00e1pidamente una interfaz web que centralice todas las ejecuciones, al tiempo que guarda sus artefactos en el almacenamiento de su elecci\u00f3n. Cada versi\u00f3n del experimento puede ser rastreada con el hash del commit asociado. Cada una de estas versiones contendr\u00e1 todos los elementos registrados por MLflow.<\/p>\n<p>Aqu\u00ed tiene una\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/artefactory\/one-click-mlflow\" rel=\"noopener nofollow\" target=\"_blank\">herramienta<\/a>\u00a0que hemos abierto en Artefact y que le permite desplegar un MLflow seguro en un proyecto GCP con un solo comando.<\/p>\n<p>Tambi\u00e9n es una buena pr\u00e1ctica crear un\u00a0<a class=\"ds iu\" href=\"https:\/\/aifs360.mybluemix.net\/introduction\" rel=\"noopener nofollow\" target=\"_blank\">Hoja informativa<\/a>\u00a0para cada modelo, que corresponde a una tarjeta de identidad del modelo que resume varios elementos que trazan los pasos del preprocesamiento, las m\u00e9tricas de rendimiento, las m\u00e9tricas de sesgo, etc.<\/p>\n<p>Estas fichas son entregadas por los cient\u00edficos del data a los equipos operativos de los modelos, lo que les permite determinar si el modelo se adapta a su situaci\u00f3n. Para m\u00e1s detalles sobre la metodolog\u00eda de creaci\u00f3n de una ficha de datos, le recomendamos esto\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/pdf\/2006.13796.pdf\" rel=\"noopener nofollow\" target=\"_blank\">art\u00edculo<\/a>. La FactSheet tambi\u00e9n puede almacenarse, en forma tabular por ejemplo, en MLFlow junto con el modelo asociado.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-15 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">C\u00f3mo hacer un seguimiento \u00e9tico una vez desplegado<\/h2><\/div><div class=\"fusion-text fusion-text-41\"><p>Una vez desplegado su modelo, tiene que asegurarse de que se utiliza para el fin para el que fue pensado, dise\u00f1ado y construido. El sesgo de despliegue se produce cuando hay un desajuste entre el problema que se pretende resolver con un modelo y la forma en que se utiliza realmente. Esto ocurre con frecuencia cuando un sistema se desarrolla y eval\u00faa como si fuera totalmente aut\u00f3nomo, mientras que en realidad forma parte de un complejo sistema sociot\u00e9cnico regido por un gran n\u00famero de responsables de la toma de decisiones.<\/p>\n<p>La data de producci\u00f3n puede derivar con el tiempo, lo que puede provocar una degradaci\u00f3n del rendimiento del algoritmo que podr\u00eda inyectar sesgo. El seguimiento de la calidad del data de producci\u00f3n y de la deriva del data mediante la supervisi\u00f3n de las distribuciones del nuevo data en comparaci\u00f3n con el data utilizado para entrenar los modelos, deber\u00eda ser un paso en la cadena de producci\u00f3n para lanzar las alertas adecuadas cuando sea necesario y definir cu\u00e1ndo es obligatorio el reentrenamiento.<\/p>\n<p>La cadena de producci\u00f3n debe dise\u00f1arse de modo que exista una forma de desactivar el modelo actual o de volver a una versi\u00f3n anterior.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-16 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Conclusi\u00f3n<\/h2><\/div><div class=\"fusion-text fusion-text-42\"><p>En este art\u00edculo hemos presentado algunas buenas pr\u00e1cticas y protocolos para guiarle en la construcci\u00f3n de pipelines de aprendizaje autom\u00e1tico que minimicen el riesgo de caer en trampas \u00e9ticas.<\/p>\n<\/div><div class=\"fusion-text fusion-text-43\"><p>Este art\u00edculo apenas ha ara\u00f1ado la superficie del vasto tema que es la IA \u00e9tica y s\u00f3lo ha tocado una parte de las\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/EthicalML\/awesome-production-machine-learning#explaining-black-box-models-and-datasets\" rel=\"noopener nofollow\" target=\"_blank\">herramientas interesantes<\/a>\u00a0que se est\u00e1n desarrollando y que ya est\u00e1n disponibles.<br \/>\nComo hemos visto, la forma m\u00e1s l\u00f3gica de abordar expl\u00edcitamente los problemas de imparcialidad es declarar una colecci\u00f3n de rasgos seleccionados como potencialmente discriminatorios y luego investigar a trav\u00e9s de este prisma el sesgo \u00e9tico. Esta t\u00e9cnica directa, sin embargo, tiene un fallo y es que la discriminaci\u00f3n puede ser el resultado de una combinaci\u00f3n de caracter\u00edsticas que no son discriminatorias por s\u00ed solas. Adem\u00e1s, en muchos casos no tendr\u00e1 acceso a ning\u00fan rasgo sensible (m\u00e1s sobre este tema\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/pdf\/2011.02282.pdf\" rel=\"noopener nofollow\" target=\"_blank\">aqu\u00ed<\/a>).<br \/>\nLa evaluaci\u00f3n de la equidad es una tarea compleja que depende de la naturaleza del problema. No ser\u00e1 lo mismo abordar un problema de puntuaci\u00f3n basado en data tabulares que\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1906.08976\" rel=\"noopener nofollow\" target=\"_blank\">mitigar el sesgo en el procesamiento del lenguaje natural<\/a>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-44\"><p>\u00a1Esperamos que compartir nuestra perspectiva y metodolog\u00edas le inspire en sus propios proyectos ! Gracias por leernos, no dude en seguir el Artefact tech\u00a0<a class=\"ds iu\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\" rel=\"noopener\" target=\"_blank\">blog<\/a>\u00a0\u00a1si desea que le avisemos cuando publiquemos nuestro pr\u00f3ximo art\u00edculo!<\/p>\n<\/div><\/div><\/div><\/div><\/article><\/p>","protected":false},"excerpt":{"rendered":"<p>27 de julio de 2021<br \/>\nHe aqu\u00ed algunas pautas para construir soluciones de aprendizaje autom\u00e1tico fiables sin caer en trampas \u00e9ticas.<\/p>","protected":false},"featured_media":68681,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[21939],"blog-language":[2991],"class_list":["post-61815","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-medium","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog\/61815","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/media\/68681"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/media?parent=61815"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog-category?post=61815"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/es\/wp-json\/wp\/v2\/blog-language?post=61815"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}