	{"id":61815,"date":"2021-07-27T16:15:44","date_gmt":"2021-07-27T15:15:44","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=news&#038;p=61815"},"modified":"2024-09-20T17:45:46","modified_gmt":"2024-09-20T16:45:46","slug":"including-ethics-best-practices-in-your-data-science-project-from-day-one","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/fr\/blog\/including-ethics-best-practices-in-your-data-science-project-from-day-one\/","title":{"rendered":"Int\u00e9grer les meilleures pratiques en mati\u00e8re d'\u00e9thique dans votre projet scientifique Data d\u00e8s le premier jour"},"content":{"rendered":"<p><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling article-author\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-background-color:#ffffff;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_2 1_2 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:50%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:50%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-1 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Auteur<\/h2><\/div><img decoding=\"async\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27150%27%20height%3D%270%27%20viewBox%3D%270%200%20150%200%27%3E%3Crect%20width%3D%27150%27%20height%3D%270%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/02\/Karim-e1614443653963.png\" alt=\"Image\" class=\"lazyload artefact-elegant-image align-left article-author-image\" style=\"width: 150px; border-radius: 54% 46% 77% 23% \/ 74% 40% 60% 26%; overflow: hidden;\" width=\"150\" height=\"auto\" \/><div class=\"fusion-title title fusion-title-2 fusion-sep-none fusion-title-text fusion-title-size-three article-author-name-title\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Karim Si Larbi<\/h3><\/div><div class=\"fusion-text fusion-text-1 article-author-description\"><p>Scientifique senior Data \u00e0 Artefact<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-2 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-1 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-2 description\"><p>Voici quelques lignes directrices pour \u00e9laborer des solutions d'apprentissage automatique dignes de confiance sans tomber dans des pi\u00e8ges \u00e9thiques.<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-3 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-2 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:20px;--awb-padding-right:20px;--awb-padding-bottom:20px;--awb-padding-left:20px;--awb-overflow:hidden;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-top:1px;--awb-border-right:1px;--awb-border-bottom:1px;--awb-border-left:1px;--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/\/fr\/&\/#x2f;&#47;m&#x65;&#100;i&#x75;&#109;&#46;&#x63;&#111;m&#x2f;&#64;k&#x61;&#x72;i&#x6d;&#x2e;&#115;&#x69;&#x6c;&#97;&#x72;&#x62;&#105;?p=c15b26c2bf99\" rel=\"noopener noreferrer\" target=\"_blank\"><span class=\"fusion-column-inner-bg-image\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-row fusion-flex-align-items-center\"><div class=\"fusion-text fusion-text-3\"><p><u>Lisez notre article sur<\/u><\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-1 hover-type-none\"><img decoding=\"async\" width=\"72\" height=\"41\" title=\"moyen\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%2772%27%20height%3D%2741%27%20viewBox%3D%270%200%2072%2041%27%3E%3Crect%20width%3D%2772%27%20height%3D%2741%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/medium.png\" alt class=\"lazyload img-responsive wp-image-60927\"\/><\/span><\/div><div class=\"fusion-text fusion-text-4\"><p>.<\/p>\n<\/div><\/div><\/div><\/div><\/div><article class=\"fusion-fullwidth fullwidth-box fusion-builder-row-4 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-3 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-3 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Introduction<\/h2><\/div><div class=\"fusion-text fusion-text-5\"><p>L'utilisation de l'apprentissage automatique comme moyen de prise de d\u00e9cision est d\u00e9sormais omnipr\u00e9sente. De nombreux services que nous utilisons tous les jours sont le r\u00e9sultat d'une d\u00e9cision prise par l'apprentissage automatique. En cons\u00e9quence, nous assistons \u00e0 une r\u00e9duction progressive de l'intervention humaine dans des domaines qui touchent \u00e0 tous les aspects de notre vie quotidienne et o\u00f9 toute d\u00e9faillance dans le jugement du mod\u00e8le algorithmique pourrait avoir des cons\u00e9quences n\u00e9fastes. Il est donc essentiel d'\u00e9tablir des lignes directrices appropri\u00e9es pour construire des solutions d'apprentissage automatique dignes de confiance et responsables, en prenant en compte l'\u00e9thique comme pilier central.<\/p>\n<\/div><div class=\"fusion-text fusion-text-6\"><p>Ces derni\u00e8res ann\u00e9es, l'\u00e9thique dans l'apprentissage automatique a connu un essor important dans la recherche universitaire, avec des conf\u00e9rences majeures telles que\u00a0<a class=\"ds iu\" href=\"https:\/\/facctconference.org\/index.html\" rel=\"noopener nofollow\" target=\"_blank\">FACCT<\/a>\u00a0et\u00a0<a class=\"ds iu\" href=\"https:\/\/www.aies-conference.com\/2021\/\" rel=\"noopener nofollow\" target=\"_blank\">AIES<\/a>, ainsi que dans les grandes entreprises technologiques qui mettent en place des \u00e9quipes \u00e0 croissance rapide pour relever les d\u00e9fis \u00e9thiques.<\/p>\n<\/div><div class=\"fusion-text fusion-text-7\"><p>L'IA \u00e9thique est un vaste sujet qui couvre de nombreuses questions telles que la protection de la vie priv\u00e9e, le bien-\u00eatre soci\u00e9tal et environnemental, la responsabilit\u00e9 des algorithmes, etc. Dans cet article, nous nous concentrerons principalement sur les composantes suivantes de l'\u00e9thique dans l'apprentissage automatique :\u00a0<strong>\u00e9quit\u00e9, explicabilit\u00e9 et tra\u00e7abilit\u00e9<\/strong>. Nous verrons d'abord quels sont les enjeux et pourquoi il est imp\u00e9ratif de pr\u00eater attention \u00e0 l'\u00e9thique, puis nous \u00e9tudierons comment encadrer et d\u00e9velopper votre projet d'apprentissage automatique en gardant l'\u00e9thique \u00e0 l'esprit et comment assurer le suivi de l'\u00e9thique une fois qu'il est d\u00e9ploy\u00e9 dans la production.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-4 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Pourquoi nous devons pr\u00eater attention \u00e0 l'\u00e9thique<\/h2><\/div><div class=\"fusion-text fusion-text-8\"><p>Les algorithmes d'apprentissage automatique et l'ensemble des abstractions et des hypoth\u00e8ses qui les sous-tendent devenant de plus en plus complexes, il est devenu difficile d'appr\u00e9hender et de comprendre toutes les cons\u00e9quences possibles de l'ensemble du syst\u00e8me.<br \/>\nIl y a eu plusieurs exemples tr\u00e8s m\u00e9diatis\u00e9s d'algorithmes d'apprentissage automatique injustes produisant des r\u00e9sultats sous-optimaux et discriminants. Parmi ceux-ci, l'exemple bien connu du COMPAS. Le COMPAS est un logiciel commercial largement utilis\u00e9 qui mesure le risque de r\u00e9cidive d'une personne et qui a \u00e9t\u00e9 compar\u00e9 \u00e0 un jugement humain normal dans le cadre d'un projet de recherche sur la criminalit\u00e9.\u00a0<a class=\"ds iu\" href=\"https:\/\/www.propublica.org\/article\/machine-bias-risk-assessments-in-criminal-sentencing\" rel=\"noopener nofollow\" target=\"_blank\">\u00e9tude<\/a>\u00a0et on a d\u00e9couvert par la suite qu'il \u00e9tait biais\u00e9 \u00e0 l'\u00e9gard des Afro-Am\u00e9ricains : Le COMPAS \u00e9tait plus susceptible d'attribuer un score de risque plus \u00e9lev\u00e9 aux d\u00e9linquants afro-am\u00e9ricains qu'aux d\u00e9linquants caucasiens ayant le m\u00eame profil.<\/p>\n<\/div><div class=\"fusion-text fusion-text-9\"><p>Dans le domaine du NLP, des biais de genre ont \u00e9t\u00e9 d\u00e9tect\u00e9s dans les premi\u00e8res versions de Google Translate et ont \u00e9t\u00e9 corrig\u00e9s en 2018 et plus r\u00e9cemment.<\/p>\n<p>Dans le domaine de l'attribution de cr\u00e9dit, Goldman Sachs a fait l'objet d'une enqu\u00eate pour avoir utilis\u00e9 un algorithme d'IA qui aurait discrimin\u00e9 women en accordant des limites de cr\u00e9dit plus importantes aux hommes qu'\u00e0 women sur leurs cartes Apple.<\/p>\n<p>Dans le domaine des soins de sant\u00e9, un algorithme de pr\u00e9diction des risques utilis\u00e9 sur plus de 200 millions de personnes aux \u00c9tats-Unis a r\u00e9v\u00e9l\u00e9 des pr\u00e9jug\u00e9s raciaux.<\/p>\n<\/div><div class=\"fusion-text fusion-text-10\"><p>En l'absence d'un cadre clairement d\u00e9fini sur la mani\u00e8re d'analyser, d'identifier et d'att\u00e9nuer les biais, les risques de tomber dans des pi\u00e8ges \u00e9thiques peuvent \u00eatre assez \u00e9lev\u00e9s. Il est donc de plus en plus important d'\u00e9tablir des lignes directrices ad\u00e9quates afin de construire des mod\u00e8les qui produisent des r\u00e9sultats appropri\u00e9s et justes, en particulier dans les domaines impliquant des personnes. La construction d'une IA digne de confiance permet aux utilisateurs finaux de se sentir en s\u00e9curit\u00e9 lorsqu'ils l'utilisent, et aux entreprises d'exercer un plus grand contr\u00f4le sur son utilisation afin d'accro\u00eetre l'efficacit\u00e9 tout en \u00e9vitant tout pr\u00e9judice.\u00a0<strong>Pour que votre IA soit digne de confiance, vous devez commencer \u00e0 penser \u00e0 l'\u00e9thique avant m\u00eame de traiter data et de d\u00e9velopper des algorithmes.<\/strong><\/p>\n<\/div><div class=\"fusion-title title fusion-title-5 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Comment penser \u00e0 l'\u00e9thique avant m\u00eame le d\u00e9but de votre projet<\/h2><\/div><div class=\"fusion-text fusion-text-11\"><p><strong>L'\u00e9thique doit \u00eatre prise en compte d\u00e8s le d\u00e9but d'un nouveau projet, en particulier lors de la phase de cadrage du probl\u00e8me. Vous devez avoir \u00e0 l'esprit les utilisateurs finaux cibl\u00e9s ainsi que l'objectif de la solution propos\u00e9e afin d'\u00e9tablir le bon cadre d'analyse et de gestion des risques pour identifier les pr\u00e9judices directs ou indirects qui peuvent \u00eatre induits par la solution.<\/strong>\u00a0Vous devez vous demander si, dans ces conditions, ma solution peut conduire \u00e0 des d\u00e9cisions qui pourraient \u00eatre biais\u00e9es en faveur d'un sous-groupe particulier d'utilisateurs finaux.<\/p>\n<\/div><div class=\"fusion-text fusion-text-12\"><p>Il est donc essentiel d'\u00e9laborer des indicateurs de performance cl\u00e9s pour suivre les m\u00e9thodes qui assurent l'efficacit\u00e9 de votre strat\u00e9gie de gestion des risques. Un cadre solide pourrait \u00e9galement int\u00e9grer, si possible, un m\u00e9canisme de r\u00e9duction des risques \u00e9thiques.<br \/>\nLorsqu'il s'agit d'un sujet sensible pr\u00e9sentant un potentiel de risque \u00e9lev\u00e9, il est n\u00e9cessaire de prolonger le temps allou\u00e9 \u00e0 la phase d'exploration et de construction afin de proc\u00e9der \u00e0 une analyse approfondie de l'\u00e9valuation \u00e9thique et de l'impact sur l'environnement.\u00a0<strong>att\u00e9nuation des pr\u00e9jug\u00e9s<\/strong>\u00a0strat\u00e9gies.<\/p>\n<\/div><div class=\"fusion-text fusion-text-13\"><p>Vous devez \u00e9galement mettre en place des m\u00e9canismes qui facilitent le travail du syst\u00e8me d'IA.\u00a0<strong>contr\u00f4labilit\u00e9<\/strong>\u00a0et\u00a0<strong> reproductibilit\u00e9 <\/strong>. Une trace logique doit \u00eatre disponible \u00e0 des fins d'inspection afin que tout probl\u00e8me puisse \u00eatre examin\u00e9 ou faire l'objet d'une enqu\u00eate plus approfondie. Pour ce faire, il convient d'appliquer un bon niveau d'int\u00e9grit\u00e9 de la trace logique.\u00a0<strong>tra\u00e7abilit\u00e9<\/strong>\u00a0par le biais de la documentation, de l'enregistrement, du suivi et de la gestion des versions.<\/p>\n<p>Chaque source de data et chaque transformation de data doivent \u00e9galement \u00eatre document\u00e9es afin de rendre transparents et tra\u00e7ables les choix effectu\u00e9s pour traiter la data. Cela permet d'identifier les \u00e9tapes qui ont pu injecter ou renforcer un biais.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-6 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Comment inclure l'\u00e9thique dans l'\u00e9laboration de votre projet data<\/h2><\/div><div class=\"fusion-text fusion-text-14\"><p>Pour int\u00e9grer l'\u00e9thique dans l'\u00e9laboration de votre projet data, il est important d'inclure au moins trois composantes : l'\u00e9quit\u00e9, l'explicabilit\u00e9 et la tra\u00e7abilit\u00e9.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-7 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">L'\u00e9quit\u00e9<\/h3><\/div><div class=\"fusion-text fusion-text-15\"><p>La premi\u00e8re \u00e9tape de la plupart des projets d'apprentissage automatique est g\u00e9n\u00e9ralement la collecte de data. Qu'il s'agisse de passer par le processus de collecte de data ou d'utiliser un ensemble de data existant, il est essentiel de savoir comment la collecte a \u00e9t\u00e9 effectu\u00e9e. En g\u00e9n\u00e9ral, il n'est pas possible d'inclure l'ensemble de la population cible, de sorte que les caract\u00e9ristiques et les \u00e9tiquettes peuvent \u00eatre \u00e9chantillonn\u00e9es \u00e0 partir d'un sous-ensemble, filtr\u00e9es sur la base de certains crit\u00e8res ou agr\u00e9g\u00e9es. Toutes ces \u00e9tapes peuvent introduire un biais statistique susceptible d'avoir des cons\u00e9quences \u00e9thiques.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-8 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Biais de repr\u00e9sentation<\/h3><\/div><div class=\"fusion-text fusion-text-16\"><p>d\u00e9coule de la mani\u00e8re dont nous d\u00e9finissons et \u00e9chantillonnons une population. Par exemple, le manque de diversit\u00e9 g\u00e9ographique dans les ensembles data tels que ImageNet a mis en \u00e9vidence un biais en faveur des pays occidentaux. En cons\u00e9quence, les\u00a0<strong>biais d'\u00e9chantillonnage<\/strong>, Les tendances estim\u00e9es pour une population peuvent ne pas \u00eatre g\u00e9n\u00e9ralis\u00e9es aux data collect\u00e9es aupr\u00e8s d'une nouvelle population.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-2 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"594\" title=\"Article-Incluant l&#039;\u00e9thique\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg\" alt class=\"lazyload img-responsive wp-image-61822\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27594%27%20viewBox%3D%270%200%20700%20594%27%3E%3Crect%20width%3D%27700%27%20height%3D%27594%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-200x170.jpeg 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-400x339.jpeg 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics-600x509.jpeg 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/Article-Including-ethics.jpeg 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-17\"><p>Il est donc n\u00e9cessaire de d\u00e9finir des protocoles de collecte de data appropri\u00e9s, d'analyser la diversit\u00e9 des data re\u00e7ues et de signaler \u00e0 l'\u00e9quipe toute lacune ou tout risque d\u00e9tect\u00e9. Vous devez collecter data de la mani\u00e8re la plus objective possible. Par exemple, en vous assurant, par le biais d'une analyse statistique, que l'\u00e9chantillon est repr\u00e9sentatif de la population ou du groupe que vous \u00e9tudiez et, dans la mesure du possible, en combinant des donn\u00e9es provenant de sources multiples afin de garantir la diversit\u00e9 des data.<br \/>\nIl est obligatoire de documenter les r\u00e9sultats et l'ensemble du processus de collecte des data.<\/p>\n<\/div><div class=\"fusion-text fusion-text-18\"><p>Il existe en fait de nombreuses sources possibles de biais qui peuvent exister sous de nombreuses formes, dont certaines peuvent conduire \u00e0 des injustices dans diff\u00e9rentes t\u00e2ches d'apprentissage en aval.<br \/>\n\u00c9tant donn\u00e9 que le c\u0153ur des algorithmes d'apprentissage automatique supervis\u00e9 est la data d'apprentissage, les mod\u00e8les peuvent apprendre leur comportement \u00e0 partir de la data qui peut souffrir de l'inclusion de biais historiques ou statistiques involontaires.\u00a0<strong>Pr\u00e9jug\u00e9s historiques<\/strong>\u00a0peuvent s'infiltrer dans le processus de g\u00e9n\u00e9ration de data, m\u00eame si l'\u00e9chantillonnage et la s\u00e9lection des caract\u00e9ristiques sont parfaits. La persistance de ces biais peut conduire \u00e0 une discrimination involontaire \u00e0 l'encontre de certains groupes ou individus, ce qui peut exacerber les pr\u00e9jug\u00e9s et la marginalisation.<\/p>\n<\/div><div class=\"fusion-text fusion-text-19\"><p>Toutes les sources de biais ne sont pas enracin\u00e9es dans data, le pipeline complet d'apprentissage automatique implique une s\u00e9rie de choix et de pratiques en cours de route, depuis le pr\u00e9traitement de data jusqu'au d\u00e9ploiement du mod\u00e8le.<br \/>\nIl n'est pas facile d'identifier d\u00e8s le d\u00e9part si et comment des probl\u00e8mes peuvent survenir. Une analyse approfondie est n\u00e9cessaire pour identifier les probl\u00e8mes \u00e9mergents. Selon le cas d'utilisation, le type de data et l'objectif de la t\u00e2che, diff\u00e9rentes m\u00e9thodes s'appliqueront.<br \/>\nDans cette section, nous allons explorer certaines techniques permettant d'identifier et d'att\u00e9nuer les biais \u00e9thiques \u00e0 l'aide d'un cas d'utilisation illustratif. Nous commencerons par \u00e9noncer le probl\u00e8me, puis nous verrons comment mesurer les biais et, enfin, nous utiliserons certaines techniques pour att\u00e9nuer les biais lors du pr\u00e9traitement, du traitement et du post-traitement.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-9 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">\u00c9nonc\u00e9 du probl\u00e8me<\/h4><\/div><div class=\"fusion-text fusion-text-20\"><p>Supposons que vous construisiez un algorithme de notation dans le secteur bancaire afin d'automatiser le targeting des clients qui b\u00e9n\u00e9ficieront ou non d'une offre sup\u00e9rieure. Vous disposez d'un ensemble data historique qui contient de nombreuses caract\u00e9ristiques sur vos data significatives concernant vos clients, ainsi que la cible binaire \u201c\u00e9ligible \u00e0 une offre premium\u201d. Les \u00e9l\u00e9ments des IIP (informations personnelles identifiables) ont \u00e9t\u00e9 pr\u00e9alablement supprim\u00e9s de l'ensemble data, de sorte qu'aucun probl\u00e8me de confidentialit\u00e9 ne se pose (\u00e0 cet \u00e9gard, le service de pr\u00e9vention des pertes de google cloud data est un excellent outil pour r\u00e9aliser la t\u00e2che de d\u00e9personnalisation de vos data sensibles).<br \/>\nCe cas d'utilisation peut sembler quelque peu fictif, mais le probl\u00e8me est proche d'un cas d'utilisation r\u00e9el que nous avons trait\u00e9 par le pass\u00e9 dans un secteur diff\u00e9rent.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-10 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Mesurer les biais<\/h4><\/div><div class=\"fusion-text fusion-text-21\"><p>La premi\u00e8re \u00e9tape de l'analyse consiste \u00e0 explorer le data afin d'identifier les caract\u00e9ristiques sensibles, la valeur privil\u00e9gi\u00e9e et l'\u00e9tiquette favorable.<\/p>\n<p><strong>Caract\u00e9ristiques sensibles\u00a0<\/strong>(ou parfois appel\u00e9\u00a0<strong>attributs prot\u00e9g\u00e9s<\/strong>) sont des caract\u00e9ristiques qui divisent une population en groupes qui devraient \u00eatre paritaires en termes d'avantages re\u00e7us. Ces caract\u00e9ristiques peuvent avoir un potentiel discriminatoire \u00e0 l'\u00e9gard de certains sous-groupes. Par exemple : le sexe, le genre, l'\u00e2ge, la situation familiale, la classification socio-\u00e9conomique, la situation matrimoniale, etc. et tout indicateur d\u00e9riv\u00e9 de ces caract\u00e9ristiques (par exemple, la situation g\u00e9ographique ou le montant des factures peuvent servir d'indicateurs de la classification socio-\u00e9conomique, car on a observ\u00e9 dans certaines situations qu'ils pouvaient \u00eatre fortement corr\u00e9l\u00e9s) sont des caract\u00e9ristiques sensibles.<\/p>\n<p>A<strong> valeur privil\u00e9gi\u00e9e<\/strong>\u00a0d'une caract\u00e9ristique sensible d\u00e9note un groupe qui a b\u00e9n\u00e9fici\u00e9, historiquement, d'un avantage syst\u00e9matique.<\/p>\n<\/div><div class=\"fusion-text fusion-text-22\"><p>A <strong>\u00e9tiquette favorable<\/strong>\u00a0Au cours de la phase de pr\u00e9paration du data, des \u00e9tapes telles que la division du data, le sous-\u00e9chantillonnage ou le sur\u00e9chantillonnage, le traitement des valeurs manquantes et des valeurs aberrantes peuvent introduire des biais si elles ne sont pas effectu\u00e9es avec soin. La proportion de valeurs manquantes ou de valeurs aberrantes dans les sous-groupes pour les caract\u00e9ristiques sensibles peut constituer une premi\u00e8re \u00e9tape dans l'identification des biais. Certaines strat\u00e9gies d'imputation peuvent introduire un biais statistique, par exemple l'imputation des valeurs manquantes de la caract\u00e9ristique de l'\u00e2ge du client par sa m\u00e9diane.<\/p>\n<p>Dans notre exemple de notation, nous avons dessin\u00e9 le graphique de la r\u00e9partition de la formation data entre les sexes en ce qui concerne l'objectif \u201c\u00e9ligible \u00e0 une offre de prime\u201d :<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-3 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"324\" title=\"karim-si-larbi-blog\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png\" alt class=\"lazyload img-responsive wp-image-61823\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27324%27%20viewBox%3D%270%200%20700%20324%27%3E%3Crect%20width%3D%27700%27%20height%3D%27324%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-200x93.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-400x185.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog-600x278.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/karim-si-larbi-blog.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-23\"><p>On constate que la r\u00e9partition de la cible est d\u00e9s\u00e9quilibr\u00e9e en faveur du genre\u00a0<em>Homme<\/em>. Posons l'hypoth\u00e8se que la valeur du privil\u00e8ge est de\u00a0<em>Homme<\/em>\u00a0o\u00f9\u00a0<em>sexe<\/em> est une caract\u00e9ristique sensible et l'\u00e9tiquette favorable est \u201c\u00e9ligible \u00e0 une offre premium\u201d. De plus, cela pourrait correspondre \u00e0 un biais de repr\u00e9sentation dans le data. En effet, dans un cas o\u00f9 l'\u00e9quit\u00e9 est respect\u00e9e, on pourrait s'assurer que les distributions dans le data sont totalement \u00e9quilibr\u00e9es ou correspondent aux distributions dans le data d\u00e9mographique.<\/p>\n<p>\u00c0 ce stade, vous pourriez \u00eatre tent\u00e9 d'\u00e9liminer simplement les caract\u00e9ristiques sensibles de votre dataset, mais il a \u00e9t\u00e9 d\u00e9montr\u00e9 que la suppression des attributs sensibles ne suffit pas n\u00e9cessairement \u00e0 rendre votre mod\u00e8le \u00e9quitable. Le mod\u00e8le pourrait utiliser d'autres caract\u00e9ristiques en corr\u00e9lation avec la caract\u00e9ristique sensible supprim\u00e9e, reproduisant ainsi des biais historiques. Par exemple, une caract\u00e9ristique A pourrait \u00eatre fortement corr\u00e9l\u00e9e \u00e0 l'\u00e2ge d'un client, de sorte que si le data est biais\u00e9 en faveur d'une certaine tranche d'\u00e2ge (un biais historique pourrait se traduire par une discrimination fond\u00e9e sur l'\u00e2ge lors de l'embauche, de la promotion, etc. En conservant la fonction sensible dans votre data, lorsque c'est n\u00e9cessaire, vous pouvez avoir un meilleur contr\u00f4le sur les mesures et l'att\u00e9nuation des pr\u00e9jug\u00e9s et de l'\u00e9quit\u00e9.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-11 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Mesures des biais<\/h4><\/div><div class=\"fusion-text fusion-text-24\"><p>Il existe un grand nombre de d\u00e9finitions et de mesures de l'\u00e9quit\u00e9. Nous pouvons diviser l'\u00e9quit\u00e9 en\u00a0<strong>\u00e9quit\u00e9 individuelle<\/strong>\u00a0et\u00a0<strong>\u00e9quit\u00e9 du groupe<\/strong>. L'\u00e9quit\u00e9 individuelle donne des pr\u00e9visions similaires \u00e0 des individus similaires, tandis que l'\u00e9quit\u00e9 de groupe traite les diff\u00e9rents groupes de la m\u00eame mani\u00e8re.<\/p>\n<p>Pour assurer l'\u00e9quit\u00e9 du groupe, nous voulons que la probabilit\u00e9 d'un r\u00e9sultat positif soit la m\u00eame, que la personne soit ou non dans le groupe prot\u00e9g\u00e9 (par ex,\u00a0<em>femelle<\/em>) ou non.<br \/>\nUne mesure de groupe simple consiste \u00e0 comparer le pourcentage de r\u00e9sultats favorables pour les groupes privil\u00e9gi\u00e9s et non privil\u00e9gi\u00e9s (dans notre exemple, le sexe, l'\u00e2ge et le sexe de l'enfant).\u00a0<em>Homme<\/em>\u00a0qui sont \u201c\u00e9ligibles \u00e0 un accord de prime\u201d par rapport aux hommes et aux femmes.\u00a0<em>Femme<\/em>\u00a0qui sont \u201c\u00e9ligibles \u00e0 une offre de prime\u201d). Vous pouvez calculer cette comparaison comme une diff\u00e9rence entre les deux pourcentages, ce qui conduit \u00e0 l'\u00e9quation suivante\u00a0<strong>diff\u00e9rence de parit\u00e9 statistique<\/strong>\u00a0m\u00e9trique (\u00e9galement appel\u00e9e\u00a0<strong>la parit\u00e9 d\u00e9mographique<\/strong>):<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-4 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"17\" title=\"code-blog-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png\" alt class=\"lazyload img-responsive wp-image-61828\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%2717%27%20viewBox%3D%270%200%20700%2017%27%3E%3Crect%20width%3D%27700%27%20height%3D%2717%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-200x5.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-400x10.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim-600x15.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/code-blog-Karim.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-25\"><p>Pour qu'il n'y ait pas de diff\u00e9rence dans les r\u00e9sultats favorables entre les groupes privil\u00e9gi\u00e9s et non privil\u00e9gi\u00e9s, la diff\u00e9rence de parit\u00e9 statistique doit \u00eatre \u00e9gale \u00e0 0.<br \/>\nEn ce qui concerne la m\u00e9trique de l'\u00e9quit\u00e9 individuelle, il y a la\u00a0<strong>coh\u00e9rence<\/strong>\u00a0qui mesure le degr\u00e9 de similitude des \u00e9tiquettes pour des individus similaires \u00e0 l'aide d'un algorithme du plus proche voisin :<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-5 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"75\" title=\"blog-karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png\" alt class=\"lazyload img-responsive wp-image-61829\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%2775%27%20viewBox%3D%270%200%20700%2075%27%3E%3Crect%20width%3D%27700%27%20height%3D%2775%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-200x21.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-400x43.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim-600x64.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-karim.png 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-26\"><p>Nous ne nous attarderons pas sur ce sujet, mais le lecteur int\u00e9ress\u00e9 pourra consulter le site suivant\u00a0<a class=\"ds iu\" href=\"http:\/\/proceedings.mlr.press\/v28\/zemel13.pdf\" rel=\"noopener nofollow\" target=\"_blank\">article<\/a>.<br \/>\nVous pouvez utiliser la biblioth\u00e8que pratique\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/Trusted-AI\/AIF360\" rel=\"noopener nofollow\" target=\"_blank\">AIF360<\/a>\u00a0qui vous permet de calculer de nombreuses mesures d'\u00e9quit\u00e9.<br \/>\nTout ce que vous avez \u00e0 faire est d'envelopper votre dataframe dans le\u00a0<em>StandardDataset<\/em>. AIF360 utilise un\u00a0<em>StandardDataset<\/em>\u00a0qui enveloppe un Pandas DataFrame avec de nombreux attributs et m\u00e9thodes sp\u00e9cifiques au traitement et \u00e0 la mesure des pr\u00e9jug\u00e9s \u00e9thiques. Vous pouvez ensuite l'utiliser comme entr\u00e9e de la fonction\u00a0<em>BinaryLabelDatasetMetric<\/em> qui calculera un ensemble de mesures utiles.<\/p>\n<\/div><div class=\"fusion-text fusion-text-27\"><div class=\"code\">\n<table class=\"highlight tab-size js-file-line-container\" data-tab-size=\"8\" data-paste-markdown-skip=\"\">\n<tbody>\n<tr>\n<td id=\"file-gist_for_medium_article-py-LC1\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">params_aif<\/span> <span class=\"pl-c1\">=<\/span> <\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L7\" class=\"blob-num js-line-number\" data-line-number=\"7\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC7\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L8\" class=\"blob-num js-line-number\" data-line-number=\"8\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC8\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-c\"># Cr\u00e9er une norme aif360Datasets<\/span><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L9\" class=\"blob-num js-line-number\" data-line-number=\"9\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC9\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">train_standard_dataset<\/span> <span class=\"pl-c1\">=<\/span> <span class=\"pl-v\">StandardDataset<\/span>(<span class=\"pl-s1\">df<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">train_dataframe<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L10\" class=\"blob-num js-line-number\" data-line-number=\"10\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC10\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-c1\">**<\/span><span class=\"pl-s1\">params_aif<\/span>)<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L11\" class=\"blob-num js-line-number\" data-line-number=\"11\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC11\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L12\" class=\"blob-num js-line-number\" data-line-number=\"12\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC12\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">groupes_privil\u00e9gi\u00e9s<\/span> <span class=\"pl-c1\">=<\/span> []<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L13\" class=\"blob-num js-line-number\" data-line-number=\"13\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC13\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">groupes_non_privil\u00e9gi\u00e9s<\/span> <span class=\"pl-c1\">=<\/span> []<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L14\" class=\"blob-num js-line-number\" data-line-number=\"14\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC14\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L15\" class=\"blob-num js-line-number\" data-line-number=\"15\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC15\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">train_bldm<\/span> <span class=\"pl-c1\">=<\/span> <span class=\"pl-v\">BinaryLabelDatasetMetric<\/span>(<span class=\"pl-s1\">train_standard_dataset<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L16\" class=\"blob-num js-line-number\" data-line-number=\"16\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC16\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">groupes_non_privil\u00e9gi\u00e9s<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">groupes_non_privil\u00e9gi\u00e9s<\/span>,<\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L17\" class=\"blob-num js-line-number\" data-line-number=\"17\"><\/td>\n<td id=\"file-gist_for_medium_article-py-LC17\" class=\"blob-code blob-code-inner js-file-line\"><span class=\"pl-s1\">groupes_privil\u00e9gi\u00e9s<\/span><span class=\"pl-c1\">=<\/span><span class=\"pl-s1\">groupes_privil\u00e9gi\u00e9s<\/span>)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div><div class=\"fusion-text fusion-text-28\"><p>Une fois mesur\u00e9e sur la formation data de notre exemple de notation, nous observons une diff\u00e9rence de parit\u00e9 statistique moyenne de -0,21, ce qui indique que le groupe privil\u00e9gi\u00e9\u00a0<em>Homme<\/em>\u00a0a obtenu 21% plus de r\u00e9sultats positifs dans l'ensemble de formation data.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-12 fusion-sep-none fusion-title-text fusion-title-size-four\" style=\"--awb-margin-bottom-small:8px;\"><h4 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Att\u00e9nuation des biais<\/h4><\/div><div class=\"fusion-text fusion-text-29\"><p>Les m\u00e9thodes qui ciblent les biais algorithmiques sont g\u00e9n\u00e9ralement divis\u00e9es en trois cat\u00e9gories :<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-1 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>Pr\u00e9traitement.<\/strong> Les techniques de pr\u00e9traitement agissent sur la formation data et tentent de la transformer de mani\u00e8re \u00e0 supprimer la discrimination sous-jacente.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>En cours de traitement.<\/strong> Les techniques d'int\u00e9gration agissent sur les algorithmes d'apprentissage afin d'\u00e9liminer la discrimination au cours du processus d'apprentissage du mod\u00e8le, soit en incorporant des changements dans la fonction objective, soit en imposant une contrainte.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\"><strong>Post-traitement<\/strong>. Techniques de post-traitement qui prennent un mod\u00e8le d\u00e9j\u00e0 form\u00e9 et transforment ses pr\u00e9dictions de mani\u00e8re \u00e0 ce qu'elles satisfassent aux contraintes impliqu\u00e9es par la m\u00e9trique d'\u00e9quit\u00e9 s\u00e9lectionn\u00e9e. Elles sont particuli\u00e8rement utiles dans le cas o\u00f9 l'algorithme ne peut traiter le mod\u00e8le appris que comme une bo\u00eete noire, sans pouvoir modifier le data d'apprentissage ou l'algorithme d'apprentissage.<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-30\"><p>Nous avons utilis\u00e9 une technique de pr\u00e9traitement sur le data d'entra\u00eenement afin d'optimiser la diff\u00e9rence de parit\u00e9 statistique. Nous avons appliqu\u00e9 le\u00a0<em>Re-pesage<\/em>\u00a0(plus de d\u00e9tails dans ce\u00a0<a class=\"ds iu\" href=\"https:\/\/core.ac.uk\/download\/pdf\/81728147.pdf\" rel=\"noopener nofollow\" target=\"_blank\">article<\/a><a class=\"ds iu\" href=\"https:\/\/core.ac.uk\/download\/pdf\/81728147.pdf)\" rel=\"noopener nofollow\" target=\"_blank\">)<\/a>\u00a0qui est mis en \u0153uvre dans AIF360 afin de pond\u00e9rer les exemples diff\u00e9remment dans chaque combinaison (groupe, \u00e9tiquette) pour garantir l'\u00e9quit\u00e9 avant la classification.<\/p>\n<\/div><div class=\"fusion-text fusion-text-31\"><div class=\"code\">\n<table class=\"highlight tab-size js-file-line-container\" data-tab-size=\"8\" data-paste-markdown-skip=\"\">\n<tbody>\n<tr>\n<td id=\"file-gist_for_medium_article-py-LC1\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<tr>\n<td id=\"file-gist_for_medium_article-py-L2\" class=\"blob-num js-line-number\" data-line-number=\"2\">\n<pre>RW = Reweighing(unprivileged_groups=unprivileged_groups,\n                groupes_privil\u00e9gi\u00e9s=groupes_privil\u00e9gi\u00e9s)\n\nreweighted_train = RW.fit_transform(train_standard_dataset)<\/pre>\n<\/td>\n<td id=\"file-gist_for_medium_article-py-LC2\" class=\"blob-code blob-code-inner js-file-line\"><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div><div class=\"fusion-text fusion-text-32\"><p>L'attribut \"poids de l'instance\" a \u00e9t\u00e9 modifi\u00e9 afin de r\u00e9\u00e9quilibrer la caract\u00e9ristique sensible par rapport \u00e0 la cible. Ce faisant, l'attribut\u00a0<em>Re-pesage<\/em>\u00a0a att\u00e9nu\u00e9 le biais de groupe sur la formation data : une nouvelle mesure de la diff\u00e9rence de parit\u00e9 statistique est compl\u00e8tement r\u00e9\u00e9quilibr\u00e9e de -0,21 \u00e0 0.<\/p>\n<p>D'autres algorithmes d'att\u00e9nuation des biais de pr\u00e9traitement sont mis en \u0153uvre dans AIF360, tels que l'algorithme\u00a0<em>Remise en \u00e9tat en cas d'impact d\u00e9favorable<\/em>\u00a0qui est une technique qui modifie les valeurs des caract\u00e9ristiques afin d'accro\u00eetre l'\u00e9quit\u00e9 au sein du groupe tout en pr\u00e9servant l'ordre de classement \u00e0 l'int\u00e9rieur des groupes (pour plus d'informations, voir la page suivante).\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1412.3756\" rel=\"noopener nofollow\" target=\"_blank\">article<\/a>) ou\u00a0<em>LFR<\/em>\u00a0(Learning fair representation) qui est une technique de pr\u00e9traitement permettant de trouver une repr\u00e9sentation latente qui encode le data mais masque les informations sur les attributs prot\u00e9g\u00e9s (plus d'informations dans les pages suivantes\u00a0<a class=\"ds iu\" href=\"http:\/\/www.cs.toronto.edu\/~toni\/Papers\/icml-final.pdf\" rel=\"noopener nofollow\" target=\"_blank\">article<\/a>).<\/p>\n<p>Nous avons ensuite entra\u00een\u00e9 deux mod\u00e8les de classification, l'un sur la data d'entra\u00eenement originale et l'autre sur la data repond\u00e9r\u00e9e. Nous observons que la repond\u00e9ration n'a eu qu'un faible impact sur la performance, perdant 1% de\u00a0<a class=\"ds iu\" href=\"https:\/\/en.wikipedia.org\/wiki\/F-score\" rel=\"noopener nofollow\" target=\"_blank\">Score F1<\/a>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-33\"><p>Nous avons \u00e9galement essay\u00e9 un algorithme de traitement sur notre exemple de cas d'utilisation :\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1801.07593\" rel=\"noopener nofollow\" target=\"_blank\"><em>d\u00e9binage contradictoire<\/em><\/a>\u00a0qui a am\u00e9lior\u00e9 de mani\u00e8re significative les mesures de biais de groupe (la diff\u00e9rence de parit\u00e9 statistique a \u00e9t\u00e9 divis\u00e9e par 2) avec une faible d\u00e9t\u00e9rioration de la performance du mod\u00e8le (environ 1% sur le score F1).<\/p>\n<p>Il peut donc y avoir un compromis entre les mesures de performance et de biais. Dans le cas pr\u00e9sent, la d\u00e9t\u00e9rioration est assez faible, mais dans certaines situations, le compromis pourrait \u00eatre plus important. Cette information doit \u00eatre port\u00e9e \u00e0 la connaissance de l'\u00e9quipe et des parties prenantes appropri\u00e9es qui peuvent prendre des d\u00e9cisions sur la mani\u00e8re de traiter ce probl\u00e8me.<\/p>\n<p>Maintenant que nous disposons de mod\u00e8les entra\u00een\u00e9s, nous pouvons explorer leurs pr\u00e9dictions et rechercher un d\u00e9s\u00e9quilibre vers le r\u00e9sultat favorable entre les sexes. Il existe de nombreux outils tels que\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/PAIR-code\/what-if-tool\" rel=\"noopener nofollow\" target=\"_blank\">Outil de simulation<\/a>\u00a0ou\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/dssg\/aequitas\" rel=\"noopener nofollow\" target=\"_blank\">Aequitas<\/a>\u00a0qui vous permettent de sonder le comportement des mod\u00e8les d'apprentissage automatique form\u00e9s et d'\u00e9tudier les performances et l'\u00e9quit\u00e9 des mod\u00e8les dans les sous-groupes.<\/p>\n<p>\u00c0 titre d'illustration, vous pouvez utiliser Aequitas pour g\u00e9n\u00e9rer des tableaux crois\u00e9s et des visualisations qui pr\u00e9sentent diverses mesures de biais et de performance r\u00e9parties entre les sous-groupes. Par exemple, nous pouvons rapidement comparer les taux de vrais positifs des classificateurs form\u00e9s sur le data original et sur le data repond\u00e9r\u00e9. Nous constatons que ce taux a \u00e9t\u00e9 \u00e9quilibr\u00e9 et qu'il permet donc une plus grande \u00e9quit\u00e9 entre les sexes en ce qui concerne le r\u00e9sultat favorable du mod\u00e8le, \u00e0 savoir l'\u00e9ligibilit\u00e9 \u00e0 une offre de prime.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-6 hover-type-none\"><img decoding=\"async\" width=\"1000\" height=\"381\" title=\"blog-2-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png\" alt class=\"lazyload img-responsive wp-image-61834\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%271000%27%20height%3D%27381%27%20viewBox%3D%270%200%201000%20381%27%3E%3Crect%20width%3D%271000%27%20height%3D%27381%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-200x76.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-400x152.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-600x229.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim-800x305.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-2-Karim.png 1000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 1000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-34\"><p>En tant que technique de post-traitement, nous avons agi sur le seuil de classification. Un mod\u00e8le de classification nous fournit g\u00e9n\u00e9ralement les probabilit\u00e9s associ\u00e9es \u00e0 la r\u00e9alisation de chaque classe en tant que pr\u00e9diction. Cette probabilit\u00e9 peut \u00eatre utilis\u00e9e telle quelle ou convertie en valeur binaire.<br \/>\nAfin d'identifier la classe correspondant aux probabilit\u00e9s obtenues, un seuil de classification (\u00e9galement appel\u00e9 seuil de d\u00e9cision) doit \u00eatre d\u00e9fini. Toute valeur sup\u00e9rieure \u00e0 ce seuil correspondra \u00e0 la cat\u00e9gorie positive \u201ca droit \u00e0 une prime\u201d et vice versa pour les valeurs inf\u00e9rieures \u00e0 ce seuil.<br \/>\nEn tra\u00e7ant la m\u00e9trique de performance et la m\u00e9trique de biais (ici 1 - impact disparate) pour tous les seuils de classification, nous pouvons d\u00e9finir le seuil optimal. Cela nous aide \u00e0 choisir le seuil appropri\u00e9 afin de maximiser les performances et de minimiser les biais.<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-7 hover-type-none\"><img decoding=\"async\" width=\"1000\" height=\"364\" title=\"blog-4-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png\" alt class=\"lazyload img-responsive wp-image-61835\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%271000%27%20height%3D%27364%27%20viewBox%3D%270%200%201000%20364%27%3E%3Crect%20width%3D%271000%27%20height%3D%27364%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-200x73.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-400x146.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-600x218.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim-800x291.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-4-Karim.png 1000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 1000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-35\"><p>Sur la figure de gauche, nous voyons que si nous poussons le seuil vers la gauche, r\u00e9duisant ainsi l\u00e9g\u00e8rement les performances, nous pouvons am\u00e9liorer la mesure du biais.<br \/>\nEn outre, comme pr\u00e9vu, nous observons une nette am\u00e9lioration des mesures de biais de groupe sur le mod\u00e8le repond\u00e9r\u00e9 (figure de droite), qui pourrait \u00eatre encore am\u00e9lior\u00e9e en choisissant un autre seuil de classification, mais au d\u00e9triment de la performance.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-13 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Explicabilit\u00e9<\/h3><\/div><div class=\"fusion-text fusion-text-36\"><p>Un autre pilier essentiel pour construire des mod\u00e8les d'apprentissage automatique dignes de confiance est l'explicabilit\u00e9. L'explicabilit\u00e9 est la capacit\u00e9 \u00e0 expliquer \u00e0 la fois les processus techniques du syst\u00e8me d'IA et le raisonnement qui sous-tend les d\u00e9cisions ou les pr\u00e9dictions du syst\u00e8me d'IA, ce qui permet de quantifier l'influence de chaque caract\u00e9ristique\/attribut sur les pr\u00e9dictions. Une bonne pratique consiste \u00e0 utiliser autant que possible des mod\u00e8les facilement interpr\u00e9tables plut\u00f4t que des mod\u00e8les de bo\u00eete noire.<\/p>\n<p>Il existe de nombreuses m\u00e9thodes pour obtenir l'explicabilit\u00e9 des mod\u00e8les. Ces m\u00e9thodes peuvent \u00eatre regroup\u00e9es en deux cat\u00e9gories :<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-2 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\"><strong>Explicabilit\u00e9 intrins\u00e8que\u00a0<\/strong>o\u00f9 le mod\u00e8le lui-m\u00eame donne l'importance ou le poids des caract\u00e9ristiques.<\/p>\n<p><strong>Explicabilit\u00e9 a posteriori<\/strong>\u00a0o\u00f9 les petites modifications d'entr\u00e9e sont exploit\u00e9es pour d\u00e9duire l'importance des caract\u00e9ristiques.<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p><strong>En cours de traitement.<\/strong> Les techniques d'int\u00e9gration agissent sur les algorithmes d'apprentissage afin d'\u00e9liminer la discrimination au cours du processus d'apprentissage du mod\u00e8le, soit en incorporant des changements dans la fonction objective, soit en imposant une contrainte.<\/p>\n<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-37\"><p>Nous appliquerons ici une c\u00e9l\u00e8bre m\u00e9thode post-hoc, \u00e0 savoir SHAP (SHapley Additive exPlanations). Pour plus d'informations, nous vous recommandons d'explorer le site suivant\u00a0<a class=\"ds iu\" href=\"https:\/\/christophm.github.io\/interpretable-ml-book\/shap.html\" rel=\"noopener nofollow\" target=\"_blank\">cette ressource tr\u00e8s compl\u00e8te sur le sujet<\/a>.\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/slundberg\/shap\" rel=\"noopener nofollow\" target=\"_blank\">Shap<\/a>\u00a0est une biblioth\u00e8que qui met en \u0153uvre une approche th\u00e9orique des jeux pour expliquer les r\u00e9sultats de n'importe quel mod\u00e8le d'apprentissage automatique.<br \/>\nObservons l'impact de l'algorithme de repond\u00e9ration sur l'explicabilit\u00e9 du mod\u00e8le :<\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-8 hover-type-none\"><img decoding=\"async\" width=\"700\" height=\"508\" title=\"blog-5-Karim\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg\" alt class=\"lazyload img-responsive wp-image-61836\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27700%27%20height%3D%27508%27%20viewBox%3D%270%200%20700%20508%27%3E%3Crect%20width%3D%27700%27%20height%3D%27508%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-200x145.jpeg 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-400x290.jpeg 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim-600x435.jpeg 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/07\/blog-5-Karim.jpeg 700w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 700px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-38\"><p>Petit rappel sur la lecture de Shap's\u00a0<em>essaim d'abeilles<\/em>\u00a0parcelles :<\/p>\n<\/div><ul style=\"--awb-line-height:27.2px;--awb-icon-width:27.2px;--awb-icon-height:27.2px;--awb-icon-margin:11.2px;--awb-content-margin:38.4px;\" class=\"fusion-checklist fusion-checklist-3 fusion-checklist-default type-icons\"><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>Les caract\u00e9ristiques sont class\u00e9es de haut en bas, de la plus importante \u00e0 la moins importante.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>La couleur correspond \u00e0 l'amplitude des valeurs de la caract\u00e9ristique. Plus la couleur est rouge, plus la valeur est faible et inversement pour le bleu.<\/p>\n<\/div><\/li><li class=\"fusion-li-item\" style=\"\"><span class=\"icon-wrapper circle-no\"><i class=\"fusion-li-icon awb-icon-check\" aria-hidden=\"true\"><\/i><\/span><div class=\"fusion-li-item-content\">\n<p>L'axe horizontal correspond \u00e0 la direction de l'influence de la caract\u00e9ristique sur la pr\u00e9diction de la cible. Par exemple, dans notre exemple de notation, les valeurs n\u00e9gatives auront pour effet d'influencer la pr\u00e9diction vers la classe \u201cnon \u00e9ligible \u00e0 un contrat premium\u201d et vice versa pour les valeurs positives.<\/p>\n<\/div><\/li><\/ul><div class=\"fusion-text fusion-text-39\"><p>A gauche, nous avons l'explicabilit\u00e9 du mod\u00e8le original o\u00f9 nous observons que dans ce cas la variable du genre a un tr\u00e8s fort pouvoir pr\u00e9dictif et que la variable du genre a un tr\u00e8s fort pouvoir pr\u00e9dictif et que la variable du genre a un tr\u00e8s fort pouvoir pr\u00e9dictif.\u00a0<em>Femme<\/em>\u00a0a un impact qui influence la d\u00e9cision vers l'objectif \u201cnon \u00e9ligible \u00e0 une offre de prime\u201d avec un \u00e9cart important en ce qui concerne le sexe.\u00a0<em>Homme<\/em>.<\/p>\n<p>Nous pouvons voir sur le graphique de droite, dans ce cas o\u00f9 le mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 sur le data repond\u00e9r\u00e9, que l'importance de la caract\u00e9ristique du sexe a fortement diminu\u00e9. Elle fait maintenant partie des caract\u00e9ristiques les moins importantes. De plus, l'influence de la classe f\u00e9minine par rapport \u00e0 la classe masculine sur la pr\u00e9diction de la cible est beaucoup plus \u00e9quilibr\u00e9e (les couleurs sont proches de 0 dans la valeur de Shapley).<\/p>\n<\/div><div class=\"fusion-title title fusion-title-14 fusion-sep-none fusion-title-text fusion-title-size-three\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Tra\u00e7abilit\u00e9<\/h3><\/div><div class=\"fusion-text fusion-text-40\"><p>Un autre aspect essentiel du processus de cr\u00e9ation d'algorithmes d'apprentissage automatique dignes de confiance est la tra\u00e7abilit\u00e9 des r\u00e9sultats et la bonne reproductibilit\u00e9 des exp\u00e9riences. Cela permet d'identifier facilement quelle version d'un mod\u00e8le a \u00e9t\u00e9 mise en production, de sorte qu'elle puisse \u00eatre audit\u00e9e si son comportement cause des dommages et n'est plus conforme aux valeurs \u00e9thiques de l'entreprise.<\/p>\n<p>Pour ce faire, il faut \u00eatre en mesure de suivre et d'enregistrer chaque version de mod\u00e8le et les data, hyperparam\u00e8tres et r\u00e9sultats d'entra\u00eenement qui lui sont associ\u00e9s. Plusieurs outils permettent d'accomplir cette t\u00e2che :\u00a0<a class=\"ds iu\" href=\"https:\/\/mlflow.org\/docs\/latest\/index.html\" rel=\"noopener nofollow\" target=\"_blank\">Mlflow<\/a>\u00a0est une excellente option qui vous permet de g\u00e9n\u00e9rer rapidement une interface web qui centralise toutes les ex\u00e9cutions, tout en sauvegardant vos artefacts dans le stockage de votre choix. Chaque version de l'exp\u00e9rience peut \u00eatre suivie avec le hash du commit associ\u00e9. Chacune de ces versions contiendra tous les \u00e9l\u00e9ments enregistr\u00e9s par MLflow.<\/p>\n<p>Voici un\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/artefactory\/one-click-mlflow\" rel=\"noopener nofollow\" target=\"_blank\">outil<\/a>\u00a0que nous avons mis en open source \u00e0 Artefact et qui vous permet de d\u00e9ployer un MLflow s\u00e9curis\u00e9 sur un projet GCP avec une seule commande.<\/p>\n<p>Il est \u00e9galement conseill\u00e9 de cr\u00e9er un\u00a0<a class=\"ds iu\" href=\"https:\/\/aifs360.mybluemix.net\/introduction\" rel=\"noopener nofollow\" target=\"_blank\">Fiche d'information<\/a>\u00a0pour chaque mod\u00e8le, ce qui correspond \u00e0 une carte d'identit\u00e9 du mod\u00e8le qui r\u00e9sume divers \u00e9l\u00e9ments retra\u00e7ant les \u00e9tapes de pr\u00e9traitement, les mesures de performance, les mesures de biais, etc.<\/p>\n<p>Ces cartes d'identit\u00e9 sont remises par les scientifiques de data aux \u00e9quipes charg\u00e9es de l'exploitation du mod\u00e8le, ce qui leur permet de d\u00e9terminer si le mod\u00e8le est adapt\u00e9 \u00e0 leur situation. Pour plus de d\u00e9tails sur la m\u00e9thodologie de cr\u00e9ation d'une fiche d'information, nous vous recommandons de consulter le site suivant\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/pdf\/2006.13796.pdf\" rel=\"noopener nofollow\" target=\"_blank\">article<\/a>. La FactSheet peut \u00e9galement \u00eatre stock\u00e9e, sous forme de tableau par exemple, dans MLFlow avec le mod\u00e8le associ\u00e9.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-15 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Comment assurer le suivi de l'\u00e9thique une fois qu'elle a \u00e9t\u00e9 d\u00e9ploy\u00e9e ?<\/h2><\/div><div class=\"fusion-text fusion-text-41\"><p>Une fois votre mod\u00e8le d\u00e9ploy\u00e9, vous devez vous assurer qu'il est utilis\u00e9 dans le but pour lequel il a \u00e9t\u00e9 pens\u00e9, con\u00e7u et construit. Il y a biais de d\u00e9ploiement lorsqu'il y a inad\u00e9quation entre le probl\u00e8me qu'un mod\u00e8le est cens\u00e9 r\u00e9soudre et la mani\u00e8re dont il est r\u00e9ellement utilis\u00e9. Cela se produit fr\u00e9quemment lorsqu'un syst\u00e8me est d\u00e9velopp\u00e9 et \u00e9valu\u00e9 comme s'il \u00e9tait totalement autonome, alors qu'en r\u00e9alit\u00e9 il fait partie d'un syst\u00e8me socio-technique complexe r\u00e9gi par un grand nombre de d\u00e9cideurs.<\/p>\n<p>Les data de production peuvent d\u00e9river au fil du temps, ce qui peut entra\u00eener une d\u00e9gradation des performances de l'algorithme susceptible d'injecter des biais. Le suivi de la qualit\u00e9 et de la d\u00e9rive des data de production en surveillant les distributions des nouvelles data par rapport aux data utilis\u00e9es pour former les mod\u00e8les devrait constituer une \u00e9tape dans le pipeline de production afin de d\u00e9clencher les alertes appropri\u00e9es en cas de besoin et de d\u00e9finir le moment o\u00f9 le recyclage est obligatoire.<\/p>\n<p>Le pipeline de production doit \u00eatre con\u00e7u de mani\u00e8re \u00e0 ce qu'il y ait un moyen de d\u00e9sactiver le mod\u00e8le actuel ou de revenir \u00e0 une version ant\u00e9rieure.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-16 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Conclusion<\/h2><\/div><div class=\"fusion-text fusion-text-42\"><p>Dans cet article, nous avons pr\u00e9sent\u00e9 quelques bonnes pratiques et protocoles pour vous guider dans la construction de pipelines d'apprentissage automatique qui minimisent le risque de tomber dans des pi\u00e8ges \u00e9thiques.<\/p>\n<\/div><div class=\"fusion-text fusion-text-43\"><p>Cet article n'a fait qu'effleurer la surface du vaste sujet qu'est l'IA \u00e9thique et n'a fait qu'effleurer quelques-uns des aspects de l'IA \u00e9thique.\u00a0<a class=\"ds iu\" href=\"https:\/\/github.com\/EthicalML\/awesome-production-machine-learning#explaining-black-box-models-and-datasets\" rel=\"noopener nofollow\" target=\"_blank\">des outils int\u00e9ressants<\/a>\u00a0en cours d'\u00e9laboration et qui sont d\u00e9sormais disponibles.<br \/>\nComme nous l'avons vu, la mani\u00e8re la plus logique d'aborder explicitement les probl\u00e8mes d'\u00e9quit\u00e9 est de d\u00e9clarer un ensemble de caract\u00e9ristiques s\u00e9lectionn\u00e9es comme potentiellement discriminatoires et d'\u00e9tudier ensuite les pr\u00e9jug\u00e9s \u00e9thiques \u00e0 travers ce prisme. Cette technique simple pr\u00e9sente toutefois un d\u00e9faut : la discrimination peut \u00eatre le r\u00e9sultat d'une combinaison de caract\u00e9ristiques qui ne sont pas discriminatoires en elles-m\u00eames. En outre, dans de nombreux cas, vous n'aurez acc\u00e8s \u00e0 aucune caract\u00e9ristique sensible (plus d'informations \u00e0 ce sujet\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/pdf\/2011.02282.pdf\" rel=\"noopener nofollow\" target=\"_blank\">ici<\/a>).<br \/>\nL'\u00e9valuation de l'\u00e9quit\u00e9 est une t\u00e2che complexe qui d\u00e9pend de la nature du probl\u00e8me. Aborder un probl\u00e8me de notation sur la base d'un tableau data ne sera pas la m\u00eame chose qu'aborder un probl\u00e8me de notation sur la base d'un tableau data.\u00a0<a class=\"ds iu\" href=\"https:\/\/arxiv.org\/abs\/1906.08976\" rel=\"noopener nofollow\" target=\"_blank\">att\u00e9nuer les biais dans le traitement du langage naturel<\/a>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-44\"><p>Nous esp\u00e9rons que le partage de notre perspective et de nos m\u00e9thodologies vous inspirera dans vos propres projets ! Merci pour votre lecture, n'h\u00e9sitez pas \u00e0 suivre le Artefact tech\u00a0<a class=\"ds iu\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\" rel=\"noopener\" target=\"_blank\">blog<\/a>\u00a0si vous souhaitez \u00eatre inform\u00e9 de la parution de notre prochain article !<\/p>\n<\/div><\/div><\/div><\/div><\/article><\/p>","protected":false},"excerpt":{"rendered":"<p>27 juillet 2021<br \/>\nVoici quelques lignes directrices pour \u00e9laborer des solutions d'apprentissage automatique dignes de confiance sans tomber dans des pi\u00e8ges \u00e9thiques.<\/p>","protected":false},"featured_media":68681,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[21939],"blog-language":[2991],"class_list":["post-61815","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-medium","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog\/61815","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/media\/68681"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/media?parent=61815"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog-category?post=61815"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog-language?post=61815"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}