Fermer

juillet 23, 2024

GenAI et data : les enjeux des DSI d’aujourd’hui. Entre confidentialité, conformité et anonymisation

GenAI et data : les enjeux des DSI d’aujourd’hui.  Entre confidentialité, conformité et anonymisation



Au milieu du tumulte provoqué parintelligence artificielle générative – complices annonces enthousiastes des grandes entreprises technologiques et les applications grand public sont rapidement entrées sur le lieu de travail – il n’est pas surprenant que GenAI ait été le premier type de solution d’IA mise en œuvre dans les entreprises dans un enquête [in inglese] menée par Gartner fin 2023 et publiée ces dernières semaines. 29 % des 644 managers interrogés au sein d’entreprises aux États-Unis, en Allemagne et au Royaume-Uni déclarent utiliser déjà des solutions d’intelligence artificielle générative. GenAI s’est avéré plus populaire que d’autres technologies liées à l’IA, telles que les algorithmes d’optimisation, les systèmes basés sur des règles, le traitement du langage naturel et d’autres types d’apprentissage automatique.

Le véritable défi, cependant, est de « démontrer et estimer » la valeur des projets (cela représente 49 % des réponses à l’enquête) non seulement en ce qui concerne le coût total de possession et les nombreux avantages qui peuvent en être obtenus. , mais face à des obstacles tels que le manque de confiance dans les aspects technologiques de l’IA (indiqué par 40 %) et la difficulté de disposer de volumes de données suffisants (39 %). Mais ces défis ne sont pas insurmontables.

GenAI, option de données synthétiques pour protéger la confidentialité

La première étape des projets IA et GenAI consiste toujours à obtenir les données. Comme l’explique Vincenzo Laveglia, Ph.D. (avec une thèse de recherche sur les réseaux neuronaux dynamiques) et technologue à l’Université de Florence : « Dans les cas où la confidentialité est essentielle, nous essayons de les anonymiser autant que possible, puis de passer à entraîner le modèle. Un équilibre est nécessaire entre confidentialité et utilité : si après anonymisation le niveau d’information des données est le même, les données sont toujours utiles ; si toutefois, une fois les références personnelles ou sensibles supprimées, les données ne sont plus efficaces, un problème se crée. Les données synthétiques évitent ces difficultés, mais ne sont pas exemptes de la nécessité de faire des arbitrages : il faudra veiller à avoir un équilibre entre les différentes classes d’informations, sinon le modèle deviendra très expert sur un sujet et très incertain sur un autre. « .

Sous l’égide des données synthétiques se trouvent les données générées à l’aide de méthodes de données augmentationc’est-à-dire le processus de génération artificielle de nouvelles données à partir de données existantes, avec lesquelles les modèles d’apprentissage automatique sont entraînés.

«Lorsqu’elle peut être appliquée, l’augmentation des données résout le problème de l’insuffisance des données ou du respect des réglementations en matière de confidentialité et de propriété intellectuelle», explique Laveglia.

Toujours selon Gartner, les données synthétiques peuvent aider à résoudre le problème de la disponibilité des données pour les produits d’IA, ainsi que les défis de confidentialité, de conformité et d’anonymisation des informations. En effet, les données synthétiques peuvent être générées pour refléter les mêmes caractéristiques statistiques que les données réelles, mais sans révéler d’informations personnellement identifiables, respectant ainsi les règles de confidentialité. intentionnellement, et d’autres détails confidentiels. L’alternative aux données synthétiques consiste à anonymiser et anonymiser manuellement les ensembles de données, mais cela nécessite plus de temps et d’efforts et entraîne un taux d’erreur plus élevé.

Il parle aussi de données synthétiques l’Acte Européen IAles citant comme mesure possible pour atténuer les risques liés à l’utilisation de données personnelles pour la formation de systèmes d’intelligence artificielle.

« Le niveau d’attention porté à la protection des données personnelles dans le domaine de l’IA a considérablement augmenté ces derniers mois, également grâce aux interventions spécifiques des autorités garantes, dont l’Italie », souligne Chiara Bocchi, avocate au sein du cabinet TMT/Commercial. /Protection des données et conseil du cabinet d’avocats Dentons. « En ce qui concerne les modèles d’IA à usage général, l’accent est actuellement mis sur le grattage de données en particulier, à la fois du point de vue de ceux qui les grattent et du point de vue de ceux qui en souffrent. L’autorité italienne a adopté une note d’information sur le web scraping et l’intelligence artificielle générative, indiquant quelques mesures qui peuvent être prises en considération pour empêcher cette activité ».

D’où proviennent les données : les complexités de la conformité

Dans cette note d’information de mai dernier, le Garant italien pour la protection des données personnelles a souligné que la formation des modèles sur lesquels reposent les systèmes GenAI nécessite toujours « une énorme quantité de données (y compris à caractère personnel) » et que celles-ci sont souvent obtenu avec la technique du web scraping, ou « une collecte massive et aveugle réalisée sur le web ». L’activité de web scraping peut être directe (réalisée par la même personne qui développe le modèle) ou indirecte (réalisée sur des ensembles de données créés à l’aide de techniques de web scraping par des tiers en ce qui concerne le développeur du modèle, s’appuyant donc sur lac de données de tiers préalablement créés par scraping).

Il devient compliqué pour les DSI de s’assurer que les données ont été collectées de manière conforme et surtout qu’elles peuvent à leur tour être utilisées en toute conformité.

« Du point de vue de la législation sur la protection des données personnelles et la protection des droits d’auteur, il n’est pas complexe de comprendre si une donnée est protégée ; la complexité, notamment du côté de la vie privée, est de garantir l’utilisation des données publiques ou accessibles au public également à des fins autres que celles qui ont conduit à leur diffusion », souligne l’avocat Bocchi. « Si l’on considère uniquement la base juridique du traitement, il est pratiquement impossible d’obtenir le consentement de toutes les personnes auprès desquelles des données personnelles peuvent être collectées à l’aide de la technique du scraping ».

C’est pourquoi les autorités chargées de la protection de la vie privée tentent de trouver des lignes directrices.

« En particulier, la question et l’évaluation sont de savoir si la base juridique de l’intérêt légitime peut être applicable au traitement des données personnelles collectées avec la technique du scraping, à des fins de formation des systèmes d’IA », poursuit Bocchi. « Le garant italien il a annoncélors de la publication de sa note d’information sur le web scraping et l’intelligence artificielle générative, qui se prononcera prochainement sur la licéité du web scraping de données personnelles fondé sur un intérêt légitime ».

Le Garant néerlandais de la vie privée et le Garant français de la vie privée sont déjà intervenus sur ce sujet (Cnil [in inglese]); ce dernier a indiqué, une fois de plus, les données synthétiques et les techniques d’anonymisation et de pseudonymisation comme mesure valable pour limiter les risques liés au traitement des données personnelles pour l’entraînement des systèmes GenAI.

« L’un des risques liés à l’utilisation actuelle des systèmes GenAI est la difficulté d’assurer le respect du RGPD, de la législation sur le droit d’auteur et, à terme, de la loi sur l’IA en ce qui concerne l’IA et l’IA générative, avec les sanctions qui en découlent », observe Bocchi.

Stratégies pour atténuer les risques liés à l’IA

Parmi tant de complexités, comment pouvons-nous capitaliser sur le potentiel de GenAI tout en atténuant les risques ?

« Une stratégie gagnante consiste certainement à définir des solutions garantissant le respect de la législation sur la confidentialité dès la phase de conception du système GenAI, en commençant par la base de données de formation », explique Bocchi. « L’Loi sur l’IA entrera bientôt en vigueur et, avec elle et avec une référence spécifique aux modèles d’intelligence artificielle à des fins générales, l’obligation d’adopter des politiques pour se conformer à la législation sur le droit d’auteur et d’élaborer, en le rendant public, un résumé détaillé des contenus utilisés pour la formation artificielle des modèles de renseignement et donc aussi des données ».

Une autre initiative efficace consiste à structurer l’entreprise de manière à garantir la collaboration entre les différentes figures dirigeantes, en créant un dialogue continu et constant entre le CIO et les autres fonctions, de manière à combiner les compétences techniques et juridiques. Ce n’est pas tout : « Pour accroître la confiance dans les nouvelles technologies, de nombreuses entreprises, y compris celles qui font partie de groupes internationaux, prennent des mesures pour créer des comités d’éthique internes, auxquels sont également confiées des fonctions de soutien et de promotion de la gouvernance de l’innovation », souligne l’avocat.

Concernant la formation des modèles d’IA et le stockage des données, le régulateur français Cnil suggère également que les entreprises se concentrent sur le développement transparent des systèmes d’intelligence artificielle et leur auditabilité, c’est-à-dire la possibilité qu’ils soient vérifiés par des tiers, et que le développement des modèles soit soumis à des contrôles. un examen par les pairs efficace.

Faire confiance à GenAI : comment passer de la technologie à la gestion du changement

En ce qui concerne la confiance dans la technologie de l’intelligence artificielle, les DSI craignent avant tout les hallucinations et les risques de discrimination : pour « faire confiance » au résultat, il faut, encore une fois, s’assurer de la qualité de l’ensemble des données, mais aussi en limiter convenablement le stockage. de données pour empêcher que des informations personnelles ou sensibles soient portées à la surface.

Avec ces prémisses, affirme Laveglia, l’IA est un outil totalement fiable : l’important est que le système soit bien construit, c’est-à-dire que les performances sur les données de test soient rassurantes et que l’ensemble de données utilisé soit très représentatif de la véritable distribution. certaines données.

« Un exemple est Alpha Fold, largement utilisé dans le domaine de la biologie structurale et de la bioinformatique en général », rapporte le chercheur. « Il s’agit d’un programme entièrement basé sur des techniques d’intelligence artificielle développées par DeepMind pour prédire la structure tridimensionnelle des protéines à partir de leur séquence d’acides aminés : il est révolutionnaire car il accélère le travail des personnes, en réalisant en une journée des tâches qui prendraient des mois aux chercheurs. ou des années, avec un taux d’erreur très faible. Le modèle est bien réalisé et le résultat est absolument fiable, même si le jeu de données d’entraînement, la banque de données sur les protéines PDB, est volumineux (il existe plusieurs centaines de milliers d’exemples), mais il n’a certainement pas un ordre de grandeur comparable aux jeux de données utilisés pour former des grands modèles de langage modernes ».

Les entreprises peuvent évoluer de la même manière, à partir d’un modèle pré-entraîné, qui garantit une configuration optimale, et effectuez un réglage fin sur celui-ci, en l’adaptant à votre cas d’utilisation. Partir de zéro avec son propre modèle nécessite en fait beaucoup plus de travail de collecte de données et de nombreuses compétences (en fait, c’est l’option la moins fréquente dans l’enquête Gartner susmentionnée) ; en revanche, utiliser des produits intégrés dans de grandes suites technologiques est une solution plus immédiate (et, en fait, c’est la plus fréquente), mais moins personnalisable : elle pourrait contraindre les DSI à se cantonner aux limites définies de certaines applications. Télécharger un modèle pré-entraîné puis l’affiner avec vos propres données est le bon compromis pour la créativité de l’équipe informatique, à condition que, avec le business, les cas d’utilisation susceptibles d’apporter un avantage à l’entreprise soient d’abord été identifié.

Adopter l’IA dans l’entreprise de manière mature signifie, en effet, diffuser cette technologie à grande échelle dans les processus et les fonctions, en essayant de générer des bénéfices qui vont au-delà de l’augmentation de la productivité. Il est également nécessaire que l’informatique se concentre sur l’ingénierie de l’IA, c’est-à-dire le développement technologique et la mise en œuvre concrète : aujourd’hui, seuls 48 % des projets d’IA entrent en production, avec un délai moyen de 8 mois pour sortir de la phase de prototype.

Enfin, les projets doivent s’accompagner d’une mise à jour des compétences des personnes (upskilling) et d’activités de conduite du changement, car la manière d’organiser les équipes et le travail est vouée à évoluer significativement : selon l’étude « PwC AI Jobs Barometer », la demande de compétences qui utilisent l’IA connaissent une croissance rapide sur le marché (+25%) et cela signifie que – plutôt que d’être remplacés par l’IA – nous devrons apprendre à travailler ensemble. Ceci est confirmé par les résultats d’une autre étude de PwC, la « Global CEO Survey 2024 » : pour 69% de l’échantillon, l’intelligence artificielle obligera la majorité de leurs collaborateurs à développer de nouvelles compétences.




Source link