L'apprentissage automatique et la confidentialité des données peuvent-ils coexister?
La bataille pour les marchés futurs et des parts de marché plus importantes bat son plein. Les entreprises les plus influentes du monde sont constamment engagées dans la mise au point de systèmes automatisés plus performants et, partant, dans le développement de la technologie de l’intelligence artificielle – en les faisant devancer leurs concurrents. D'ici 2020, l'IA devrait générer un chiffre d'affaires supérieur à 21 milliards d'euros dans le monde. Cependant, le développement des technologies d'apprentissage automatique et d'intelligence artificielle semble être bloqué par un obstacle majeur: la confidentialité des données.
Les systèmes d'intelligence artificielle et d'apprentissage automatique automatisent les tâches répétitives en saisissant d'énormes quantités de données. Plus les données utilisées sont nombreuses, plus ces algorithmes informatiques peuvent reconnaître et capturer des modèles dans les données. Par conséquent, l'intelligence artificielle a besoin d'une quantité excessive de données pour trouver la structure et les régularités, apprendre directement et prédire la prochaine étape. Plus vous alimentez les algorithmes, plus ils deviennent précis. Jusqu'à présent, toutefois, on ignorait comment les algorithmes évoluaient et si et comment ils s'interconnectaient, éventuellement en traitant les données des clients plus loin que prévu.
La protection des données, en revanche, repose sur la minimisation, la transparence et la suppression des données des clients. . L’utilisation du Big Data est en contradiction flagrante avec l’idée de confidentialité. Comment les entreprises peuvent-elles utiliser les avantages des technologies Big Data sans révéler les données clients sensibles et enfreindre le règlement général sur la protection des données en Europe (GDPR), par exemple?
Federated learning, décentralisation des données de la manière dont les machines apprennent des données, l’une des nécessités techniques cruciales est la centralisation des données. La stratégie consiste essentiellement à construire un modèle basé sur un ensemble de données donné dans un espace clos, tel que le cloud ou un centre de données, où les données peuvent être rassemblées, utilisées et contrôlées sans quitter cet espace ou cette plate-forme définie. Cependant, en centralisant les données, la question devient de savoir quel espace ou quelle plateforme garantira que les données sont sauvegardées et utilisées dans le bon but sans tomber entre de mauvaises mains?
C’est ici que l’apprentissage fédéré entre en jeu. Afin de résoudre les problèmes de sécurité liés à la centralisation des données (et donc à leur liaison avec un espace ou une plate-forme fixe), l’apprentissage fédéré sécurise les données en les décentralisant. Les développeurs recevraient des données client anonymisées, mais pas de données spécifiques pouvant être associées à un utilisateur particulier. Ainsi, plutôt que de stocker et d’analyser des données dans un espace centralisé et éventuellement non sécurisé, les données sont utilisées localement sur le périphérique ou le serveur de l’utilisateur et seul le résultat de l’apprentissage, et non les données, est transféré et centralisé. Ce type d'apprentissage automatique permet aux téléphones ou aux ordinateurs d'effectuer une formation de modèle prédictive tout en conservant l'intégralité des données de formation sur le périphérique, réduisant ainsi le besoin de transférer et de stocker les données dans le cloud, un centre de données ou un serveur central.
L'apprentissage fédéré permet toujours aux machines d'apprendre de vastes quantités de données sans les centraliser ni risquer de révéler et de rechercher des informations clients sensibles et confidentielles. Cela garantit donc un plus grand anonymat des utilisateurs, car les données de l'utilisateur ne doivent pas nécessairement être traitées en premier lieu.
Pourquoi c'est important
Les pionniers de l'industrie numérique ont développé une culture d'entreprise très spécifique et axée sur la recherche, reposant sur une décision entièrement fondée sur des données. fabrication et gestion. Avec la transformation numérique, la quantité et la variété de données (et donc son importance pour la gestion d’activités plus rentables et plus efficaces) augmentent énormément. Les entreprises qui souhaitent augmenter leur part de marché dépendent des données clients et de leur utilisation efficace et sûre.
Néanmoins, les inconvénients inhérents au stockage et à l’utilisation de données centralisées ont déjà provoqué des scandales. Celles-ci ont jeté une lumière négative sur de nombreuses entreprises influentes et sur des sociétés mondiales, entravant considérablement la réputation de leur marque et détruisant des parts de marché. Outre les scandales d'atteinte à la confidentialité des données, des cyberattaques sophistiquées ont suscité une crainte généralisée quant à la perte et à l'exposition de données. La sécurité des données peut faire ou défaire les entreprises, mais l’apprentissage fédéré avec des données décentralisées peut constituer une approche permettant d’accroître efficacement la rentabilité d’une entreprise à l’aide de technologies d’apprentissage automatique, tout en garantissant une utilisation sécurisée des données client.