Qu'est-ce qu'une donnée synthétique ? Des données générées pour vous aider dans votre stratégie d'IA

Données synthétiques définies
Les données synthétiques sont des informations générées artificiellement qui peuvent être utilisées à la place de données historiques réelles pour former des modèles d'IA lorsque les ensembles de données réels manquent de qualité, de volume ou de variété. Les données synthétiques peuvent également être un outil essentiel pour les efforts d'IA d'entreprise lorsque les données disponibles ne répondent pas aux besoins de l'entreprise ou peuvent créer des problèmes de confidentialité si elles sont utilisées pour former des modèles d'apprentissage automatique, tester des logiciels, etc.
Selon l'analyste de Gartner Svetlana Sicular, d'ici 2024, 60 % des données utilisées pour le développement de solutions d'IA et d'analyse seront générées de manière synthétique, contre 1 % en 2021.
Cas d'utilisation de données synthétiques
Les données artificielles ont de nombreuses utilisations dans les stratégies d'IA des entreprises. En remplacement des données réelles, les données synthétiques peuvent être utiles dans les scénarios suivants :
Pour les modèles d'entraînement lorsque les données du monde réel manquent : Les systèmes d'IA et de ML nécessitent d'énormes quantités de données. Pour certains cas d'utilisation, il n'y a tout simplement pas assez de données disponibles, soit parce que le cas d'utilisation se produit très rarement, soit parce que le cas d'utilisation est nouveau et qu'il n'y a pas encore beaucoup de données historiques disponibles. Les données synthétiques peuvent également réduire les coûts lorsque la collecte ou l'achat de données du monde réel est prohibitif.
Pour combler les lacunes dans les données d'entraînement : Certains ensembles de données ne reflètent pas entièrement les cas d'utilisation d'une entreprise. Par exemple, un système formé pour reconnaître les numéros de téléphone peut ne pas avoir suffisamment de numéros internationaux pour fonctionner.
Un autre problème courant consiste à équilibrer un ensemble de données. Par exemple, un ensemble de données historiques peut être composé à 99 % de transactions non frauduleuses et à moins de 1 % de transactions frauduleuses, explique John Blankenbaker, principal scientifique des données chez SSA & Co., une société mondiale de conseil en gestion. "De nombreux modèles décideront que la politique la plus efficace consistera à étiqueter chaque transaction comme non frauduleuse."
Les données synthétiques peuvent aider à équilibrer l'ensemble de données, mais cela doit être fait avec beaucoup de soin. "Cela ne sera utile que si le processus de synthèse capture tout ce qui concerne une transaction qui indique une fraude", déclare Blankenbaker. "Ce qui est peu susceptible d'être évident, car nous l'utiliserions alors comme notre détecteur de fraude."
Cas d'utilisation "longue traîne" : Alors que l'IA devient omniprésente dans les organisations, les entreprises manquent de cas d'utilisation où les données de formation requises sont abondantes et facilement disponibles. Une fois que ces projets auront réussi, les chefs d'entreprise voudront que les mêmes approches soient utilisées pour leurs propres cas d'utilisation.
Pour accélérer le développement du modèle : La collecte de données de formation dans le monde réel peut prendre du temps, car les informations sont collectées, étiquetées, traitées et soumises à des contrôles de conformité et autres. Cela peut ralentir le développement de nouveaux modèles d'IA. Avec des données synthétiques, les modèles peuvent être entraînés et calibrés avant que les données du monde réel ne soient disponibles.
Pour simuler le futur : Lorsque les modes changent, les données historiques peuvent devenir obsolètes du jour au lendemain. Par exemple, lorsque les gens sont passés des écouteurs filaires au sans fil, toutes ces données clients historiques ont perdu leur valeur prédictive. Les moteurs de recommandation qui s'appuient sur d'anciennes données de formation peuvent toujours recommander des options filaires. Remplacer ou augmenter les données historiques par des données synthétiques qui tiennent compte du changement de mode peut aider à maintenir la pertinence des moteurs de recommandation.
Pour simuler des futurs alternatifs :Si un changement est à venir et qu'il n'est pas clair dans quelle direction les clients iront, les données simulées peuvent aider les entreprises à exécuter des simulations de scénarios et à se préparer à l'une ou l'autre option.
Pour simuler des événements « cygne noir » : Certaines situations surviennent très rarement et peuvent ne pas être présentes du tout dans les données historiques – mais si elles auraient un impact dramatique sur une organisation si elles se produisaient, alors il est nécessaire d'être préparé. L'utilisation de données synthétiques pour simuler ces situations peut aider une entreprise à modéliser ces réponses.
Pour simuler le métaverse : Le métaverse – simulations virtuelles en 3D d'environnements de jeu, sociaux et commerciaux – nécessitera une quantité massive de contenu. Des pièces, des bâtiments, des paysages, etc. devront être créés, et l'embauche d'artistes 3D pour créer tout ce contenu à partir de zéro sera d'un coût prohibitif. Les données synthétiques peuvent combler certaines des lacunes pour créer des paramètres et des objets réalistes et appropriés pour les environnements virtuels, les événements et les interactions.
Pour générer des images marketing : Les annonceurs créent déjà des images de synthèse pour présenter leurs produits. Par exemple, une photographie d'un modèle portant un pull d'une seule couleur peut être transformée en photos réalistes du même modèle portant toutes les différentes versions du même pull. Des outils de génération d'images sont également disponibles qui peuvent même générer des visages réalistes mais uniques ou montrer des meubles dans différents arrangements.
Pour les tests logiciels : L'utilisation de données réelles pour tester de nouveaux logiciels peut créer des problèmes de confidentialité et de sécurité. Des données synthétiques qui ressemblent à des données réelles mais qui ne permettent pas de tester des logiciels dans toute la gamme de cas d'utilisation sans mettre en danger les données réelles. "Si nous voulons voir comment notre infrastructure gère un grand nombre de comptes d'utilisateurs, il est facile d'écrire un programme qui se connecte à notre site Web et enregistre des utilisateurs synthétiques", déclare Blankenbaker de SSA.
Pour créer des jumeaux numériques : Dans les affaires judiciaires, les avocats créent parfois un jury fantôme pour tester les arguments. Les organisations peuvent faire quelque chose de similaire en utilisant des données synthétiques. Par exemple, en 2019, l'administration norvégienne du travail et de la protection sociale a créé une version synthétique de l'ensemble de sa population. Les données sont régénérées quotidiennement, selon Sicular de Gartner, et sont utilisées par un certain nombre d'organisations extérieures.
A la place des données médicales et financières : L'utilisation de données réelles de clients ou de patients pour la formation de modèles d'IA, l'exécution de simulations ou la recherche de traitements ou de corrélations utiles peut être très risquée du point de vue de la conformité. Même les données nettoyées ou anonymisées peuvent souvent faire l'objet d'une ingénierie inverse pour récupérer les données d'origine, explique Andy Thurai, vice-président et analyste principal chez Constellation Research. Les données synthétiques ne peuvent pas être rendues anonymes, mais peuvent toujours être utilisées pour trouver des informations précieuses.
Pour les ventes et le marketing : Lorsqu'une équipe commerciale fait appel à un client pour faire la démonstration d'un produit ou d'un service qui ingère des données, il peut être utile d'utiliser des échantillons aussi proches que possible du cas d'utilisation du client. L'utilisation des données d'un autre client constituerait une violation de la vie privée. Les données synthétiques peuvent permettre à l'équipe commerciale de tester le produit dans un cas d'utilisation similaire à celui du client, sans divulguer d'informations sensibles.
"Une startup qui essaie de créer une application de soins de santé peut créer l'intégralité de son cadre à l'aide de PHI synthétiques[protected health information]données pour créer un cadre de bout en bout pour une démonstration potentielle aux clients au lieu d'avoir à se demander et à attendre pour établir les bonnes connexions pour utiliser les données PHI réelles », déclare Priya Iragavarapu, vice-présidente du centre d'excellence des données chez AArete, un conseil en gestion globale.
Pour tester les biais des systèmes d'IA : Lorsque les systèmes d'IA discriminent en fonction de la race, de la religion ou d'autres considérations illégales, cela peut créer une responsabilité de conformité ou un désastre de relations publiques – ou les deux. Avec les systèmes d'IA "boîte noire" et les nouvelles technologies d'IA comme les réseaux de neurones, il peut être difficile de comprendre pourquoi une IA fait la recommandation qu'elle fait. Tester les systèmes d'IA par rapport à des ensembles de données synthétiques conçus pour imiter la démographie du monde réel peut aider à découvrir ces biais cachés.
Génération de données synthétiques
Parfois, générer des données synthétiques peut être très simple. Une liste de noms, par exemple, peut être générée en combinant un prénom choisi au hasard dans une liste de prénoms et un nom de famille dans une liste de noms de famille. Les codes postaux peuvent être choisis au hasard dans une liste de codes postaux. Cela peut suffire pour certaines applications. À d'autres fins, cependant, la liste peut devoir être équilibrée afin que, par exemple, les données synthétiques sur les dépenses soient en corrélation avec les habitudes de dépenses habituelles dans ces codes postaux.
La plupart des ensembles de données sont toujours produits manuellement avec SQL pour l'extraction et l'anonymisation des données, puis nettoyés à l'aide de langages de programmation standard, explique Steven Karan, vice-président et responsable des informations et des données chez Capgemini Canada.
« Une solution commerciale prête à l'emploi n'est pas encore arrivée sur le marché », dit-il. "Bien qu'il existe une petite poignée de startups qui fournissent des solutions de données synthétiques, aucune d'entre elles n'a atteint un niveau d'adoption critique."
Au lieu de cela, la plupart des scientifiques des données exploitent des packages prédéfinis pour générer des ensembles de données synthétiques, dit-il.
La génération d'ensembles de données synthétiques qui sont statistiquement significatifs et reflètent des données réelles de manière pertinente pour les cas d'utilisation peut être un défi. Plus récemment, des algorithmes d'intelligence artificielle et d'apprentissage automatique ont été utilisés pour créer des données synthétiques plus utiles et représentatives. Par exemple, les scientifiques des données viennent de commencer à utiliser les réseaux antagonistes génératifs (GAN), explique Iragavarapu d'AArete.
"C'est un type de travail neuronal qui a fait un énorme bond en avant pour faire de la génération de données synthétiques une réalité", dit-il.
La façon dont un GAN fonctionne est qu'un système génère des données – disons, une image d'un chat – et un second système essaie de deviner si l'image est réelle ou fausse. En opposant les deux systèmes dans une course l'un contre l'autre, les images générées deviennent rapidement indiscernables de la réalité.
Un certain nombre d'outils sont actuellement disponibles pour les organisations souhaitant générer leurs propres données synthétiques, dont la plupart sont open source. Voici quelques-uns des outils les plus populaires pour créer des données synthétiques :
- GPT-J: Alternative open-source à l'outil de génération de texte GPT-3 d'OpenAI
- Synthéa: Outil open-source populaire dans le domaine médical
- scikit-apprendre: utilisé pour générer des ensembles de données synthétiques à utiliser dans la régression, le regroupement et la classification dans le but de produire des ensembles de données pouvant permettre des prédictions, selon Capgemini's Karan
- SymPie: Utilisé par les scientifiques des données qui ont besoin de plus d'ensembles de données synthétiques personnalisés pour des besoins plus spécifiques, car il permet la création et le développement d'expressions symboliques personnalisées
- pydbgen: utilisé pour générer des ensembles de données communs, tels que des numéros de téléphone ou des adresses e-mail
- synthpop: Un package R utilisé pour générer des données démographiques synthétiques
- truqueur: Un package Python capable de générer des données synthétiques telles que des noms, des adresses, des e-mails, des numéros de sécurité sociale et d'autres données
- VDS: Un outil Python pour générer des tables, des bases de données relationnelles et des modèles de séries chronologiques
Bonnes pratiques en matière de données synthétiques
Les entreprises qui commencent tout juste à expérimenter des données synthétiques devraient commencer par des exemples bien structurés, suggère Sicular de Gartner. Ces cas d'utilisation peuvent être les plus faciles à déployer et offrir la valeur la plus initiale. Par exemple, une base de données de noms et de numéros de sécurité sociale peut être facilement remplacée par un équivalent synthétique qui offre des avantages commerciaux sans créer de responsabilité de conformité.
Thurai de Constellation recommande de ne pas utiliser de données synthétiques pour la création et les tests de modèles. "Cela conduira à des faux positifs", dit-il. « Et n'allez pas bon marché et n'utilisez pas toutes les données synthétiques. Vous aurez également besoin d'une bonne quantité de données du monde réel pour les intégrer au mélange.
Une autre erreur serait d'utiliser des données synthétiques pour déterminer si les choses sont liées de manière causale, dit Iragavarapu d'AArete, ou pour générer des valeurs aberrantes synthétiques à moins qu'il n'y ait une logique spécifique par laquelle elles sont générées.
"Et nous devons toujours citer explicitement où nous utilisons des données synthétiques par rapport aux données réelles pour rester transparents pour nos clients", ajoute-t-il.
Sociétés de données synthétiques
Diverses entreprises interviennent pour créer des données synthétiques à utiliser dans vos modèles, notamment les suivantes :
Source link