Fermer

mars 30, 2022

5 raisons pour lesquelles les entreprises axées sur les données devraient commencer à utiliser des données synthétiques


Opinions exprimées parEntrepreneurles contributeurs sont les leurs.

L'utilisation de l'IA dans les entreprises croît à un rythme exponentiel. Des secteurs aussi variés quela cyber-sécurité et la vente au détail tirent désormais parti de son pouvoir pour prédire les modèles et éclairer les processus commerciaux. Cependant, alors même que son application se développe, les entreprises sont de plus en plus aux prises avec un défi critique : un manque de données de formation.

À mesure que l'IA devient plus sophistiquée, le manque relatif d'ensembles de données de formation est apparent et l'intervention humaine dans les cas extrêmes augmente. Les données synthétiques générées par des simulateurs et des algorithmes et modélisées mathématiquement à partir d'ensembles de données du monde réel offrent la meilleure solution à ce problème. Bien que générées par ordinateur, les données synthétiques reproduisent statistiquement les ensembles de données du monde réel et offrent aux développeurs un excellent moyen de former l'IA.

Voici les principales raisons pour lesquelles les entreprises devraient envisager son utilisation.

1. La concurrence l'utilise déjà

Les données synthétiques sont loin d'être une tendance naissante. Alors que la plupart des entreprises s'appuient sur des ensembles de données du monde réel, l'utilisation de données synthétiques devrait augmenter rapidement.Gartner préditque d'ici 2024, 60 % des données de formation pour les projets d'IA et d'analyse seront générées de manière synthétique.

L'un des coups perçus contre elle est qu'elle manque de « réalisme ». Après tout, comment un jeu de données généré par un algorithme peut-il correspondre au caractère aléatoire d'un jeu réel ? Bien que cette objection ait une part de vérité, le degré de caractère aléatoire des données du monde réel est exagéré. Bien qu'ils aient ce composant, les ensembles de données du monde réel se prêtent bien à l'analyse de modèles et à la modélisation mathématique. Ainsi, la réplication et l'extrapolation sont simples.

Les techniques de modélisation synthétique des données sont très sophistiquées et, grâce à des modèles statistiques complexes, les algorithmes peuvent répliquer avec précision les données du monde réel. (Les humains devront s'impliquer dans des scénarios extrêmes, mais c'est quelque chose qui se produit même avec des données du monde réel.)

De plus, les données synthétiques aident les développeurs à surmonter un défaut majeur présent dans les ensembles de données du monde réel : le biais. Les mésaventures de l'IA telles que cellessubi par Meta(Auparavant)et Googlesouligner comment les biais dans les données du monde réel peuvent conduire à l'embarras du public, sans parler des conclusions incorrectes.

Les données synthétiques permettent aux développeurs d'examiner leurs ensembles de données à la recherche de biais et de les éliminer. Ainsi, l'IA est formée efficacement et produit le bon résultat.

En rapport:Ce que vous devez savoir sur la modélisation des données

2. Les entreprises manquent souvent de compétences en développement d'IA

Le développement de l'IA s'est déroulé à un rythme effréné, mais la plupart des entreprises manquent encore d'une expertise approfondie dans la mise en œuvre de projets associés. Cette situation se produit en raison d'un manque de développeurs qualifiés ainsi que du stade relativement précoce de son développement. Le résultat fréquent est un programme d'IA qui obtient un succès hésitant, et avec des résultats mitigés.

Faits saillants de Gartnerun manque d'intérieur compétences comme l'un des principaux obstacles aux entreprises qui améliorent leur posture en matière d'IA. Ils collectent plus de données que jamais auparavant, mais ne peuvent pas les placer dans le bon contexte. La prolifération d'outils d'intelligence d'affaires ad hoc a également reflété le manque de compétences en science des données dans la plupart des organisations, les entreprises tirant régulièrement des conclusions erronées.

Le résultat est que la plupart des données du monde réel restent inutilisées, ou pire encore, utilisées de manière incorrecte. Les données synthétiques offrent une solution à ce gâchis en donnant aux entreprises la possibilité d'examiner leurs biais avant de générer des ensembles de données. Cela oblige les employés à acquérir des compétences en science des données et à prendre conscience des biais qui pourraient faire dérailler leur analyse.

Grâce à la nature mathématique dans laquelle les données synthétiques sont générées, les entreprises doivent développer des processus pour maintenir et l'intégrité. En conséquence, le processus de création de données synthétiques oblige les entreprises à acquérir des compétences en science des données et à mettre en œuvreprocessus.

L'utilisation de données synthétiques améliore donc non seulement la précision de l'IA, mais pousse automatiquement les entreprises à adoptergestion de données les meilleures pratiques. Toute entreprise ayant cette posture en bénéficiera à long terme.

En rapport:Comment les grandes entreprises changent le recrutement avec l'IA

3. Les données du monde réel coûtent cher

Alors que les données du monde réel sont souvent présentées comme un idéal, leur source est coûteuse (de manière prohibitive pour certaines industries) et parfois indisponible. Par exemple, dans les secteurs de la défense et de l'armée, les données du monde réel ne peuvent jamais rendre compte de tous les cas extrêmes possibles ; les exécuter dans le monde réel n'est tout simplement pas une option. Mais les données synthétiques offrent une solution élégante et rentable. Le caractère aléatoire qu'offrent les données du monde réel peut être reproduit mathématiquement dans des ensembles de données synthétiques, ce qui donne aux développeurs plus de liberté pour former leurs modèles d'IA.

Les données du monde réel sont également extrêmement biaisées. Gartner prédit que d'ici la fin de 2022, 85 % des projets d'IA fourniront des résultats incorrects en raison d'ensembles de données réels biaisés. En rassemblant tous ces facteurs, il est facile de voir pourquoi les entreprises ont eu des problèmesmise en œuvre de l'IAà plus grande échelle.

4. Évolutivité

La mise à l'échelle des projets d'IA est actuellement difficile en raison des défis mentionnés précédemment. À mesure que de plus en plus de cas d'utilisation sont ajoutés à la pile d'IA d'une entreprise, les ensembles de données du monde réel ne parviennent pas à fournir aux algorithmes d'IA une image complète. Le résultat est que l'intervention humaine augmente à mesure que les projets d'IA prennent de l'ampleur. C'est le contraire du résultat escompté. Les données synthétiques permettent aux entreprises d'évoluer facilement puisque ces ensembles de données peuvent être générés à l'infini.

Mieux encore, les opérations autour des données synthétiques sont plus faciles à mettre en œuvre. Par exemple, les processus HITL sont plus simples à installer, car les ensembles de données sont générés de manière prévisible. L'étiquetage, la catégorisation et l'annotation des ensembles de données sont simples, offrant aux entreprises un processus reproductible sur lequel elles peuvent compter. Un effet d'entraînement est le filtrage facile : les développeurs peuvent rapidement isoler les cas d'utilisation et former en profondeur leurs algorithmes sans perdre de temps à examiner le contexte des données. De plus, les cas d'utilisation ont tendance à se chevaucher dans les ensembles de données du monde réel, ce qui peut être évité dans les données synthétiques. Ainsi, les programmes d'IA reçoivent une formation approfondie au lieu d'une formation générale.

En rapport:3 problèmes de qualité des données qui pourraient avoir un impact sur votre jugement

5. Vie privée et confidentialité

L'industrie de la santé possède l'un des plus grands nombres de cas d'utilisation potentiels pour la mise en œuvre de l'IA. Cependant, la vie privée est une pierre d'achoppement. Le traitement des patients et les autres dossiers médicaux ne peuvent être utilisés sans autorisation. En outre, il est très peu probable qu'un patient approuve l'utilisation d'informations privées de cette manière.

Les données synthétiques aident les entreprises à contourner ces problèmes, car elles ne sont pas générées à partir de cas réels. Au lieu de cela, ils reproduisent ces cas et extrapolent mathématiquement les données. Ainsi, la confidentialité est préservée. De plus, tous les avantages mentionnés précédemment de l'utilisation de données synthétiques jouent également ici.

Une évidence

L'utilisation de l'IA recèle un énorme potentiel pour les industries du monde entier, mais le manque de données présente de sérieux obstacles. Les données synthétiques offrent les meilleures solutions, grâce à une combinaison de suppression des biais, d'annotation facile et d'absence de problèmes de confidentialité.




Source link