Fermer

janvier 22, 2024

Quelle est votre stratégie de données pour un avenir de l’IA ?

Quelle est votre stratégie de données pour un avenir de l’IA ?



À mesure que les entreprises sont de plus en plus axées sur les données, le vieil adage informatique « garbage in, garbage out » (GIGO) n’a jamais été aussi vrai. L’application de l’IA à de nombreux processus métier ne fera qu’accélérer la nécessité de garantir la véracité et l’actualité des données utilisées, qu’elles soient générées en interne ou provenant de l’extérieur.

Les coûts des mauvaises données

Gartner a estimé que les organisations perdent en moyenne 12,9 millions de dollars par an en raison de l’utilisation de données de mauvaise qualité. Et IBM calcule ces mauvaises données coûtent à l’économie américaine plus de 3 000 milliards de dollars par an. La plupart de ces coûts sont liés au travail effectué au sein des entreprises pour vérifier et corriger les données à mesure qu’elles transitent par et entre les départements. IBM estime que la moitié du temps des travailleurs du savoir est gaspillée dans ces activités.

Outre ces coûts internes, il y a le problème plus grave de l’atteinte à la réputation des clients, des régulateurs et des fournisseurs du fait d’organisations agissant de manière inappropriée sur la base de données erronées ou trompeuses. Sports illustrés et son PDG l’a découvert récemment lorsqu’il a été révélé que le magazine publiait des articles écrits par de faux auteurs avec des images générées par l’IA. Alors que le PDG a perdu son emploi, la société mère, Arena Group, a perdu 20 % de sa valeur marchande. Il y a également eu plusieurs cas très médiatisés de cabinets juridiques qui se sont mis dans une situation délicate en soumettant de faux cas générés par l’IA comme preuve de préséance dans des litiges juridiques.

La boîte noire de l’IA

Bien que coûteuses, la vérification et la correction des données utilisées dans la prise de décision et les opérations commerciales de l’entreprise sont devenues une pratique établie pour la plupart des entreprises. Cependant, comprendre ce qui se passe avec certains grands modèles de langage (LLM) en termes de manière dont ils ont été formés, sur quelles données et si les résultats sont fiables, est une autre affaire compte tenu du taux croissant d’hallucinations. En Australie, par exemple, un maire régional élu a menacé de poursuivre OpenAI en justice suite à une fausse déclaration faite par ChatGPT de l’entreprise selon laquelle il avait purgé une peine de prison pour corruption alors qu’en fait, il avait été un lanceur d’alerte sur des activités criminelles.

Former un LLM sur des données fiables et adopter des approches telles que les requêtes itératives, la génération augmentée par récupération ou le raisonnement sont de bons moyens de réduire considérablement les dangers des hallucinations, mais ne peuvent garantir qu’elles ne se produiront pas.

Formation sur les données synthétiques

Alors que les entreprises recherchent un avantage concurrentiel en déployant des systèmes d’IA, les récompenses pourraient revenir à celles qui ont accès à des données propriétaires suffisantes et pertinentes pour entraîner leurs modèles. Mais qu’en est-il de la plupart des entreprises qui n’ont pas accès à ces données ? Des chercheurs ont prédit que les données textuelles de haute qualité utilisées pour la formation des modèles LLM seront épuisées avant 2026 si les tendances actuelles se poursuivent.




Source link