LLM, grands nombres et données bruyantes : pourquoi plus gros n’est pas toujours meilleur en IA
Vous souvenez-vous du vieil adage « Garbage in, garbage out ? » Cela est toujours vrai aujourd’hui, en particulier avec l’essor de l’IA et des grands modèles linguistiques dans les entreprises et les grandes quantités de données que ces technologies utilisent comme base.
Selon un récent rapport d’Accenture (2023), 73 % des entreprises affirment que l’IA est leur principale priorité en matière d’investissement numérique. Même si les entreprises souhaitent capitaliser sur le potentiel de l’IA, elles font preuve de prudence dans la façon dont elles la mettent en œuvre au sein de leur organisation, car beaucoup reconnaissent que plus grande n’est pas toujours mieux et peut conduire à des biais et des inexactitudes dans les données.
Dans ce blog, je partage mon point de vue sur les raisons pour lesquelles nous devons nous comprendre nous-mêmes, comprendre nos données et nos entreprises afin d’atténuer les pièges potentiels qui surviennent lorsque nous traitons avec cette technologie susceptible de changer le monde.
L’impact des données bruyantes dans l’IA générative
Un biais dans les données peut résulter de données bruyantes. Les données bruyantes peuvent avoir un impact sur les performances de l’entreprise, ainsi que sur les prévisions, la prise de décision, les ressources et l’expérience client. Mais qu’est-ce que les données bruitées ? Regardons Définition de TechTarget :
Le terme « données bruyantes » est souvent utilisé comme synonyme de « données corrompues ». Cependant, sa signification a été élargie pour inclure tout type de données que les machines ne peuvent pas lire ou interpréter correctement, telles que les « données non structurées ». En d’autres termes, toute donnée reçue, enregistrée ou modifiée de telle manière qu’il est impossible pour le programme qui l’a créée de la lire ou de l’utiliser peut être classée comme bruyante.
En gardant cela à l’esprit, explorons où l’on pourrait trouver des données bruitées, comment cela est lié au volume considérable de données dont l’IA doit être entraînée et explorons pourquoi nous devons examiner notre compréhension de ce volume croissant et où nous, en tant qu’humains, pourrions tomber et avoir besoin de l’aide de la technologie pour donner un sens à cette échelle.
Grands nombres, infini et IA
Les humains n’ont jamais eu besoin de voir au-delà des dizaines, des centaines ou peut-être même des milliers. Lors de la chasse, nous chassions le gibier en nombre relativement restreint. Lorsque nous devions éviter les menaces, elles étaient généralement de nature singulière. Lorsque nous manipulions le monde, nous ne déplacions, plantions, construisions, etc. qu’un nombre relativement restreint d’objets. Par conséquent, jusqu’à récemment dans l’histoire de l’évolution, notre cerveau n’a jamais eu à gérer de grands ensembles de choses, 1 000, voire plus de 10 000. Ainsi, nos expériences passées ont façonné notre cerveau dans un endroit où nous ne pouvons pas imaginer les limites supérieures des chiffres provenant de notre monde moderne axé sur les données.
Bien que l’expérience humaine soit limitée, en termes de nombres et de dimensions, les technologies d’IA peuvent fonctionner avec des nombres bien au-delà de notre compréhension et n’ont aucune difficulté à regarder au-delà de notre monde à quatre dimensions. ChatGPT ou la version derrière l’itération actuelle utilise 12 288 dimensions, chaque dimension étant un aspect du mot (douceur, fréquence, registre, etc.), à laquelle est ensuite attribuée une valeur pour chaque propriété que ChatGPT attribue à ce mot. Nous ne pouvons pas visualiser ces dimensions. ChatGPT ne peut pas « afficher » nous à quoi cela ressemble mais c’est comme ça, et d’autres LLM (Large Language Models), «voir» son univers.
Là où converge notre expérience de l’univers, c’est l’infini. L’IA et nous ne pouvons pas visualiser, dessiner ou même imaginer avec précision à quoi ressemble l’infini. C’est trop grand, trop vaste, au-delà des limites de notre existence. Nous, c’est-à-dire à la fois l’IA et nous, pouvons l’utiliser dans des équations et des calculs mathématiques. Mais en le manifestant dans nos existences respectives, nous n’en sommes tout simplement pas encore là.
Alors, pourquoi parler d’infini ? Eh bien, des choses étranges se produisent lorsque vous accédez à des nombres de plus en plus grands, et c’est également le cas lorsque vous utilisez des ensembles de données de plus en plus volumineux pour entraîner l’IA.
Les grands nombres jouent des tours à notre esprit et dépassent la compréhension. Si je vous disais que je pouvais vous donner soit 10 000, soit 9 999 999 $, avec tous ces neuf pour toujours, en espèces, lequel choisiriez-vous ? Vous iriez avec les neuf, n’est-ce pas ? Et si je vous disais que le nombre infini de neuf est égal à -1. C’est la même chose pour 0,999999… ou tous les neuf partant à droite de la virgule décimale seulement maintenant, vous seriez mieux dans votre situation car ce nombre est égal à un. Ceci utilise le système numérique à 10 adiques, qui ne vous inquiète pas si vous ne le comprenez pas, il y a une excellente explication à ce sujet ici.
Mais encore une fois, tous ces chiffres sont pâles en comparaison de l’infini. On dit qu’en raison de la nature de notre univers, de la nature aléatoire de la mécanique quantique, des probabilités, etc., si notre univers était infini, avec un nombre infini d’atomes ; alors, si vous commenciez à voyager à travers l’espace en ligne droite, vous finiriez par rencontrer une autre Terre. Identique en tous points à notre propre Terre, y compris en contenant votre sosie réel qui a vécu sa vie de la même manière, qui lit également cet article en ce moment.
Maintenant, dans cet univers et même dans le nôtre, cette quantité de chiffres ou de données est trop lourde à gérer pour notre cerveau. Cela crée de la confusion et nous submerge presque. Il y a tellement de choses qui ne nous sont pas très significatives ou accessibles. Et c’est là que nous commençons à converger avec l’IA. À mesure que nous augmentons la quantité de données transmises à notre IA, qu’il s’agisse de ChatGPT ou de toute autre IA, le bruit dans les données, les aberrations, les erreurs, les choses dont l’IA n’a pas besoin ou ne veut pas, peuvent interférer avec ce que nous recherchons. comme sortie (le signal). Et lorsque l’on ajoute des données inaccessibles, comme des données non structurées dans certains cas, ce bruit ne fait qu’augmenter.
IA générative pour l’entreprise
Les entreprises devraient examiner en profondeur les données qu’elles utilisent pour former leurs IA. Ils devraient nettoyer, organiser, harmoniser et modéliser leurs données propriétaires avant même que l’IA ne les examine pour s’assurer que ce bruit est réduit et que les données requises sont considérablement moindres. Cela supprimera non seulement la majeure partie du bruit de la sortie, mais réduira également le coût de formation de l’IA, se rapprochant ainsi d’un MLM (Medium Language Model).
Les entreprises doivent s’assurer que la plate-forme de données qu’elles utilisent pour réaliser l’IA (qu’il s’agisse d’un LLM, d’un MLM ou d’un autre modèle d’IA) – est évolutive, multimodèle et sécurisée. Les fonctionnalités supplémentaires à rechercher sont de savoir si votre plate-forme de données peut gérer les métadonnées, c’est-à-dire extraire des faits des entités dans les données, combiner ces données avec des métadonnées, leur emplacement dans une taxonomie, l’ontologie autour des données, les liens et les relations avec d’autres données et harmoniser. les données dans le modèle canonique correct pour l’IA. Étant donné que la plate-forme de données peut utiliser des données tierces ou gérer des données sensibles, il est également important de prêter attention aux aspects de sécurité. Cela inclut la fourniture d’une piste vérifiable afin que les modifications apportées aux données puissent être retracées jusqu’à la source, en cas de problème lors de la présentation de ces modifications à l’IA.
Couvrir toutes ces bases nécessite souvent plusieurs technologies. Toutefois, si vous assemblez plusieurs systèmes différents, vous vous retrouverez avec une architecture fragile, difficile à maintenir et à gérer. C’est pourquoi vous devez considérer la plateforme de données comme quelque chose qui peut évoluer et changer lorsque de nouvelles données et/ou systèmes sont ajoutés à la plateforme.
Nous avons un long chemin à parcourir avant de perfectionner notre compréhension de l’IA, des LLM et des MLM et de la façon dont les données, quel que soit leur volume ou leur forme, peuvent influencer le résultat. Mais disposer de la bonne technologie de données est indispensable si nous voulons réduire le bruit et le rendre aussi performant que possible. Nous devons tout faire pour que les IA que nous créons au fur et à mesure nous donnent les signaux les plus clairs et, surtout, les réponses les plus correctes possibles.
Conclusion
Les entreprises investissent déjà dans l’amélioration de la précision, de la transparence, de la fiabilité et de la sécurité de ces systèmes d’IA et les intègrent dans leurs activités pour améliorer leurs opérations commerciales et leur efficacité.
Source link