Fermer

janvier 6, 2025

Que signifie réellement l’IA ? — fracassant

Que signifie réellement l’IA ? —   fracassant


En tant qu’êtres humains, nous ne nous soucions pas trop de nous assurer que les connexions atterrissent au bon point. Notre cerveau fonctionne de cette façon, de manière déclarative. Cependant, pour construire l’IA, nous devons être plus explicites. Allons-y !

En 2024, l’intelligence artificielle (IA) est sous le feu des projecteurs avec des avancées majeures. Le problème lorsqu’il s’agit d’atteindre si rapidement une notoriété publique et d’attirer autant d’attention du public est que le terme devient ambigu. Bien que nous ayons tous une idée de ce que signifie « utiliser l’IA » dans quelque chose, on ne comprend pas très bien quelle infrastructure implique l’IA dans votre projet, produit ou fonctionnalité.

Alors, décomposons les concepts qui font que l’IA cocher. Comment les données sont-elles stockées et corrélées, et comment les relations sont-elles construites pour qu’un algorithme apprendre comment interpréter ces données ? Comme pour la plupart des architectures orientées données, tout commence par une base de données.

Données sous forme de coordonnées

La création d’intelligence, qu’elle soit artificielle ou naturelle, fonctionne de manière très similaire. Nous stockons des morceaux d’informations, puis nous connecter eux. Plusieurs outils de visualisation et métaphores le montrent dans un espace tridimensionnel avec des points reliés par des lignes sur un graphique. Ces connexions et leurs intersections constituent l’intelligence. Par exemple, nous associons « le chocolat est doux et bon » et « boire du lait chaud, ça réchauffe », et nous faisons du « chocolat chaud ».

Tony Stark dans Iron Man 2 regardant une représentation 3D d'une molécule — ce qui se trouve être une excellente représentation d'un graphique de grande dimension.
(Crédit image : Marvel Studios)

En tant qu’êtres humains, nous ne nous soucions pas trop de nous assurer que les connexions atterrissent au bon point. Notre cerveau fonctionne de cette façon, de manière déclarative. Cependant, pour construire l’IA, nous devons être plus explicites. Considérez-le donc comme une carte. Pour qu’un avion quitte le PaysA et arrive au PaysB il faut un système précis : nous avons des coordonnées, nous avons 2 axes sur nos cartes, et ils peuvent être représentés sous forme de vecteur : [28.3772, 81.5707].

Pour notre intelligence, nous avons besoin d’un système plus complexe ; 2 dimensions ne suffiront pas ; nous avons besoin des milliers. C’est quoi bases de données vectorielles sont. Notre intelligence peut désormais corréler les termes en fonction de la distance et/ou de l’angle qui les sépare, créer des références croisées et établir des modèles dans lesquels chaque terme apparaît.

Une base de données spécialisée qui stocke et gère les données sous forme de vecteurs de grande dimension. Il permet d’être efficace recherches de similarité et correspondance sémantique.

Interrogation par approximation

Comme indiqué lors de la dernière session, faire correspondre les termes de recherche (votre invite) aux données est l’exercice de correspondance sémantique (il établit le modèle dans lequel les mots-clés de votre invite sont utilisés dans ses propres données), et la recherche de similarité, la distance (angulaire ou linéaire) entre chaque entrée. C’est en fait une représentation à peu près précise. Ce qu’une recherche de similarité fait, c’est définir chacun des nombres dans un vecteur (qui fait des milliers de coordonnées), un point dans cet étrange espace multidimensionnel. Enfin, pour établir une similarité entre chacun de ces points, la distance et/ou les angles qui les séparent sont mesurés.

C’est l’une des raisons pour lesquelles l’IA n’est pas déterministe – nous ne le sommes pas non plus – pour la même invite, la recherche peut produire des résultats différents en fonction de la façon dont les scores sont définis à ce moment-là. Si vous construisez un système d’IA, il existe des algorithmes que vous pouvez utiliser pour établir comment vos données seront évaluées.

Cela peut produire des résultats plus précis et exacts en fonction du type de données. Les principaux algorithmes utilisés sont au nombre de 3, et chacun d’entre eux fonctionne mieux pour un certain type de données. Il est donc important de comprendre la forme des données et la manière dont chacun de ces concepts sera corrélé pour choisir le bon. De manière très schématique, voici la règle empirique pour vous offrir un indice pour chacun :

  • Similitude cosinus
    Mesure l’angle entre les vecteurs. Donc si l’ampleur (le nombre réel) est moins importante. C’est génial pour la similarité texte/sémantique
  • Produit scalaire
    Capture la corrélation et l’alignement linéaires. C’est idéal pour établir des relations entre plusieurs points/caractéristiques.
  • Distance euclidienne
    Calcule la distance en ligne droite. C’est bon pour les espaces numériques denses car cela met en évidence la distance spatiale.

INFOS

Lorsque vous travaillez avec des données non structurées (comme des entrées de texte : vos tweets, un livre, plusieurs recettes, la documentation de votre produit), similarité cosinus est la voie à suivre.

Maintenant que nous comprenons comment la masse de données est stockée et comment les relations sont établies, nous pouvons commencer à parler du fonctionnement de l’intelligence : que la formation commence !

Modèles de langage

Un modèle linguistique est un système formé pour comprendre, prédire et enfin générer un texte de type humain en apprenant des modèles statistiques et des relations entre des mots et des expressions dans de grands ensembles de données textuelles. Pour un tel système, la langue est représentée par séquences probabilistes.

De cette façon, un modèle de langage est immédiatement capable d’être complété de manière efficace (d’où la citation selon laquelle 90 % du code de Google est écrit par l’IA – auto-complétion), de traduction et de conversation. Ces tâches sont les fruits les plus faciles de l’IA car elles dépendent de l’estimation de la probabilité de combinaisons de mots et s’améliorent en réaffirmant et en ajustant les modèles en fonction des retours d’utilisation (en rééquilibrant les scores de similarité).

À partir de maintenant, nous comprenons ce qu’est un modèle de langage et nous pouvons commencer à les classer comme grand et petit.

Grands modèles de langage (LLM)

Comme son nom l’indique, utilisez des ensembles de données à grande échelle et des milliards de paramètres, par exemple jusqu’à 70 milliards. Cela leur permet d’être diversifiés et capables de créer des textes de type humain dans différents domaines de connaissances. Considérez-les comme de grands généralistes. Cela les rend non seulement polyvalents mais extrêmement puissants. Et par conséquent, leur formation nécessite beaucoup de travail informatique.

Petits modèles de langage (SLM)

Avec un ensemble de données plus petit, avec des nombres allant de 100 millions à 3 milliards de paramètres. Ils nécessitent beaucoup moins d’efforts de calcul, ce qui les rend moins polyvalents et mieux adaptés à des tâches spécifiques avec des contraintes plus définies. Les SLM peuvent également être déployés plus efficacement et avoir une inférence plus rapide lors du traitement des entrées utilisateur.

Mise au point

Le réglage fin d’un LLM consiste à ajuster les poids du modèle grâce à une formation spécialisée supplémentaire sur un ensemble de données spécifique (de haute qualité). Fondamentalement, adapter un modèle pré-entraîné pour mieux fonctionner dans un domaine ou une tâche particulière.

À mesure que la formation parcourt les heuristiques du modèle, elle permet une compréhension plus nuancée. Cela conduit à des sorties plus précises et spécifiques au contexte sans créer de modèle de langage personnalisé pour chaque tâche. À chaque itération de formation, les développeurs ajusteront le taux d’apprentissage, les pondérations et la taille des lots tout en fournissant un ensemble de données adapté à ce domaine de connaissances particulier. Bien entendu, chaque itération dépend également d’une analyse comparative appropriée des performances de sortie du modèle.

Comme mentionné ci-dessus, réglage fin est particulièrement utile pour appliquer une tâche déterminée dans un domaine de connaissances de niche, par exemple, créer des résumés d’articles scientifiques sur la nutrition, corréler les symptômes avec un sous-ensemble de conditions possibles, etc.

Le réglage fin n’est pas quelque chose qui peut être effectué fréquemment ou rapidement, nécessitant de nombreuses itérations, et il n’est pas destiné à fournir des informations factuelles, surtout si cela dépend de l’actualité ou d’informations diffusées en continu.

Améliorer le contexte avec des informations

La plupart des conversations que nous avons dépendent directement du contexte ; avec l’IA, ce n’est pas tellement différent. S’il existe certes des cas d’usage qui ne dépendent pas entièrement de l’actualité (traductions, synthèses, analyse de données, etc.), bien d’autres le font. Cependant, il n’est pas encore tout à fait réalisable de former quotidiennement des LLM (ou même des SLM).

Pour cela, une nouvelle technique peut aider : Génération augmentée par récupération (CHIFFON). Elle consiste à injecter un ensemble de données plus réduit dans les LLM afin de lui fournir des informations plus spécifiques (et/ou actuelles). Avec un RAG, le LLM n’est pas mieux formé ; il a toujours toute la formation généraliste qu’il avait auparavant – mais maintenant, avant de générer le résultat, il reçoit une ingestion de nouvelles informations à utiliser.

INFOS

RAG améliore le contexte du LLM, en lui fournissant une compréhension plus complète du sujet.

Pour qu’un RAG fonctionne bien, les données doivent être préparées/formatées de manière à ce que le LLM puisse les digérer correctement. Sa configuration est un processus en plusieurs étapes :

  1. Récupération
    Interrogez des données externes (telles que des pages Web, des bases de connaissances et des bases de données).
  2. Pré-traitement
    Les informations subissent un prétraitement, y compris la tokenisation, la racine et la suppression des mots vides.
  3. Génération ancrée
    Les informations récupérées prétraitées sont ensuite intégrées de manière transparente dans le LLM pré-entraîné.

RAG récupère d’abord les informations pertinentes d’une base de données à l’aide d’une requête générée par le LLM. L’intégration d’un RAG à un LLM améliore son contexte, lui offrant une compréhension plus complète du sujet. Ce contexte augmenté permet au LLM de générer des réponses plus précises, informatives et engageantes.

Puisqu’elle permet d’accéder à des informations récentes via des enregistrements de bases de données faciles à mettre à jour, cette approche est principalement destinée aux réponses basées sur les données. Parce que ces données sont centrées sur le contexte, elles fournissent également plus d’exactitude aux faits. Considérez un RAG comme un outil pour transformer votre LLM de généraliste en spécialiste.

L’amélioration d’un contexte LLM via RAG est particulièrement utile pour les chatbots, les assistants, les agents ou d’autres utilisations où la qualité du résultat est directement liée à la connaissance du domaine. Mais, bien que RAG soit la stratégie visant à collecter et « injecter » des données dans le contexte du modèle de langage, ces données nécessitent une saisie, et c’est pourquoi elles nécessitent également du sens. intégré.

Intégration

Pour rendre les données digestibles par le LLM, nous devons capturer la signification sémantique de chaque entrée afin que le modèle de langage puisse former les modèles et établir les relations. Ce processus est appelé intégrationet cela fonctionne en créant une représentation vectorielle statique des données. Différents modèles de langage ont différents niveaux d’intégration de précision. Par exemple, vous pouvez avoir des intégrations allant de 384 dimensions jusqu’à 3072.

En d’autres termes, par rapport à nos coordonnées cartésiennes sur une carte (par exemple, [28.3772, 81.5707]) avec seulement deux dimensions, une entrée intégrée pour un LLM a de 384 à 3072 dimensions.

Construisons

J’espère que cela vous a aidé à mieux comprendre ce que signifient ces termes et les processus qui englobent le terme « IA ». Cependant, cela ne fait qu’effleurer la surface de la complexité. Nous devons encore parler des agents IA et de la manière dont toutes ces approches s’entremêlent pour créer des expériences plus riches. Peut-être pourrons-nous le faire dans un article ultérieur — faites-moi savoir dans les commentaires si vous le souhaitez !

Entre-temps, fais-moi savoir vos pensées et ce que vous construisez avec ça !

Lectures complémentaires sur SmashingMag

Éditorial fracassant
(je)




Source link