Site icon Blog ARC Optimizer

Boîtes de connaissances en cours Agentic RAG

Boîtes de connaissances en cours Agentic RAG


Les boîtes de connaissances sont les conteneurs disparates où les données résident au sein du Progress Agentic RAG. Découvrez comment ils gèrent les données, les accès et bien plus encore.

Dans nos articles précédents, nous avons exploré comment fonctionne RAG, que sont les intégrations et comment utiliser le tableau de bord Progress Agentic RAG pour télécharger un document et poser des questions en langage naturel à ce sujet. Nous avons même regardé réglage des configurations de recherche pour améliorer la qualité de la récupération.

Dans cet article, nous effectuons un zoom arrière sur un niveau et examinons où se trouvent réellement ces données. Progress Agentic RAG organise tout ce que nous indexons : fichiers, pages Web, extraits de texte et même questions-réponses structurées, dans des conteneurs isolés appelés Boîtes de connaissances.

Dans cet article, nous expliquerons le fonctionnement des Knowledge Box, la manière dont l’accès est géré et la manière dont nous ingérons différents types de données à l’aide du tableau de bord sans code Progress Agentic RAG.

Boîte de connaissances

UN Boîte de connaissances est un espace de travail sécurisé et autonome au sein de notre compte Agentic RAG. Chaque boîte de connaissances stocke son propre ensemble de ressources (par exemple, des fichiers PDF, des documents, des pages Web, etc.), ainsi que les intégrations et les métadonnées qui rendent ces ressources consultables.

Cet isolement nous donne beaucoup de flexibilité dans l’organisation de nos projets. Nous pourrions créer :

  • Une boîte de connaissances par équipe (par exemple, support, ventes, ingénierie)
  • Un par domaine de projet ou de produit (par exemple, documentation pour une application spécifique)
  • Un par client ou environnement (par exemple, une boîte de préparation pour l’expérimentation et une boîte de production pour les utilisateurs finaux)

Parce que chaque Knowledge Box est indépendante, son contenu n’est jamais mélangé à celui d’une autre. Lorsque nous interrogeons une boîte de connaissances, le système recherche uniquement son index, en gardant les résultats étendus et les autorisations claires.

Boîtes de connaissances publiques ou privées

Les boîtes de connaissances peuvent être soit publique ou privéet ce choix détermine qui peut voir et interroger leur contenu.

Boîtes de connaissances publiques sont idéaux lorsque nous voulons que quiconque puisse rechercher un ensemble de ressources organisées, comme la documentation produit ou un centre d’aide public, tout en gardant le contrôle sur qui peut ajouter ou modifier du contenu.

Boîtes de connaissances privées sont conçus pour les données internes ou sensibles. Seuls les utilisateurs autorisés peuvent y accéder, et Agentic RAG n’applique pas d’autorisations au niveau du champ ou du document à l’intérieur d’une boîte ; une fois que quelqu’un y a accès, il peut voir tout son contenu.

Depuis le tableau de bord, nous pouvons rendre publique une Knowledge Box en ouvrant son Paramètres et en cliquant Publier. Les boîtes privées restent entièrement verrouillées sauf si les requêtes proviennent d’utilisateurs authentifiés ou d’applications configurées avec les clés API appropriées.

Créer une boîte de connaissances

Quand on clique Boîtes de connaissances dans la barre latérale du compte, puis sélectionnez Créer une boîte de connaissancesAgentic RAG nous guide à travers un court formulaire. C’est ici que nous définissons la portée et le comportement de l’espace de travail que nous sommes sur le point de créer.

Le flux de création est organisé en quelques sections clés :

Informations sur la boîte de connaissances

Nous commençons par donner à la boîte un nom et un facultatif description. Le champ de description est un excellent endroit pour capturer l’intention : quelles équipes s’appuient sur cette boîte, à quels types de questions elle doit répondre et toutes les contraintes de haut niveau (par exemple, « Uniquement le contenu révisé et prêt pour la production »).

Région

Ensuite, nous choisissons où les données de la Knowledge Box seront stockées. Agentic RAG nous permet de choisir entre plusieurs régions (par exemple, Europe, Israël (AWS), Europe (AWS), USA (AWS)). Cette décision impacte :

  • Résidence et conformité des données (par exemple, conservation des données de l’UE dans l’UE)
  • Latence, puisque les requêtes sont acheminées vers la région sélectionnée

Dans les organisations multirégionales, nous pourrions créer des Knowledge Box distinctes pour chaque zone géographique afin de nous conformer aux réglementations locales tout en utilisant une plate-forme RAG cohérente.

Modèles d’intégration

Ici, nous pouvons choisir un ou plusieurs modèles d’intégration pour la Knowledge Box. Comme nous l’avons couvert dans notre Que sont les intégrations ? article, les intégrations sont des empreintes numériques de notre contenu qui alimentent la recherche sémantique et RAG. Agentic RAG nous permet de sélectionner jusqu’à cinq modèles, qui peuvent être :

  • Modèles propriétaires Agentic RAG optimisé pour :
    • Contenu en anglais uniquement
    • Langues communes (la plupart des langues européennes plus l’arabe, le chinois et le japonais)
    • Autres langages pour les scénarios à longue traîne
    • Langages communs – Expérimental**, spécialement adaptés aux cas d’utilisation de RAG
  • Modèles de partenaires externesoù les intégrations sont calculées sur une infrastructure partenaire de confiance

Nous pouvons mélanger et assortir ces modèles dans une seule Knowledge Box, ce qui facilite la comparaison des performances sur nos données réelles sans tout réingérer à partir de zéro.

Anonymisation

Enfin, nous pouvons éventuellement activer Anonymisation conforme au RGPD. Lorsque l’anonymisation est activée, Agentic RAG détecte et supprime automatiquement les données personnelles telles que :

  • Noms des individus
  • Numéros de téléphone et adresses e-mail
  • Comptes bancaires et numéros de carte de crédit

C’est important pour les environnements réglementés, mais cela s’accompagne d’un compromis important : les données supprimées ne sont plus consultables. Nous ne devons activer l’anonymisation que lorsque nous en avons besoin pour des raisons juridiques ou de conformité.

Une fois ces champs configurés, on clique Créer une boîte de connaissanceset Agentic RAG fournit un nouvel espace de travail. C’est Maison Le tableau de bord affiche le point de terminaison de l’API, l’UID, la région, le statut (public ou privé), le modèle d’intégration par défaut et les métriques en temps réel pour le stockage et l’utilisation.

Télécharger des données vers une boîte de connaissances

Une fois une Knowledge Box créée, notre prochaine étape consiste à l’alimenter en contenu. Dans la navigation de gauche à l’intérieur d’une boîte, nous sélectionnons Télécharger des donnéesqui ouvre un tableau de bord simple entièrement axé sur l’ingestion.

Agentic RAG prend en charge plusieurs méthodes d’ingestion, telles que des fichiers individuels, des dossiers, des liens Web, des ressources textuelles, des plans de site et des paires de questions-réponses, ce qui nous permet d’importer tout, des PDF et présentations de diapositives au contenu de sites Web et aux FAQ structurées, sans quitter l’interface sans code.

En pratique, la plupart des équipes commencent par télécharger quelques documents clés sous forme de fichiers. Nous choisissons le Déposer option, faites glisser et déposez un ou plusieurs documents, laissez la détection automatique de la langue activée, puis cliquez sur Ajouter. En coulisses, Agentic RAG extrait le texte, le décompose en segments compatibles RAG, génère des intégrations à l’aide de nos modèles sélectionnés et ajoute les nouveaux vecteurs à l’index Knowledge Box.

Si vous souhaitez découvrir ce processus, consultez notre article précédent sur en utilisant le tableau de bord Progress Agentic RAGoù nous parcourons l’ensemble du flux de manière un peu plus détaillée et montrons comment télécharger un document et commençons immédiatement à poser des questions en langage naturel à ce sujet.

Conclure

Les boîtes de connaissances sont l’épine dorsale de Progress Agentic RAG. Ce sont des conteneurs isolés qui contiennent les ressources dont dépendent nos systèmes RAG.

Lorsque nous choisissons la bonne région, en intégrant des modèles et des paramètres d’anonymisation, puis que nous utilisons la vue Télécharger des données pour ingérer nos documents de base, nous pouvons créer des bases de connaissances riches et bien organisées sans écrire de code.

Tout ce que nous avons exploré dans les articles précédents, des intégrations à la configuration de la recherche et aux réponses basées sur RAG, s’appuie sur cette base.

Pour plus de détails et pour démarrer avec Progress Agentic RAG, assurez-vous de consulter les ressources suivantes :




Source link
Quitter la version mobile