Fermer

juin 26, 2025

Amélioration du Genai avec des données et des graphiques de connaissances multi-modes

Amélioration du Genai avec des données et des graphiques de connaissances multi-modes


Les entreprises intègrent l’IA génératrice (Genai) dans les flux de travail quotidiens et les offres de produits pour élever les expériences et la productivité des utilisateurs, y compris les agents d’IA, les chatbots, la résumé de contenu, les outils de génération de contenu et plus encore.

Bien que cette innovation apporte de nouvelles opportunités compétitives, les organisations doivent prendre la production directe du Genai avec prudence pour préserver la précision, l’authenticité et la sécurité de la marque.

À propos de Genai et LLMS

Les modèles de grands langues (LLM) sont des modèles pré-formés qui permettent Genai. Ces modèles contiennent des informations du domaine public et utilisent une approche statistique pour répondre aux questions. Bien que Genai et les LLM semblent avoir une réponse pour chaque question, ils ont des limites majeures.

Les risques des LLM comprennent:

  • Hallucinations – Produits d’un LLM générant une réponse fausse ou inexacte
  • Coupures de données – limitations des données en fonction des fenêtres de temps pour la formation du modèle
  • Biais de données – Résultats Lorsque le contenu utilisé pour former le modèle est incomplet ou contient des représentations intrinsèquement biaisées

À mesure que les modèles fondamentaux deviennent plus sophistiqués, ils seront capables de tirer des conclusions plus précises. La réalité aujourd’hui, cependant, est que la plupart des LLM fabriquer des informations et vous donnera de mauvaises réponses. Si vous voyez Genai comme un catalyseur prioritaire de la stratégie concurrentielle de votre entreprise, vous devez être conscient que les réponses erronées ont un coût et peuvent être préjudiciables à votre réputation. Une tactique d’atténuation des risques consiste à augmenter votre interaction avec le LLM pour partager les informations d’entreprise. Permettre à un modèle fondamental de puiser dans des connaissances profondes et spécifiques au domaine peut augmenter considérablement la précision de la réponse.

Les entreprises ont un trésor de données précieuses, telles que la recherche, la propriété intellectuelle et le contenu à différents niveaux de sécurité qui ne devraient pas être accessibles au public. Cela signifie que les organisations doivent être très prudentes quant à la façon dont ces informations sont transmises aux LLM.

Une façon d’empêcher le LLM de conserver les informations est de fournir les données dans la fenêtre de contexte invite. Génération de la récupération (RAG) est le processus de fourniture d’informations supplémentaires comme contexte pour le LLM. Il est devenu un modèle bien établi mis en œuvre par de nombreux produits de gestion de l’information.

Les équipes de Semaphore de Marklogic et de Progress Progress introduisent une approche unique du chiffon SHALMANT. Il combine des graphiques de connaissances et un contenu multimodèle avec un étiquetage sémantique et une recherche hybride complète dans un flux robuste. Cette approche vous permet de mélanger des modèles de données, tels que des concepts sémantiques, des documents et des vecteurs, les diviser en morceaux consommables et les récupérer via une seule API de requête. Cela s’est avéré augmenter considérablement la précision des réponses LLM.

Pourquoi des graphiques de connaissances et des données multimodèles?

La plupart des informations produites par l’entreprise ne sont pas structurées. L’IDC, une entreprise mondiale de renseignement du marché, indique que 80% de toutes les informations générées sont non structurées. Sans surprise, Forrester affirme que 80% des nouveaux pipelines de données sont conçus pour ingérer, traiter et stocker des données non structurées. Les systèmes traditionnels luttent avec un contenu non structuré et multimodèle. La possibilité de charger des données en tant que génie des données dans des formats, des schémas et des tailles variables est essentiel.

Les données multimodèles représentent des éléments qui ne s’intègrent pas traditionnellement dans les lignes et les colonnes. Des enregistrements tels que XML, JSON, PDFS et les documents de bureau ne sont que quelques formats Plate-forme marklogique peut gérer.

Les graphiques de connaissances sont composés d’objets et de faits interconnectés. Par exemple, la déclaration Le sirop de maïs élevé en fructose est un agent édulcorant exprime la relation entre un sujet et un objet. Un graphique de connaissances reflète également le monde qui vous entoure. Il peut imiter les processus commerciaux, les objets physiques réels ou même les domaines d’étude.

Dans le contexte des systèmes génératifs d’IA et de chiffon, graphiques de connaissances Ground LLMS en fait et leur fournir le contexte sémantique pour interpréter correctement l’intention de l’utilisateur et trouver les informations les plus pertinentes pour répondre à la requête de l’utilisateur. Parce que les graphiques de connaissances sont des cartes des connaissances de votre entreprise, ils agissent comme une mémoire à long terme cohérente pour les LLM qui peuvent être facilement et fréquemment mis à jour avec de nouveaux faits. Cela fournit un moyen efficace de calcul pour un LLM d’accéder et d’informations en surface avec une confiance reproductible et de valider les invites pour les systèmes d’IA.

De plus, l’ajout d’un couche sémantique En plus de votre système, vous aide à la classification, à l’organisation et à la découverte des informations. La capacité des systèmes à comprendre les concepts et la terminologie de votre entreprise est puissante. Par exemple, L’organisation R&D peut appeler un produit par son nom de code tandis que le département marketing y fait référence par son nom commercial. Construire un graphique de connaissances Des faits interconnectés et des termes harmonisés vous permettent d’opérer sur un terrain uniforme.

La plate-forme MarkLogic a la capacité unique de gérer le contenu multimodel et les graphiques de connaissances dans la même base de données. Le contenu peut être structuré, semi-structuré et non structuré, tandis que les objets du graphique de connaissances peuvent être des documents, des entités commerciales ou des parties d’un enregistrement. Avec ce système entièrement transactionnel, vous pouvez conserver les représentations des informations dans des documents, des graphiques et des index de recherche. Nous discuterons de la façon dont il est possible de gérer ces différentes formes et de les remettre en croix avec une grande efficacité et une grande flexibilité.

Construire le flux de travail de chiffon

Le flux de travail Rag a deux composants principaux: la préparation du contenu et la découverte de contenu.

Film de travail de chiffon sémantique construit en tirant des progrès Marklogic et Semaphore de progrès

Préparation de contenu

La préparation du contenu est le processus d’ingestion, de cinglé, de vectorisation et de classification des informations à utiliser dans le cadre du contexte du chiffon. Voici les étapes que nous allons couvrir dans cet article:

  • Ingérez le contenu en AS-IS dans MarkLogic Server. Cela peut contenir des documents (texte brut, XML, PDF, documents de bureau, etc.). Il est important de stocker l’original pour les références de lignée et de contenu pour la validation des utilisateurs.
  • Brisez chacun des enregistrements en composants plus petits appelés morceaux. Cela vous permettra de fournir un contenu plus ciblé au LLM et de rester dans le nombre maximum de jetons disponibles pour une fenêtre de contexte.
  • Classifiez les morceaux. La classification est le processus de marquage sémantiquement du contenu à l’aide d’un graphique de connaissances. Cela ajoute des informations dans les enregistrements tels que les métadonnées citationnelles et les balises de peuple.
  • Ajoutez des incorporations vectorielles aux morceaux. Les vecteurs codent la signification du contenu dans une représentation numérique. Les vecteurs peuvent être mis à profit pour re-recréer vos résultats en fonction de la similitude avec la question posée. Cela fournira un meilleur contexte pour le LLM.

Découverte de contenu

La découverte de contenu est le processus de recherche d’informations pertinentes dans un grand corpus de données. Une partie du processus de découverte de contenu consiste à déterminer les concepts clés dans la question d’un utilisateur, à découvrir des morceaux pertinents et à préparer une invite.

  • En interceptant la question de l’utilisateur, vous pouvez déterminer les concepts clés de la question de l’utilisateur en utilisant la puissance des graphiques de connaissances. Cela se fait de la même manière que le flux de travail de préparation de contenu.
  • La recherche basée sur la pertinence peut être utilisée pour rechercher ces concepts clés à travers le corps du texte.
  • Les capacités vectorielles peuvent être exploitées pour le rediffusion et la similitude sémantique.
  • La préparation rapide consiste à ajouter les morceaux au contexte du LLM afin que cette connaissance propriétaire puisse être utilisée pour répondre à la question.

Notre flux doit être construit d’une manière qui permet des corrections, de sorte que l’automatisation n’exacerbe pas les dysfonctionnements ou les inexactitudes inhérents à la LLM. Cela signifie que notre point de départ doit être suffisamment petit pour que les experts en la matière puissent contrôler et valider la sortie et aider le modèle à «apprendre». Cela conduit à une technologie plus fiable.

Les modèles fondamentaux sont déjà formés sur toutes les données auxquelles ils peuvent accéder sur Internet, mais ils n’ont toujours pas les «tacites» ou les connaissances sociales acquises uniquement grâce à l’expérience, pour porter des jugements justifiés. La clé ici est de ne pas aller à la manière générale et de déployer plutôt des systèmes d’IA dans de petits paramètres, sur des domaines spécifiques et d’intégrer progressivement les commentaires des experts et des interactions avec les utilisateurs. C’est là que les graphiques de connaissances peuvent aider à faciliter l’expérience d’apprentissage des modèles-experts.

Avant de commencer à préparer des informations pour le LLM, regardons sous le capot des graphiques de connaissances et comment en concevoir et en construire un dans notre prochain article.

Téléchargez le livre blanc complet à chiffon sémantique




Source link