Site icon Blog ARC Optimizer

Série de chiffon sémantique Partie 2: The Knowledge Graph

Série de chiffon sémantique Partie 2: The Knowledge Graph


Il s’agit de la deuxième partie de notre série de chiffons sémantiques, où nous plongeons dans la valeur des graphiques de connaissances et comment en construire un. Assurez-vous de lire la première partie d’abord:
Amélioration du Genai avec des données et des graphiques de connaissances multi-modes.

Utilisation de
graphiques de connaissancesa été en augmentation. Développés à l’origine par Google, ils aident à décrire le monde en terminologie claire et concise. Les organisations tirent parti des graphiques de connaissances dans le cadre d’une couche sémantique pour aider à ajouter un contexte à d’autres applications et informer davantage les utilisateurs des sujets d’intérêt.

Les graphiques de connaissances sont composés d’objets et de faits interconnectés. Par exemple, l’énoncé du sirop de maïs à forte fructose
estUn agent édulcorant exprime la relation entre un sujet et un objet. C’est une déclaration qui reflète un fait réel. Les graphiques de connaissances peuvent imiter les processus commerciaux, les objets physiques réels ou même les domaines d’étude comme la science du matériel.

Dans le contexte de
GÉNÉRATION AUGURATIVE (RAG)Les graphiques de connaissances apportent une valeur énorme. Ces faits en réseau peuvent être utilisés pour interpréter la saisie des utilisateurs, fournir un contexte à l’IA et aider à la découverte de données. Cela est particulièrement utile lorsque les gens utilisent des mots différents pour exprimer la même idée.

Par exemple, l’hormone «Glucagon-like peptide-1» peut être stockée dans le graphique de connaissances comme étiquette préférée pour ce concept. Cependant, il est communément mentionné par l’abréviation «GLP-1». De plus, il existe des contextes, comme un pays ou une communauté de recherche, où le même concept est référencé de différentes manières. Dans certaines régions, les termes de l’isoglucose –Sirop de maïs à forte fructoseet
Sirop de glucose-fructose– sont utilisés de manière interchangeable.

En codant ces cas dans votre graphique de connaissances, vous pouvez compléter les connaissances de l’IA avec vos informations propriétaires.

Concevoir un graphique de connaissances

Des graphiques de connaissances peuvent être construits à bien des égards. Le
Plate-forme de sémaphore progressisteA une interface utilisateur interactive qui peut être exploitée par des experts en la matière (PME) pour créer des modèles de connaissances. Ces modèles sont constitués de sujets et de concepts qui décrivent un domaine de connaissance particulier. Les modèles de connaissances peuvent être importés des ontologies et des taxonomies du domaine public, des vocabulaires contrôlés, tels que des catalogues de produits, ou définis en collaboration par vos PME. Une idée fausse commune est que les modèles de connaissances doivent être créés à partir de zéro. Nous parcourons plusieurs façons de tirer parti des informations disponibles pour construire vos modèles.

La première façon courante de relancer la création du modèle de connaissances est d’utiliser un modèle standard de l’industrie. L’exemple illustré ci-dessous est une importation du
Titres des sujets médicaux du NIH (maillage). Il s’agit d’un modèle standard de l’industrie utilisé pour classer les articles de recherche médicale. De nombreuses industries ont des ontologies ou des taxonomies accessibles au public, comme
FiboPour la finance, les sujets médiatiques IPTC pour l’édition de nouvelles ou le grand
données liéesEnsemble fourni par la Bibliothèque du Congrès. Ces modèles peuvent être importés dans le gestionnaire de modèles de connaissances Semaphore comme base de votre modèle ou lié à un gestionnaire existant pour étendre vos propres connaissances internes.

Image 1: Gestion des concepts d’un modèle de connaissances dans la plate-forme de sémaphore

En plus du processus ci-dessus, nous pouvons utiliser le cadre du Semaphore Natural Language Processing (NLP) pour exploiter des documents pour les concepts. Les organisations se trouvent sur de grands corpus de données contenant du texte de forme longue, des informations sur leurs processus et des informations de support pour gérer l’entreprise. Le processus d’exploration de données peut être mis à profit pour rechercher des entités nommées et des phrases nominales qui peuvent être distillées à un modèle de connaissances. À partir de ces rapports, vous pouvez intégrer des concepts de candidats dans votre modèle.

Image 2: un tableau des phrases et entités nominales de l’exploitation de texte

Enrichir le graphique de connaissances via Genai

Bien que votre corpus de données, désormais cartographié dans un graphique de connaissances, contient des informations précieuses, vous voudrez peut-être vous tourner vers des sources externes pour compléter et enrichir votre modèle. Semaphore Studio contient
Les intégrations Genai pour aider au développement de vos modèles de connaissances.

Pour commencer, sélectionnez un concept dans votre schéma. Dans le concept, vous pouvez tirer parti de Genai pour produire des étiquettes supplémentaires, ajouter des concepts plus étroits et fournir des métadonnées supplémentaires.

Image 3: Ajout d’étiquettes supplémentaires à un concept via Genai

Image 4: Ajouter des concepts plus étroits via Genai

Selon le modèle de grande langue, vous souhaiterez peut-être personnaliser votre invite. La plate-forme Semaphore vous permet également de personnaliser cette invite pour générer une liste plus concise de candidats.

Image 5: Personnalisez l’invite LLM pour la génération de concepts

Maintenant que vous avez un modèle de connaissance plus riche, la prochaine étape consiste à publier le modèle au
Service de classification du sémaphore. La classification utilisera le moteur NLP ainsi que les ensembles de règles générés à partir du modèle de connaissances. Avant d’exécuter des données via un flux automatisé, vous pouvez vérifier la classification à l’aide de l’outil d’analyseur de documents. Cela prendra du texte et utilisera les modèles pour
Classifier le contenu. Le modèle a trouvé des correspondances pour les concepts dans le modèle de connaissances et a également identifié des concepts basés sur les informations de support dans le texte. Remarque, le texte n’a pas besoin de référencer l’étiquette conceptuelle directement pour qu’un concept soit identifié. Si suffisamment d’informations à l’appui, elles classeront le texte avec le concept pertinent.

Image 6: Résultats de classification Identification des concepts clés

Vous avez maintenant un modèle de connaissances et une stratégie de classification bien développés. Le travail démontré ici a été effectué par un expert en la matière via l’interface utilisateur intuitive de la plate-forme de sémaphore. Les articles ultérieurs couvriront comment tirer parti des API pour interagir avec le modèle et les classifications à grande échelle, afin que vous puissiez continuer à préparer votre contenu pour la consommation.

Pour explorer le processus complet de conception d’un flux de travail de chiffon afin d’améliorer la précision de vos réponses LLM, téléchargez notre livre blanc sémantique.

Télécharger le livre blanc




Source link
Quitter la version mobile