Base de données vectorielles vs Knowledge Graph : faire le bon choix lors de la mise en œuvre de RAG

L’IA générative (GenAI) continue d’étonner les utilisateurs par sa capacité à synthétiser de grandes quantités d’informations pour produire des résultats quasi instantanés. Même si ce sont ces résultats qui retiennent toute l’attention, la véritable magie se produit dans les coulisses, où des techniques complexes d’organisation et de récupération des données permettent d’établir des connexions entre des points de données disparates. C’est également un domaine dans lequel de nombreux technologues diffèrent sur la meilleure approche.
Au cœur de la problématique se trouve la génération augmentée par récupération (RAG), une technique de traitement du langage naturel combinant la récupération de données avec un modèle GenAI. Avec RAG, pour la première fois, les solutions basées sur GenAI peuvent améliorer leurs propres connaissances et génération de contenu en récupérant des informations à partir de sources externes, au lieu de simplement s’appuyer sur des ensembles de données préprogrammés. Ce bond en avant monumental a de vastes implications pour les entreprises, la société et la technologie. Mais l’étape critique de la préparation des données ne peut être négligée – et aujourd’hui, elle utilise des technologies vieilles de plusieurs décennies.
Choisir la bonne architecture de données
Actuellement, deux technologies principales sont utilisées pour organiser les données et le contexte nécessaires à un cadre RAG afin de générer des réponses précises et pertinentes : les bases de données vectorielles (DB) et les graphiques de connaissances. Même si ces technologies de gestion de données ne sont peut-être pas aussi intéressantes que RAG, si les DSI veulent que leurs nouveaux jouets fonctionnent correctement, les bases de données vectorielles et les Knowledge Graphs doivent être une priorité absolue.
Le défi est le suivant : les deux impliquent des exécutions très différentes et – à un moment donné – les DSI devront décider s’il serait préférable d’utiliser une base de données vectorielle ou un Knowledge Graph. Lequel est le meilleur ? Ça dépend.
Avant d’aller de l’avant, les DSI réfléchissent au problème qu’ils tentent de résoudre avec RAG et à la complexité de leurs données, puis comparent leurs besoins avec les avantages et les inconvénients de chaque architecture de données.
Une base de données vectorielle stocke et gère les données non structurées — texte, images, audio, etc. — sous forme d’intégrations vectorielles (format numérique). Ces intégrations capturent les relations sémantiques entre les points de données. Lorsque le framework RAG recherche Vector DB pour récupérer des données, il recherche rapidement des vecteurs mathématiquement proches, qui impliquent une signification similaire, et pas seulement une correspondance de mots clés.
Les Knowledge Graphs, en revanche, représentent les données comme un réseau de nœuds (entités) et de bords (relations). Ils peuvent traiter des requêtes plus complexes et nuancées en fonction des types de connexions, de la nature de leurs nœuds, de leur structure et de leurs propriétés. Ils peuvent également capturer des relations sémantiques riches qui pourraient être perdues dans un espace intégré vectorisé.
Par conséquent, il est préférable de choisir un Knowledge Graph lorsque l’organisation a besoin d’un outil puissant pour structurer des données complexes dans un réseau interconnecté qui facilite la représentation des données et retrace les relations et le lignage entre les points de données. Les Knowledge Graphs sont pratiques lorsqu’il est essentiel de comprendre le contexte et les connexions au sein des données. Le LLM peut dire : « Ma réponse est venue de ces triplets ou de ce sous-graphe. »
Les raisons de choisir une base de données vectorielle plutôt qu’un Knowledge Graph incluent un coût et une vitesse inférieurs. Le Knowledge Graph peut être coûteux, mais si le cas d’utilisation nécessite un Knowledge Graph – où les informations sont nécessaires d’une manière que seul un Knowledge Graph peut fournir – alors le prix vaut la précision du résultat.
Quand choisir les Knowledge Graphs ou les bases de données vectorielles
Les cas d’utilisation spécifiques dans lesquels les bases de données Vector excellent se trouvent dans les systèmes RAG conçus pour aider les représentants du service client. Ces employés sont souvent chargés de répondre à un large éventail de requêtes des clients, allant de questions procédurales telles que la modification de la couverture d’une police existante à des demandes plus complexes telles que le dépôt d’une réclamation d’assurance automobile. Dans ces scénarios, le système RAG exploite une base de données vectorielle pour extraire dynamiquement les réponses les plus pertinentes à partir d’une base de connaissances structurée de procédures opérationnelles standard. Cela améliore la satisfaction des clients en réduisant les temps d’attente et en garantissant que les clients reçoivent des informations cohérentes.
Les bases de données vectorielles fonctionnent si bien dans ces contextes car elles peuvent effectuer des recherches sémantiques. Ils transforment les requêtes textuelles et les documents contenant des réponses potentielles en espaces vectoriels de grande dimension, facilitant l’identification du contenu dont le contenu sémantique s’aligne le plus étroitement avec la requête.
Les Knowledge Graphs ont tendance à donner de bons résultats dans des domaines tels que l’ajustement complexe des sinistres d’assurance, où les experts en sinistres doivent naviguer à travers un labyrinthe de points de données interconnectés. Ce rôle exige non seulement la récupération d’informations, mais aussi une compréhension approfondie des relations et des interdépendances entre les diverses entités. Les Knowledge Graphs brillent dans cet environnement complexe en fournissant une représentation structurée des relations entre les entités, telles que les polices, les réclamations et les clients.
Alors que les organisations font face aux complexités de la mise en œuvre de RAG, le choix entre les bases de données vectorielles et les Knowledge Graphs devient crucial. Bien que les deux offrent des avantages uniques, il est primordial de comprendre les besoins spécifiques en matière de données et les subtilités d’un cas d’utilisation particulier. Que les DSI optent pour la précision d’un Knowledge Graph ou l’efficacité d’une base de données Vector, l’objectif reste clair : exploiter la puissance des systèmes RAG et stimuler l’innovation, la productivité et une expérience utilisateur améliorée. Choisissez judicieusement et embarquez pour un voyage où la convergence de l’ingéniosité humaine et de l’intelligence artificielle redéfinit les possibilités de résolution collaborative de problèmes à l’ère numérique.
Apprendre encore plus sur la façon dont EXL peut mettre l’IA générative au service de votre entreprise ici.
A propos de l’auteur:
Andy Logani est le directeur du numérique chez EXXLl’un des principaux fournisseurs de services d’analyses, d’opérations et de solutions basées sur les données et l’IA.
Source link