Vos données sont-elles prêtes pour l’IA ?

Par John Laffey, vice-président du marketing produit, DataStax.
Il est désormais clair que l’IA générative jouera un rôle important dans votre organisation. Et vous savez peut-être que l’obtention de réponses précises et pertinentes des applications d’IA générative (genAI) nécessite l’utilisation de votre atout le plus important : vos données.
Mais comment préparer vos données à l’IA ? Vous pensez peut-être que la première question à poser est « De quelles données ai-je besoin ? » Mais c’est une mauvaise approche du problème. Une genAI efficace et précise a besoin d’énormes quantités de données pour évaluer les requêtes. La première question est donc « De quelles données ai-je ? » La seconde est « Où sont ces données ? » Explorons certains des types de données courants qui présentent des défis – et comment les résoudre pour l’IA.
Données structurées
Les données structurées sont souvent le premier type de données qui vient à l’esprit lorsque l’on pense aux bases de données. Les données structurées sont toutes les données ordonnées stockées dans une base de données relationnelle ou NoSQL, une feuille de calcul Excel, une feuille Google ou tout autre support qui stocke les données en lignes et en colonnes. Cela peut inclure les enregistrements de commandes, l’inventaire, les tickets d’assistance et les enregistrements financiers, pour n’en nommer que quelques-uns.
Les données structurées peuvent résider à de nombreux endroits différents. Les plus courantes sont les bases de données traditionnelles comme Oracle, DB2 et PostGreSQL. Les lecteurs réseau, les lecteurs Google et même les disques locaux peuvent servir de référentiels pour de nombreuses petites collections de données telles que des feuilles de calcul. Les données structurées sont facilement disponibles pour être utilisées dans les applications d’IA.
Pourtant, il existe un défi commun pour préparer les données structurées à l’IA : la consolidation. Les données résident souvent dans différentes bases de données, dans divers centres de données ou dans différents cloud. La migration des données vers des bases de données similaires et la réplication des données sur plusieurs emplacements offrent la disponibilité et la vitesse requises pour les applications d’IA.
Données non structurées
Les données non structurées constituent généralement la majeure partie des informations disponibles pour les entreprises. Cette vaste catégorie comprend toutes les données ne résidant pas dans une base de données structurée, notamment les e-mails, les fichiers texte, les PDF, les pages Web, les fichiers multimédias, les feuilles de calcul, les réponses à des enquêtes et de nombreux autres formats de données qui ne sont pas facilement stockés dans des bases de données. La plupart des actifs organisationnels courants tels que les feuilles de calcul et les documents (parfois appelés données « semi-structurées ») entrent dans cette catégorie. Jusqu’à 90 % des données d’une organisation ne sont pas structurées.
Les données non structurées posent un défi important pour les utilisations de l’IA. Les formats de données très variés, la vaste gamme d’emplacements et de techniques de stockage et le volume considérable de données non structurées rendent presque impossible l’interrogation avec un modèle de requête standard. Prenons l’exemple d’une requête sur les « jours fériés de l’entreprise ». Les données pertinentes peuvent être publiées sur le site Web interne de votre organisation, dans des documents et des PDF sur des lecteurs partagés, ainsi que dans des e-mails stockés dans le cloud. Concevoir un modèle de requête unique pour atteindre tous ces emplacements et lire tous ces formats de données n’est pas pratique.
Obtenir des données non structurées prêtes pour l’IA nécessite deux éléments principaux : normaliser les données dans un format standard et consultable et consolider les données. C’est ici que les données vectorielles et bases de données vectorielles Les données vectorielles résolvent le problème de la gestion de grands volumes de données non structurées pour les rendre prêtes pour l’IA.
Données vectorielles
Le type de données standard pour l’IA est les données vectorielles. Les données vectorielles convertissent les données du texte en représentations numériques des données. La vectorisation « normalise » les données quel que soit le format d’origine. Les données vectorielles peuvent représenter des fichiers texte, des fichiers PDF, des pages Web ou même des fichiers audio. Vectoriser et stocker ces données (comme intégrations vectorielles) permet aux modèles d’apprentissage automatique d’effectuer des comparaisons mathématiques de points de données, permettant ainsi d’effectuer des requêtes sur des types de données auparavant divers.
Bien que les données vectorielles ne soient pas un nouveau format, c’est le type de données qui rend possible l’IA en temps réel. La capacité d’identifier rapidement les similitudes sémantiques entre d’énormes volumes de données donne aux LLM des résultats de requête suffisamment précis et complets pour s’adapter à de nombreuses applications d’IA. La vectorisation des données permet également de stocker les données dans une base de données unique et évolutive, réduisant ainsi le temps de requête, les coûts associés à la gravité des données et la latence du réseau.
Données graphiques
Les données graphiques améliorent les données vectorielles pour l’IA en maintenant des relations complexes entre les données qui sont difficiles à décrire autrement. Le vecteur avec graphique améliore la pertinence des résultats de l’IA en définissant explicitement les relations que d’autres requêtes peuvent manquer. Les données graphiques sont stockées sous forme de « nœuds » et de « bords ». Les bords définissent des relations entre les nœuds que d’autres structures de données ne peuvent pas maintenir facilement à grande échelle. La capacité de conserver et de traiter les données graphiques est particulièrement importante pour les grandes entreprises disposant d’énormes quantités de données qui doivent être utilisées pour l’IA.
Les bases de données graphiques existent depuis de nombreuses années et sont particulièrement adaptées à l’analyse de données complexes. Lors de la mise en œuvre de données graphiques pour l’IA, les performances ont été considérablement améliorées grâce à l’utilisation de « graphiques de connaissances ». Les graphiques de connaissances représentent les points de données et les relations entre eux. Ils illustrent la relation entre les données permettant aux requêtes d’établir des liens au-delà des similitudes sémantiques. Par exemple, un PDF peut contenir une URL intégrée vers un document associé. Une simple requête vectorielle n’établirait pas la connexion Symantec entre le contenu PDF et le document lié. Un graphe de connaissances cartographie cette connexion, permettant aux requêtes de parcourir les données mal évaluées.
Les graphiques de connaissances traitent les données graphiques beaucoup plus rapidement que les requêtes de bases de données graphiques traditionnelles. Ils fournissent un moyen plus simple de représenter les données graphiques. Les graphiques de connaissances améliorent les requêtes de l’IA en combinant des informations provenant de nombreuses sources indépendantes dans un graphique de connaissances plus vaste qui a toujours du sens. Cette capacité à connecter des données distantes fournit des résultats de requête beaucoup plus précis et grandement diminue les hallucinations LLM.
Pourquoi se préparer à l’IA maintenant ?
Préparer vos données à l’IA dès maintenant est plus qu’une simple étape vers la mise en œuvre de l’IA. C’est un moyen de créer un avantage concurrentiel, que vos objectifs en matière d’IA soient à des mois (voire des années). Disposer de données prêtes pour l’IA signifie des données propres et cohérentes qui fonctionnent mieux dans n’importe quelle application. Les données prêtes pour l’IA signifient un traitement et des performances améliorés à mesure que les emplacements et les types de données sont réduits et normalisés.
La mise à l’échelle est plus facile lorsque les données sont prêtes pour l’IA, car la normalisation des données rend l’intégration moins compliquée. Tout cela conduit à un avantage concurrentiel en accélérant le développement et en arrivant en premier sur le marché. La réduction des coûts est un sous-produit naturel de la préparation à l’IA, à mesure que les outils sont réduits ; la conformité est plus simple ; et les ressources, tant sur site que dans le cloud, sont utilisées plus efficacement. Il est essentiel de préparer les données à l’IA pour maximiser le potentiel et l’efficacité des technologies d’IA, garantissant ainsi des résultats précis, fiables et efficaces.
Découvrez comment DataStax facilite la création de données vectorielles.
À propos de John Laffey

DonnéesStax
John Laffey possède plus de 30 ans d’expérience dans le domaine de la technologie en tant que praticien et leader avec une expérience dans les domaines du DevOps, de l’automatisation et de la sécurité. Anciennement chez Splunk, Puppet et Pegasystems, John possède une profonde compréhension des défis auxquels les entreprises sont confrontées lorsqu’elles adoptent de nouvelles technologies.
Source link