Fermer

mai 11, 2023

Interruption de ChatGPT : la vision évolutive de l’IA renouvelle le besoin de données fiables et gouvernées

Interruption de ChatGPT : la vision évolutive de l’IA renouvelle le besoin de données fiables et gouvernées



Accès à l’intelligence artificielle (IA) et la volonté d’adoption par les organisations est plus répandue aujourd’hui qu’elle ne l’a jamais été, mais de nombreuses entreprises ont du mal à gérer les données et le processus global. Alors que les entreprises ouvrent cette « boîte de pandore » de nouvelles fonctionnalités, elles doivent être prêtes à gérer les entrées et les sorties de données de manière sécurisée ou risquer de permettre à leurs données privées d’être consommées dans des modèles d’IA publics.

Au cours de cette évolution, il est essentiel que les entreprises considèrent que ChatGPT est un modèle public conçu pour croître et étendre son utilisation grâce à des modèles d’apprentissage avancés. Les instances privées seront exploitées sous peu lorsque le modèle de réponse aux questions posées découlera uniquement des données internes sélectionnées – en tant que tel, il est important que les entreprises déterminent où les cas d’utilisation publics seront appropriés (par exemple, des informations non sensibles) par rapport à ce qui impose le besoin de les instances privées (par exemple, les informations financières de l’entreprise et d’autres ensembles de données internes et/ou confidentiels).

Tout en . . . mais qu’en est-il des données?

La popularité des plates-formes d’IA récemment publiées telles que ChatGPT d’Open AI et Google Bard a conduit à une ruée folle vers les cas d’utilisation de l’IA. Les organisations envisagent un avenir dans cet espace où les plates-formes d’IA pourront consommer des données spécifiques à l’entreprise dans un environnement fermé au lieu d’utiliser un écosystème mondial comme c’est courant aujourd’hui. L’IA s’appuie sur de grands ensembles de données qui y sont introduites pour aider à créer une sortie, mais est limitée par la qualité des données consommées par le modèle. Cela a été affiché lors des premières versions de test de Google Bard, où il a fourni une réponse factuellement inexacte sur le télescope spatial James Webb sur la base des données de référence qu’il a ingérées. Souvent, les individus voudront d’abord se diriger vers l’objectif final (implémenter l’automatisation de pratiques de données) sans passer par les étapes nécessaires pour découvrir, ingérer, transformer, assainir, étiqueter, annoter et joindre ensemble des ensembles de données clés. Sans cette étape importante, l’IA peut produire des données incohérentes ou inexactes qui pourraient mettre une organisation dans un pari risqué d’exploiter des informations qui ne sont pas vérifiées.

Grâce à des pratiques de gouvernance des données, telles que des métadonnées étiquetées avec précision et des paramètres fiables pour la propriété, les définitions, les calculs et l’utilisation, les organisations peuvent s’assurer qu’elles sont en mesure d’organiser et de maintenir leurs données d’une manière qui peut être utilisée pour les initiatives d’IA. En comprenant ce défi, de nombreuses organisations se concentrent désormais sur la manière de organiser leurs données les plus utiles d’une manière qui peut être facilement récupérée, interprétée et utilisée pour soutenir les opérations commerciales.

Stockage et récupération de données gouvernées

La technologie influente, comme le traitement du langage naturel (NLP), permet de récupérer des réponses basées sur des questions posées de manière conversationnelle ou sur une demande commerciale standard. Ce processus analyse une demande en composants significatifs et garantit que le bon contexte est appliqué dans une réponse. Au fur et à mesure que la technologie évolue, cette fonction permettra de prendre en compte et de traiter le lexique spécifique d’une entreprise via une plateforme d’IA. Une application de ceci peut être liée à la définition d’attributs spécifiques à l’entreprise pour des phrases particulières (par exemple, comment un « client » peut être défini pour une organisation par rapport à la définition plus large d’un « client ») pour garantir que la nomenclature et la signification convenues au niveau de l’organisation sont appliqué par les réponses de l’IA. Par exemple, une personne peut être invitée à « créer un rapport qui met en évidence les derniers revenus par division au cours des deux dernières années : cela applique toutes les métadonnées commerciales nécessaires auxquelles un analyste et la direction s’attendraient.

Historiquement, cette demande nécessite que les individus convertissent la demande en une requête pouvant être extraite d’une base de données standard. La technologie d’IA et de NLP est désormais capable de traiter à la fois la demande et les résultats sous-jacents, permettant d’interpréter les données et de les appliquer aux besoins de l’entreprise. Cependant, le principal défi est que de nombreuses organisations ne disposent pas de leurs données d’une manière ou d’une forme qui puisse être stockée, récupérée et utilisée par l’IA – généralement en raison d’individus adoptant des approches non standard pour obtenir des données et faisant des hypothèses sur la façon dont utiliser des ensembles de données.

Définir et définir les termes clés

Une étape critique pour des résultats de qualité consiste à organiser les données de manière à pouvoir être correctement interprétées par un modèle d’IA. La première étape de ce processus consiste à s’assurer que les bonnes métadonnées techniques et commerciales sont en place. Les aspects suivants des données doivent être enregistrés et disponibles :

  • Définition du terme
  • Critères de calcul (le cas échéant)
  • Lignage des sources de données sous-jacentes (amont/aval)
  • Paramètres de qualité
  • Utilisations/mentions d’affinité au sein de l’entreprise
  • La possession

Les critères ci-dessus doivent être utilisés comme point de départ pour améliorer les champs et les tables capturés afin de permettre une utilisation et une application professionnelles appropriées. Des métadonnées précises sont essentielles pour garantir que les algorithmes privés peuvent être formés pour mettre en valeur les ensembles de données les plus importants avec des informations fiables et pertinentes.

Un dictionnaire de métadonnées qui a mis en place des processus appropriés pour les mises à jour des données et des pratiques de vérification soutiendra la volonté d’une utilisation cohérente des données et maintiendra un ensemble de données propres et utilisables pour les initiatives de transformation.

Comprendre le cas d’utilisation et l’application

Une fois que les bonnes informations relatives à la base de l’ensemble de données sous-jacent sont enregistrées, il est essentiel de comprendre comment les données sont finalement utilisées et appliquées à un besoin métier. Les principales considérations concernant le cas d’utilisation des données comprennent la documentation de la sensibilité des informations enregistrées (classification des données), l’organisation et l’application d’une catégorie associée à une structure de domaine de données logique aux ensembles de données (étiquetage des données), l’application de limites associées à la façon dont les données sont partagées, et stockées (conservation des données), et définir in fine les protocoles de destruction des données qui ne sont plus essentielles ou pour lesquelles des demandes de suppression de données ont été présentées et sont légalement requises (suppression de données).

Une compréhension de l’utilisation et de l’application correctes des ensembles de données sous-jacents peut permettre une prise de décision appropriée concernant d’autres façons d’utiliser les données et les domaines dans lesquels une organisation peut vouloir s’assurer qu’elle ne s’engage pas en fonction de l’orientation stratégique et des dispositions légales et/ou réglementaires. conseils. De plus, le stockage et la maintenance des métadonnées commerciales et techniques permettront aux plates-formes d’IA de personnaliser le contenu et les réponses générées pour garantir que les organisations reçoivent à la fois une gestion des questions personnalisée et une analyse des réponses pertinentes – cela permettra finalement l’utilisation des capacités de traitement du langage spécifiques à l’entreprise.

Préparez-vous maintenant pour ce qui s’en vient

Il est maintenant plus essentiel que jamais que les bons paramètres soient placés sur comment et où les données doivent être stockées pour garantir que les bons ensembles de données sont récupérés par les utilisateurs humains tout en permettant la croissance et l’activation des cas d’utilisation de l’IA à l’avenir. Le concept de formation de modèles d’IA repose sur des données propres qui peuvent être appliquées grâce à la gouvernance de l’ensemble de données sous-jacent. Cela augmente encore la demande d’une gouvernance des données appropriée pour garantir que des ensembles de données précieux peuvent être exploités.

Ce changement a considérablement accéléré le besoin de gouvernance des données – qui, pour certains, a pu être considérée comme un « avantage » ou même comme une réflexion après coup dans une capacité « indispensable » permettant aux organisations de rester compétitives et d’être considérées comme véritablement transformatrices dans la façon dont ils utilisent les données, leur atout le plus précieux, à la fois en interne pour les opérations et avec leurs clients dans un paysage de données avancé. L’IA met l’adage séculaire du « poubelle à l’intérieur, à la sortie » sur les stéroïdes, permettant à tout défaut de données entrant dans le modèle de constituer potentiellement une partie de la sortie et soulignant davantage l’importance de lier vos contrôles de gouvernance des données.

Lire les résultats de Sondage mondial sur les dirigeants technologiques de Protiviti : innovation contre dette technique dans un bras de fer

Connectez-vous avec l’auteur

Will Shuman
Directeur, Conseil en technologie




Source link