Définition de l'architecture des données
L'architecture des données décrit la structure des actifs de données logiques et physiques d'une organisation et des ressources de gestion des données, selon The Open Group Architecture Framework (TOGAF). C'est une ramification de l'architecture d'entreprise qui comprend les modèles, les politiques, les règles et les normes qui régissent la collecte, le stockage, l'organisation, l'intégration et l'utilisation des données dans les organisations. L'architecture des données d'une organisation est du ressort des architectes de données.
Objectifs de l'architecture des données
L'objectif de l'architecture des données est de traduire les besoins de l'entreprise en données et en exigences système et de gérer les données et leur flux à travers le entreprise. Aujourd'hui, de nombreuses organisations cherchent à moderniser leur architecture de données en tant que base pour tirer pleinement parti de l'IA et permettre la transformation numérique. Le cabinet de conseil McKinsey Digital note que de nombreuses organisations n'atteignent pas leurs objectifs de transformation numérique et IA en raison de la complexité des processus plutôt que de la complexité technique. gestion, produits de base, chez Splunk, et ancien vice-président de la gestion des produits chez AtScale, six principes constituent le fondement de l'architecture de données moderne :
- Les données sont un actif partagé. Une architecture de données moderne doit éliminer les silos de données départementaux et donner à toutes les parties prenantes une vue complète de l'entreprise.
- Les utilisateurs ont besoin d'un accès adéquat aux données. Au-delà de la suppression des silos, les architectures de données modernes doivent fournir des interfaces qui permettent aux utilisateurs de consommer facilement des données à l'aide d'outils adaptés à leur travail.
- La sécurité est essentielle. Les architectures de données modernes doivent être conçues pour la sécurité et elles doivent prendre en charge les politiques de données et les contrôles d'accès directement sur les données brutes.
- Des vocabulaires communs garantissent une compréhension commune. Les ressources de données partagées, telles que les catalogues de produits, les dimensions du calendrier fiscal et les définitions de KPI, nécessitent un vocabulaire commun pour éviter les conflits lors de l'analyse.
- Les données doivent être organisées. Investissez dans les fonctions principales qui effectuent la conservation des données (modélisation des relations importantes, nettoyage des données brutes et conservation des dimensions et mesures clés).
- Les flux de données doivent être optimisés pour l'agilité. Réduisez le nombre de fois où les données doivent être déplacées pour réduire les coûts, augmenter la fraîcheur des données et optimiser l'agilité de l'entreprise.
Composants de l'architecture des données
Une architecture de données moderne se compose des composants suivants, selon la société de conseil en informatique BMC :
- Pipelines de données. Un pipeline de données est le processus dans lequel les données sont collectées, déplacées et affinées. Il comprend la collecte, l'affinement, le stockage, l'analyse et la livraison des données.
- Stockage dans le cloud. Toutes les architectures de données ne tirent pas parti du stockage dans le cloud, mais de nombreuses architectures de données modernes utilisent des clouds publics, privés ou hybrides pour offrir de l'agilité.
- Cloud computing. En plus d'utiliser le cloud pour le stockage, de nombreuses architectures de données modernes utilisent le cloud computing pour analyser et gérer les données.
- Les architectures de données modernes utilisent des API pour faciliter l'exposition et le partage des données.
- IA et ML des modèles. L'IA et le ML sont utilisés pour automatiser les systèmes pour des tâches telles que la collecte de données, l'étiquetage, etc. Dans le même temps, les architectures de données modernes peuvent aider les organisations à libérer la capacité d'exploiter l'IA et le ML à grande échelle.
- Diffusion de données. Le streaming de données fait circuler des données en continu d'une source vers une destination pour le traitement et l'analyse en temps réel ou quasi réel.
- Orchestration de conteneurs. Un système d'orchestration de conteneurs tel que Kubernetes open source est souvent utilisé pour automatiser le déploiement, la mise à l'échelle et la gestion des logiciels.
- Analyse en temps réel. L'objectif de nombreuses architectures de données modernes est de fournir des analyses en temps réel, la capacité d'effectuer des analyses sur de nouvelles données à mesure qu'elles arrivent dans l'environnement.
Architecture de données vs modélisation de données
Selon Data Management Book of Knowledge (DMBOK 2) l'architecture des données définit le modèle de gestion des actifs de données en s'alignant sur la stratégie organisationnelle pour établir les exigences stratégiques en matière de données et les conceptions pour répondre à ces exigences. D'autre part, DMBOK 2 définit la modélisation des données comme "le processus de découverte, d'analyse, de représentation et de communication des exigences en matière de données sous une forme précise appelée modèle de données". entre les objectifs commerciaux et la technologie, l'architecture des données concerne la vue macro qui cherche à comprendre et à prendre en charge les relations entre les fonctions, la technologie et les types de données d'une organisation. La modélisation des données adopte une vision plus ciblée de systèmes ou de cas commerciaux spécifiques.
Cadres d'architecture de données
Il existe plusieurs cadres d'architecture d'entreprise qui servent généralement de base à la création du cadre d'architecture de données d'une organisation.
- DAMA-DMBOK 2 . Le Data Management Body of Knowledge de DAMA International est un cadre spécifique à la gestion des données. Il fournit des définitions standard pour les fonctions de gestion des données, les livrables, les rôles et d'autres termes, et présente des principes directeurs pour la gestion des données. une ontologie d'entreprise créée par John Zachman chez IBM dans les années 1980. La colonne "données" du Zachman Framework comprend plusieurs couches, y compris des normes architecturales importantes pour l'entreprise, un modèle sémantique ou un modèle de données conceptuel/d'entreprise, un modèle de données d'entreprise/logique, un modèle de données physique et des bases de données réelles.
- Le cadre d'architecture de groupe ouvert (TOGAF). TOGAF est une méthodologie d'architecture d'entreprise qui offre un cadre de haut niveau pour le développement de logiciels d'entreprise. La phase C de TOGAF couvre le développement d'une architecture de données et la création d'une feuille de route d'architecture de données.
Meilleures pratiques d'architecture de données modernes
Les architectures de données modernes doivent être conçues pour tirer parti des technologies émergentes telles que l'intelligence artificielle (IA), l'automatisation, Internet des objets (IoT) et la blockchain. Dan Sutherland, directeur principal, conseil en technologie, Protiviti, déclare que les architectures de données modernes doivent respecter les meilleures pratiques suivantes :
- Cloud-native. Les architectures de données modernes doivent être conçues pour prendre en charge une mise à l'échelle élastique, une haute disponibilité, une sécurité de bout en bout pour les données en mouvement et au repos, ainsi qu'une évolutivité des coûts et des performances.
- Pipelines de données évolutifs. Pour tirer parti des technologies émergentes, les architectures de données doivent prendre en charge le streaming de données en temps réel et les rafales de données par micro-lots.
- Intégration transparente des données. Les architectures de données doivent s'intégrer aux applications héritées à l'aide d'interfaces API standard. Ils doivent également être optimisés pour le partage de données entre les systèmes, les zones géographiques et les organisations.
- Activation des données en temps réel. Les architectures de données modernes doivent prendre en charge la capacité de déployer une validation, une classification, une gestion et une gouvernance des données automatisées et actives.
- Découplé et extensible. Les architectures de données modernes doivent être conçues pour être faiblement couplées, permettant aux services d'effectuer des tâches minimales indépendamment des autres services. position, selon les données de PayScale :
Source link