Si vous utilisez toujours un schéma en étoile et une modélisation dimensionnelle pour construire votre entrepôt de données / Data Lake, je vous implore de reconsidérer. Cela a été un sujet controversé dans le passé, mais lors de la création d’environnements de données modernes, il est important pour moi de couvrir ce sujet en détail.
Ralph Kimball a présenté à l’industrie le schéma en étoile et les techniques de modélisation dimensionnelle dans son livre de première édition La boîte à outils de l’entrepôt de données a été publié en 1996. Ralph et l’institut Kimball étaient des experts reconnus en entreposage de données depuis plus de 25 ans. La deuxième édition de La boîte à outils de l’entrepôt de données a été publié en 2002 et la troisième édition en 2013. Cependant, l’institut Kimball a fermé ses portes en 2015 et avec tout le respect que je dois à Ralph Kimball et ses collègues, le schéma en étoile et la modélisation dimensionnelle sont obsolètes. Ce n’est pas mon avis; c’est un fait, basé sur la propre explication de Kimball sur les avantages de la modélisation dimensionnelle.
Dans le premier chapitre de La boîte à outils de l’entrepôt de données Ralph Kimball a expliqué que la modélisation dimensionnelle et le schéma en étoile offraient les avantages suivants :
- Coût réduit
- Meilleure performance
- A aidé les utilisateurs de données / les travailleurs du savoir à mieux comprendre les données
Alors que ces trois avantages étaient vrais en 1996, en 2015, ils commençaient à être remis en question et aujourd’hui, ils ne sont tout simplement pas vrais du tout. Beaucoup de choses ont changé concernant la gestion des données, les technologies de traitement des données et les personnes qui utilisent les données pour prendre des décisions commerciales.
Stockage
Au cours des deux dernières décennies, en raison de l’augmentation exponentielle de l’utilisation des données, les centres de données ont développé des exigences strictes pour une plus grande capacité de stockage et une transmission de données plus rapide, et l’industrie continue d’évoluer. Les innovateurs se concentrent sur la recherche de moyens d’atteindre une plus grande capacité et un débit plus rapide tout en utilisant un espace limité.
Cloud computing
Le cloud computing est la fourniture à la demande de ressources informatiques sur Internet avec une tarification à l’utilisation. Au lieu d’acheter, de posséder et d’entretenir des centres de données et des serveurs physiques, vous pouvez accéder à des services technologiques, tels que la puissance de calcul, le stockage et les bases de données, selon vos besoins auprès d’un fournisseur de cloud comme Amazon Web Services (AWS), Google Cloud Plate-forme (GCP) et Microsoft Azure.
Entrepôt de données moderne/moteurs Data Lake
Dans l’architecture moderne d’entrepôt de données / Data Lake, le véritable Data Lake est accessible via le cloud. Il existe plusieurs options Data Lake basées sur le cloud comme Redshift, SnowFlake, Databricks, BigQuery et Athena, chacune ayant des architectures différentes pour les mêmes avantages d’intégration, d’analyse et d’action sur les données provenant de différentes sources de données. Les données jouent un rôle central dans presque tout ce que nous faisons de nos jours. mais il ne suffit plus d’avoir accès à des informations basées sur les données, en particulier si elles sont obsolètes et obsolètes. À mesure que la quantité de données générées augmente et que la capture de données se déplace de plus en plus vers des environnements cloud, le traitement urgent est essentiel pour fournir des informations opportunes qui reflètent les circonstances en temps réel. Les organisations subissent de plus en plus de pression pour obtenir et appliquer rapidement des informations avant que les situations ne changent. Ce fait oblige les chefs d’entreprise de tous les secteurs d’activité à adopter les données actives et à déployer des moyens de les capturer, de les transporter et de les gérer pour un traitement immédiat.
Le savoir modernecorniche travailleur
L’analyste de données/travailleur du savoir moderne ne fait pas partie de l’organisation des technologies de l’information. Le travailleur de données moderne fait partie de l’organisation de l’entreprise. Il est rare qu’ils connaissent SQL et aient la capacité de joindre plusieurs tables ensemble. La compétence principale de nombreux travailleurs du savoir modernes est la capacité de gérer des données dans une feuille de calcul.
Le schéma en étoile est obsolète
Dans mes deux prochains blogs, j’expliquerai en détail l’utilisation d’un schéma en étoile et d’un modèle dimensionnel qui ne sont plus pertinents et pour vous aider à vous guider vers un meilleur modèle de solution. Alors, gardez l’esprit ouvert et restez à l’écoute, il y a beaucoup plus à venir.
L’expertise des données cloud de Perficient
Notre équipe de cloud, de données et d’analyse peut vous aider dans l’ensemble de votre cycle de vie des données et de l’analyse, de la stratégie de données à la mise en œuvre. Nous vous aiderons à donner un sens à vos données et vous montrerons comment les utiliser pour résoudre des problèmes commerciaux complexes. Nous évaluerons vos problèmes actuels de données et d’analyse et développerons une stratégie pour vous guider vers vos objectifs à long terme.
Source link