Le schéma en étoile est obsolète, coûte moins cher et offre de meilleures performances
Ceci est le deuxième blog de la série. Lire le premier blog, ici.
Dans mon premier blog, j’ai déclaré que le schéma en étoile et la modélisation dimensionnelle sont obsolètes, et je vous exhorte à cesser de les utiliser. J’ai expliqué que dans le premier chapitre de La boîte à outils de l’entrepôt de données Ralph Kimball a expliqué que la modélisation dimensionnelle et le schéma en étoile offraient peu d’avantages aujourd’hui archaïques.
Coût réduit
En 1996, lorsque le schéma en étoile et la modélisation dimensionnelle ont été introduits, les coûts de stockage étaient élevés, près de 12 000 dollars par gigaoctet. Étant donné que le schéma en étoile a permis de réduire la redondance des données, il a également contribué à réduire les coûts de stockage. En 2022, le coût d’un gigaoctet de stockage de données dans le cloud n’est que de 0,023 $ par mois. La réduction de la redondance des données ne crée pas d’économies significatives. De plus, dans le même laps de temps, les coûts de main-d’œuvre pour les travailleurs des données ont considérablement augmenté. La conversion d’un modèle de forme normale en modèle dimensionnel de schéma en étoile prend chaque jour un temps considérable d’ingénierie des données. Le modèle dimensionnel du schéma en étoile augmente également le temps nécessaire pour joindre les informations de plusieurs dimensions afin d’obtenir des ensembles de données utilisables. Le résultat est que l’utilisation d’un modèle dimensionnel de schéma en étoile dans l’environnement de traitement de données moderne augmente considérablement les coûts.
Meilleure performance
Dans une étude réalisée par Fivetran, Michael Kaminsky fournit une preuve de référence définitive que les plates-formes modernes de gestion de données telles que Snowflake, Redshift et BigQuery fonctionnent beaucoup plus rapidement lorsqu’elles utilisent des tables larges par opposition à un modèle dimensionnel de schéma en étoile. En effet, lorsque nous regroupons des données dans une grande table large (OBT), la plate-forme moderne de gestion des données n’a pas à effectuer de jointures ou au moins moins de jointures. Vous voyez, l’opération de performance la plus coûteuse dans une plate-forme relationnelle est toujours le SQL JOIN. Lorsque nous combinons cela avec les connaissances antérieures selon lesquelles la visualisation des données, les rapports et de nombreux outils de science des données fonctionnent mieux avec des tables larges, il devient clair que l’OBT ou les tables larges sont une architecture de table préférable.
Aidez les utilisateurs de données et les travailleurs du savoir à mieux comprendre les données
Peut-être qu’en 1996, cela était plausible parce que les travailleurs des données travaillaient principalement dans des organisations de technologie de l’information (TI) et parce qu’ils connaissaient bien SQL. Cependant, je ne suis pas vraiment convaincu que cet argument ait jamais été exact. En 2022, les travailleurs du savoir sont le plus souvent dans l’organisation de l’entreprise. Ce ne sont pas des employés informatiques, ce sont des hommes d’affaires qui essaient de prendre de meilleures décisions commerciales basées sur des données. Pour beaucoup, le seul moyen/outil qu’ils connaissent pour travailler avec des données est une feuille de calcul. Cela signifie que le schéma en étoile n’est pas compréhensible et peut-être même inutilisable car ils n’ont pas les connaissances nécessaires pour joindre les informations de plusieurs tables. À tout le moins, l’utilisation d’une feuille de calcul pour joindre des informations à partir de plusieurs modèles dimensionnels de schéma en étoile demande beaucoup de temps et d’efforts. Cependant, la table large OBT est familière à ces travailleurs de données, elle ressemble à une feuille de calcul. La table OBT/large est beaucoup plus facile à comprendre pour le travailleur de données moderne, et je pense beaucoup plus facile à comprendre pour tout le monde.
Lorsque nous examinons de près les raisons pour lesquelles Ralph Kimball lui-même a déclaré qu’un modèle dimensionnel de schéma en étoile était efficace, il est clair qu’elles ne sont plus vraies. Vous devez arrêter d’utiliser des modèles dimensionnels de schéma en étoile. Ils sont ridiculement chers, diminuent les performances et inhibent vos travailleurs des données/connaissances. Pour une explication de ce que vous devriez faire à la place, consultez mon prochain blog.
L’expertise des données cloud de Perficient
Notre équipe de cloud, de données et d’analyse peut vous aider dans l’ensemble de votre cycle de vie des données et de l’analyse, de la stratégie de données à la mise en œuvre. Nous vous aiderons à donner un sens à vos données et vous montrerons comment les utiliser pour résoudre des problèmes commerciaux complexes. Nous évaluerons vos problèmes actuels de données et d’analyse et développerons une stratégie pour vous guider vers vos objectifs à long terme.
Source link