Fermer

décembre 15, 2022

Schéma étoile vs flocon de neige – lequel utiliser quand et où

Schéma étoile vs flocon de neige – lequel utiliser quand et où


Introduction

Les personnes et les organisations produisent constamment beaucoup de données. Généralement, nous voulons stocker les données générées pour y accéder plus tard. Le stockage des données doit être efficace dans tous les aspects, y compris la vitesse, le coût, la fiabilité, la sécurité, etc. C’est pourquoi différentes approches du stockage des données existent. L’une des approches les plus populaires est un entrepôt de données.

Les entrepôts de données sont des référentiels de données provenant des processus opérationnels les plus récents. Les entrepôts de données stockent généralement des données structurées et traitées qui peuvent être utilisées pour des applications telles que l’informatique décisionnelle ou l’analyse.

Il existe plusieurs approches et principes relatifs à ce à quoi un entrepôt de données devrait ressembler, quelle architecture devrait être utilisée, etc. L’une des options que le développeur d’entrepôt de données devrait envisager est le type de schéma. Le schéma en étoile et le schéma en flocon de neige sont parmi les plus courants. Dans cet article, nous allons les explorer et les comparer.

Schéma en étoile dans l’entrepôt de données

Quel que soit le schéma que vous utilisez, il est toujours important de comprendre les bases d’une table de faits. Il s’agit de la table contenant les informations de base sur le processus métier. Par exemple, le chiffre d’affaires par produit. Cette table peut avoir des références à de nombreuses autres tables. Le type de relations entre les tables d’un entrepôt de données est la caractéristique la plus importante qui définit le type de schéma d’entrepôt de données.

Pour le schéma en étoile, chaque champ externe de la table de faits est représenté par une seule table de référence. Par exemple, considérons la table de faits suivante :

1

Dans ce tableau, Department_id, Product_idet N ° de client sont les champs qui contiennent des références à une table externe. Montant est juste un champ numérique. La structure des tables externes peut ressembler à ceci :

3

Data Intelligence - L'avenir du Big Data
L’avenir des mégadonnées

Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide

Les tables de référence n’ont aucune relation entre elles : elles ne sont liées que par des clés étrangères (ids) avec la table de faits. La visualisation de ce schéma ressemble à une étoile :

1234

La chose importante à garder à l’esprit est que les données ne sont pas entièrement normalisées lors de l’utilisation du schéma en étoile. Cela signifie que les tables telles que Produits, Départements, Clients, etc. n’ont pas leurs propres tables de recherche. Ainsi, les informations sur les produits sont stockées uniquement dans la table Produits et nulle part ailleurs. Il est évident que beaucoup de données sont dupliquées (non normalisées) avec ce schéma.

Schéma en flocon de neige dans l’entrepôt de données

Le schéma en flocon de neige est une extension d’un schéma en étoile. La principale différence est que dans cette architecture, chaque table de référence peut également être liée à une ou plusieurs tables de référence. Le but est de normaliser les données. Regarde le Des produits tableau de l’exemple précédent. La Gamme de produits champ peut être répété plusieurs fois pour de nombreux produits. Mais si nous créons une table de plus, segmentsnous pouvons simplement référencer le Des produits tableau à la segments table (en utilisant des identifiants – clés étrangères). La même chose peut être faite pour le Localisation du client champ dans le Clients tableau ou le Région départementale champ dans le Départements table.

Voici une visualisation du schéma en flocon de neige :

5

S’il y a beaucoup de tables différentes, cette structure ressemble à un flocon de neige. Il a le centre (table de faits) et de nombreuses tables de référence qui composent la ramification, similaires à celles des flocons de neige.

Avoir plus de tables de recherche permet une normalisation parfaite des données car moins de données sont dupliquées.

Différence entre les schémas en étoile et en flocon de neige

Comparons les fonctionnalités les plus importantes des schémas d’entrepôt de données en étoile et en flocon.

  1. Dans un schéma en étoile, toutes les informations sont placées dans la table de faits et les tables de recherche qui ont une référence directe à la table de faits.

Dans un schéma en flocon, il est possible que les tables de recherche de premier niveau aient leurs propres tables de recherche. Ainsi, l’information est dispersée sur l’ensemble du système.

C’est la différence la plus importante et sur laquelle reposent toutes les conclusions suivantes.

  1. Le schéma en étoile entraîne une redondance et une duplication élevées des données. Le schéma Snowflake garantit un très faible niveau de redondance des données (car les données sont normalisées).
  2. Le schéma en étoile est très simple, tandis que le schéma en flocon de neige peut être très complexe.

  3. En général, il y a beaucoup plus de tables séparées dans le schéma en flocon que dans le schéma en étoile.

  4. Le schéma en flocon utilise moins d’espace disque que le schéma en étoile.

Avantages, inconvénients et cas d’utilisation de chacun des schémas

Chaque schéma a ses propres avantages, inconvénients et cas d’utilisation recommandés. Explorons-les un peu.

Avantages du schéma en étoile

  • Il est extrêmement simple à comprendre et à construire.
  • Pas besoin de jointures complexes lors de l’interrogation des données.
  • L’accès aux données est plus rapide (car le moteur n’a pas besoin de joindre différentes tables pour générer des résultats).
  • Plus simple pour obtenir des informations commerciales.
  • Fonctionne bien avec certains outils d’analyse, en particulier avec les systèmes OLAP qui peuvent créer des cubes OLAP à partir de données stockées à l’aide d’un schéma en étoile.

Inconvénients du schéma en étoile

  • Les données dénormalisées peuvent entraîner des problèmes d’intégrité. Cela signifie que certaines données peuvent parfois s’avérer incohérentes.
  • La maintenance peut sembler simple au début, mais plus l’entrepôt de données que vous devez maintenir est grand, plus cela devient difficile (en raison de la redondance des données).
  • Il nécessite beaucoup plus d’espace disque que le schéma en flocon de neige pour stocker la même quantité de données.
  • Les relations plusieurs-à-plusieurs ne sont pas prises en charge.
  • Possibilités limitées pour le développement de requêtes complexes.

Avantages du schéma en flocon de neige

  • Utilise moins d’espace disque car les données sont normalisées et la redondance des données est minimale.
  • Offre une protection contre les problèmes d’intégrité des données.
  • La maintenance est simple en raison d’un moindre risque de violation de l’intégrité des données et d’un faible niveau de redondance des données.
  • Il est possible d’utiliser des requêtes complexes qui ne fonctionnent pas avec un schéma en étoile. Cela signifie plus d’espace pour des analyses puissantes.
  • Prend en charge les relations plusieurs à plusieurs.

Inconvénients du schéma en flocon de neige

  • Plus difficile à concevoir par rapport à un schéma en étoile.
  • La maintenance peut être plus complexe en raison d’un grand nombre de tables différentes dans l’entrepôt de données.
  • Les requêtes peuvent être très complexes, y compris de nombreux niveaux de jointures entre de nombreuses tables.
  • Les requêtes peuvent être plus lentes dans certains cas, car de nombreuses jointures doivent être effectuées pour produire la sortie finale.
  • Des compétences plus spécifiques sont nécessaires pour travailler avec des données stockées à l’aide du schéma en flocon de neige.

Choisir la meilleure option

Quand est-il préférable d’utiliser le schéma en étoile et quand le schéma en flocon ? Explorons plusieurs cas d’utilisation.

  1. La société dispose de nombreuses données sur les opérations récentes qui doivent être accessibles aux analystes. C’est le cas d’utilisation où un schéma en flocon de neige peut être parfait car vous économiserez beaucoup d’espace disque par rapport au schéma en étoile. De plus, les données peuvent être nécessaires pour différents utilisateurs et différents scénarios, il est donc préférable de ne pas limiter la complexité des requêtes disponibles.
  2. Le schéma en flocon de neige est un bon choix pour les situations où vous avez l’intention d’émettre des requêtes d’analyse avancées vers l’entrepôt de données.
  3. Si les données stockées dans l’entrepôt de données ne sont pas très volumineuses et/ou s’il n’est pas prévu que les utilisateurs professionnels envoient des requêtes complexes, le schéma en étoile est ce qu’il vous faut. Il est simple, pratique pour les utilisateurs finaux et permet une exécution rapide des requêtes peu complexes. Ces entrepôts de données peuvent être appelés data marts et ils sont souvent créés pour des départements distincts de l’organisation, et non pour l’entreprise dans son ensemble. L’aspect le plus important des magasins de données est la commodité et la rapidité de production de la sortie, et c’est là que le schéma en étoile est parfait.
  4. Il existe également un groupe de cas d’utilisation où vous êtes obligé d’utiliser un schéma en étoile ou en flocon de neige car d’autres instruments de votre ensemble d’outils ne prennent en charge qu’un seul schéma. Heureusement, le nombre de ces cas d’utilisation diminue constamment car de plus en plus d’outils prennent en charge les deux schémas.

Cependant, de nombreux avantages ou inconvénients peuvent être atténués par les technologies modernes. Par exemple, la mémoire sur disque devient de moins en moins chère, et les puissants moteurs de base de données offrent une grande vitesse d’exécution des requêtes complexes. Ainsi, chaque situation individuelle doit être soigneusement explorée.

Conclusion

Dans cet article, nous avons décrit les différences et les similitudes entre deux schémas d’entrepôt de données : le schéma en étoile et le schéma en flocon de neige. N’oubliez pas que la principale différence entre ces deux schémas en termes de scénarios d’utilisation est l’économie d’espace disque et la complexité des requêtes prises en charge.






Source link

décembre 15, 2022