Fermer

octobre 15, 2018

Data-Based Data Lakes: Zones d'architecture d'entreprise de la santé


S'il existe de nombreuses raisons de faire avancer les projets d'intégration de données, les organisations de soins de santé sont souvent empêchées d'utiliser leurs données en raison de formats incompatibles, de limitations des bases de données et de systèmes et de l'impossibilité de combiner des données provenant de sources multiples. C'est pourquoi les Data Lakes basés sur le cloud ont remplacé l'EDW (Enterprise Data Warehouse) au cœur d'une architecture de données de soins de santé moderne.

À la différence d'un entrepôt de données, un Data Lake est une collection de tous les types de données: structurée, semi-automatique, etc. structuré et non structuré. Les données sont stockées dans leur format brut sans nécessiter de structure ni de schéma. En fait, il n'est pas nécessaire de définir la structure de données lors de la capture, mais uniquement lors de la lecture. Les Data Lakes étant très évolutifs, vous pouvez prendre en charge des volumes de données plus importants à un prix inférieur.

Avec un Data Lake, les données peuvent également être stockées à partir de sources relationnelles (telles que des bases de données) et de sources non relationnelles (périphériques / machines IoT). , médias sociaux, etc.) sans ETL (extraire, transformer, charger), permettant ainsi aux données d'être disponibles pour analyse beaucoup plus rapidement.

L'entrepôt de données d'entreprise (EDW), tel que nous le connaissons, n'est ni mort ni mort. bientôt. Cependant, ce n’est plus la pièce maîtresse de la stratégie d’architecture de données d’une entreprise. EDW reste un composant essentiel de l'architecture informatique globale d'une entreprise, mais il convient désormais de le considérer comme une «application en aval» – une destination, mais pas le centre de votre univers de données.

Prochaines étapes pour créer un environnement moderne Architecture de données d'entreprise

La construction d'une architecture de données d'entreprise moderne peut sembler longue et difficile, mais avec le cadre et les principes appropriés, vous pouvez réussir cette transformation plus tôt que vous ne le pensez.

Les lacs de données sont conçus intentionnellement pour être flexible, évolutive et connectivité à une variété de sources de données et de systèmes. En réunissant des systèmes, nous pouvons charger / extraire, gérer / transformer et publier / charger des données disparates dans l’ensemble de l’organisation des soins de santé. Lorsqu'il est bien conçu, un lac de données constitue un modèle de conception efficace basé sur les données permettant de capturer une large gamme de types de données, à la fois anciens et nouveaux, à grande échelle. Par définition, un lac de données est optimisé pour une ingestion rapide de données sources brutes et détaillées, ainsi qu'un traitement à la volée de ces données pour l'exploration, l'analyse et les opérations.

Les organisations adoptent le modèle de conception de lac de données (qu'il soit sur Hadoop ou une base de données relationnelle), car les lacs fournissent le type de données brutes dont les utilisateurs ont besoin pour l'exploration de données et les formes d'analyse avancée orientées vers la découverte. Un lac de données peut également constituer un point de consolidation pour les données nouvelles et traditionnelles, permettant ainsi des corrélations analytiques entre toutes les données.

Un lac de données grandira à pas de géant et sera lié de par sa nature même, s'il reste inactif. Il peut ingérer des données à différentes vitesses, du traitement par lots au temps réel. Ses données non structurées se présentent sous toutes leurs formes, ce qui entraîne une accumulation de «bruit» ou de données sans signification ni but. Le cycle médiatique de Garner pour 2017 révèle que l’excitation suscitée par le lac de données révèle qu’il existe un désenchantement croissant face aux attentes irréalistes.

À l’origine, les lacs de données étaient censés résoudre les problèmes de résultats. Au lieu de les résoudre, les lacs de données sont devenus des marécages de données.

Pour résoudre le problème du «marais de données», nous devons comprendre et créer quatre zones dans le lac de données. Tout au long du processus de gouvernance des données, nous pouvons contrôler la qualité et la quantité des informations que nous utilisons et rapportons. Des zones de données distinctes nous permettent de définir, analyser, gérer, archiver et normaliser nos données afin de leur donner sens et organisation pour une multitude de plates-formes et de systèmes analytiques.

Pour définir ces zones, l'ebook Big Data Science and Advanced Analytics identifie le besoin de séparer les structures de données physiques et les systèmes des modèles logiques. En utilisant des serveurs et des clusters, nous pouvons virtualiser les données dans diverses configurations, en alimentant différentes applications en aval via le contrôle et la gouvernance. L’analyse des soins de santé repose sur un flux d’informations fiable et cohérent provenant des systèmes existants et transactionnels, tels que l’admissibilité des membres, les avantages et la tarification, les réseaux de fournisseurs d’utilisation et le règlement des demandes.

En créant des zones uniques, le lac de données est en mesure de consommer variété d’informations entrantes, transformez-les et fusionnez-les avec d’autres recoupements de recherches, puis transmettez-les à des systèmes analytiques.

Les lacs de données sont divisés en quatre zones (Figure 1). Différentes organisations de soins de santé peuvent les appeler sous différents noms, mais leurs fonctions sont essentiellement les mêmes.

  1. Zone de données brutes
  2. Zone de données fiables
  3. Zone de données raffinée
  4. Zone de données en bac à sable

 Zones de lacs de données

Zone de données brutes

Dans la zone de données brutes les données sont déplacées dans leur format natif, sans transformation ni conversion. Il est présenté «tel quel». Cela garantit que l’information est transmise sans changement. Cela permet de voir les données brutes telles qu'elles étaient dans leur format d'origine à partir de leurs systèmes sources.

C'est trop complexe pour les utilisateurs moins techniques. Les utilisateurs sont généralement des développeurs ETL, des scientifiques de données, capables de déduire une nouvelle signification et une nouvelle structure de leurs valeurs d'origine en passant au crible l'immensité des données. Cette nouvelle information est ensuite poussée dans d'autres zones.

Zone de données sécurisée

Dans la zone de données sécurisées les données source sont transformées et archivées en informations significatives. Il est préparé pour une utilisation commune, fusionné avec d’autres données, est conçu pour la traversée et la traduction. La terminologie est normalisée par les règles de gouvernance des données.

Des dictionnaires de données sont créés. Ces données deviennent les éléments constitutifs de l’entreprise. Les données fiables telles que les réclamations, la capitation, les résultats de laboratoire, l'utilisation, les admissions et l'admissibilité des membres sont la base d'une analyse précise des souscriptions et des risques.

Zone de données raffinées

La zone de données raffinées est le lieu de confiance. Les données sont organisées et publiées pour être utilisées dans des entrepôts de données d'entreprise et des datamarts externes. La signification est dérivée des données brutes. Il est intégré dans un format commun, raffiné et regroupé dans des domaines (MA). SAM sont utilisés pour analyser et enquête complexe.

SAM fournit à la haute direction un soutien analytique pour les décisions d’entreprise et complexes. Les SAM sont utilisés pour les ‘membres par mois’ normalisés et d’autres rapports de support opérationnel.

Les SAM deviennent la source de la vérité et la fusion des données provenant de différentes sources originales. Ils prennent des sous-ensembles de données dans un pool plus important et apportent une valeur et une signification utiles aux finances, à la budgétisation et aux prévisions, à l'utilisation des membres et des fournisseurs, aux cliniques, au règlement des demandes de règlement et aux autres domaines administratifs. Les données affinées sont utilisées par un large groupe de personnes.

Les données affinées sont transférées dans la zone de confiance après avoir été confirmées et vérifiées par des experts en matière de gouvernance des données ou de domaine spécialisé.

Zone de données en Sandbox

Le bac à sable est également connu sous le nom de «zone d'exploration». Il est utilisé pour les analyses et les rapports ad hoc. Les utilisateurs déplacent ici les données de la zone brute, de la zone de confiance et de la zone affinée pour un usage privé. Une fois les données vérifiées, elles peuvent ensuite être promues pour une utilisation dans la zone de données affinée.

À mesure que le volume de données sur les soins de santé continue de croître, l'architecture informatique et d'entreprise ainsi que la gouvernance d'entreprise doivent continuer à revoir leurs plates-formes et leurs intégrations. Les besoins matériels et logiciels de l’entreprise guident les décisions prises pour orienter la vision et le leadership de l’organisation de soins de santé dans l’avenir. Nous devons examiner l'utilisation des données, la conformité aux réglementations, les processus d'archivage et de suppression.

La gouvernance des données joue un rôle essentiel dans la détermination des besoins en données dans le lac de données et dans chaque zone de données. Ils doivent examiner les capacités commerciales nécessaires pour s’acquitter de leurs fonctions critiques et protéger leurs actifs. Ensuite, les analyses et les services métier associés peuvent être construits pour prendre en charge ces capacités et cette fonction.

Pour plus d'informations sur le rôle de Data Lakes dans les soins de santé, reportez-vous au livre blanc Perficient – Le rôle de Data Lakes dans les soins de santé.

de Steven Vacca, analyste technique, Perficient




Source link