Déplacer facilement les données d’entreprise de n’importe où vers n’importe quel système

Depuis 2015, l’équipe Cloudera DataFlow aide les plus grandes entreprises du monde à adopter Apache NiFi comme outil de transfert de données standard d’entreprise. Au cours des dernières années, nous avons été aux premières loges dans le parcours de cloud hybride de nos clients alors qu’ils étendent leur parc de données à la périphérie, sur site et à plusieurs fournisseurs de cloud. Cette perspective unique d’aider les clients à déplacer les données lorsqu’ils traversent le chemin du cloud hybride a permis à Cloudera d’avoir une vision claire des exigences critiques qui émergent à mesure que les clients adoptent une pile de données hybride moderne.
L’une des exigences critiques qui s’est concrétisée est la nécessité pour les entreprises de prendre le contrôle de leurs flux de données depuis l’origine jusqu’à tous les points de consommation, à la fois sur site et dans le cloud, de manière simple, sécurisée, universelle, évolutive et rentable. . Ce besoin a généré une opportunité de marché pour un service universel de distribution de données.
Au cours des deux dernières années, l’équipe Cloudera DataFlow a travaillé dur pour créer Cloudera DataFlow pour le cloud public (CDF-PC). CDF-PC est un service universel de distribution de données natif dans le cloud alimenté par Apache NiFi sur Kubernetes, permettant aux développeurs de se connecter à n’importe quelle source de données n’importe où avec n’importe quelle structure, de la traiter et de la livrer à n’importe quelle destination.
Ce blog vise à répondre à deux questions :
- Qu’est-ce qu’un service universel de distribution de données ?
- Pourquoi chaque organisation en a-t-elle besoin lorsqu’elle utilise une pile de données moderne ?
Lors d’un récent atelier client avec une grande entreprise de médias de science des données de détail, l’un des participants, un leader de l’ingénierie, a fait l’observation suivante :
« Chaque fois que je vais sur le site Web de votre concurrent, il ne se soucie que de son système. Comment intégrer les données dans leur système ? Je me fiche de leur système. Je veux une intégration entre tous mes systèmes. Chaque système n’est qu’un parmi tant d’autres que j’utilise. C’est pourquoi nous aimons que Cloudera utilise NiFi et la façon dont il s’intègre entre tous les systèmes. C’est un outil qui s’occupe de la communauté et nous l’apprécions vraiment.
Le sentiment ci-dessus est un thème récurrent dans de nombreuses entreprises avec lesquelles l’équipe Cloudera DataFlow a travaillé, en particulier celles qui adoptent une pile de données moderne dans le cloud.
Qu’est-ce que la pile de données moderne ? Certains des blogs viraux et des publications LinkedIn les plus populaires le décrivent comme suit :

Ben Patterson/IDG
Quelques observations sur le diagramme de pile moderne :
- Notez le nombre de boîtes différentes qui sont présentes. Dans la pile de données moderne, il existe un ensemble diversifié de destinations où les données doivent être livrées. Cela présente un ensemble unique de défis.
- Les nouveaux outils « extraire/charger » semblent se concentrer principalement sur les sources de données cloud avec des schémas. Cependant, sur la base des plus de 2000 entreprises clientes avec lesquelles Cloudera travaille, plus de la moitié des données dont ils ont besoin proviennent de l’extérieur du cloud (sur site, en périphérie, etc.) et n’ont pas nécessairement de schémas.
- De nombreux outils « d’extraction/chargement » doivent être utilisés pour déplacer les données dans l’écosystème des services cloud.
Nous approfondirons ces points plus loin.
Les entreprises n’ont pas traité la collecte et la distribution des données comme un problème de première classe
Au cours de la dernière décennie, nous avons souvent entendu parler de la prolifération des sources de création de données (applications mobiles, ordinateurs portables, capteurs, applications d’entreprise) dans des environnements hétérogènes (cloud, sur site, périphérie) entraînant une croissance exponentielle des données créées. Ce qui est moins souvent mentionné, c’est que pendant cette même période, nous avons également constaté une augmentation rapide des services cloud où les données doivent être livrées (lacs de données, lakehouses, entrepôts cloud, systèmes de streaming cloud, processus métier cloud, etc.). Les cas d’utilisation exigent que les données ne soient plus distribuées uniquement à un entrepôt de données ou à un sous-ensemble de sources de données, mais à un ensemble diversifié de services hybrides entre les fournisseurs de cloud et sur site.
Les entreprises n’ont pas traité la collecte, la distribution et le suivi des données dans l’ensemble de leur parc de données comme un problème de premier ordre nécessitant une solution de premier ordre. Au lieu de cela, ils ont construit ou acheté des outils de collecte de données confinés à une classe de sources et de destinations. Si vous tenez compte de la première observation ci-dessus, à savoir que les systèmes de source client ne se limitent jamais aux sources structurées dans le cloud, le problème est encore aggravé, comme décrit dans le diagramme ci-dessous :

Unisys
La nécessité d’un service universel de distribution de données
Alors que les services cloud continuent de proliférer, l’approche actuelle consistant à utiliser des solutions multipoints devient insoluble.
Une grande société pétrolière et gazière, qui avait besoin de transférer les cyberjournaux en streaming de plus de 100 000 appareils périphériques vers plusieurs services cloud, notamment Splunk, Microsoft Sentinel, Snowflake et un lac de données, a parfaitement décrit ce besoin :
« Le contrôle de la distribution des données est essentiel pour offrir la liberté et la flexibilité nécessaires pour fournir les données à différents services.”
Chaque organisation sur le parcours du cloud hybride doit pouvoir prendre le contrôle de ses flux de données depuis l’origine jusqu’à tous les points de consommation. Comme je l’ai indiqué au début du blog, ce besoin a généré une opportunité de marché pour un service universel de distribution de données.

P Wei / Getty Images
Quelles sont les fonctionnalités clés qu’un service de distribution de données doit avoir ?
- Connectivité universelle des données et accessibilité des applications: En d’autres termes, le service doit prendre en charge l’ingestion dans un monde hybride, en se connectant à n’importe quelle source de données n’importe où dans n’importe quel cloud avec n’importe quelle structure. Hybride signifie également prendre en charge l’ingestion à partir de n’importe quelle source de données née en dehors du cloud et permettre à ces applications d’envoyer facilement des données au service de distribution.
- Livraison de données universelle sans discrimination: Le service ne doit pas discriminer où il distribue les données, prenant en charge la livraison vers n’importe quelle destination, y compris les lacs de données, les maisons de lac, les maillages de données et les services cloud.
- Cas d’utilisation du mouvement universel des données avec le streaming en tant que citoyen de première classe: Le service doit répondre à toute la diversité des cas d’utilisation du mouvement de données : continu/streaming, batch, événementiel, edge et microservices. Dans ce spectre de cas d’utilisation, le streaming doit être traité comme un citoyen de première classe avec le service capable de transformer n’importe quelle source de données en mode streaming et de prendre en charge l’échelle de streaming, renforçant des centaines de milliers de clients générateurs de données.
- Accessibilité universelle pour les développeurs : La distribution des données est un problème d’intégration de données et toutes les complexités qui l’accompagnent. Les solutions simplifiées basées sur un assistant de connecteur ne peuvent pas résoudre les problèmes courants d’intégration de données (par exemple : protocoles de pontage, formats de données, routage, filtrage, gestion des erreurs, tentatives). Dans le même temps, les développeurs d’aujourd’hui exigent des outils low-code avec extensibilité pour créer ces pipelines de distribution de données.
Cloudera DataFlow for the Public Cloud, un service universel de distribution de données alimenté par Apache NiFi
Cloudera DataFlow pour le cloud public (CDF-PC), un service de distribution de données universel natif dans le cloud alimenté par Apache NiFi, a été conçu pour résoudre le problème de collecte et de distribution de données avec les quatre fonctionnalités clés : connectivité et accessibilité des applications, livraison de données sans discrimination, pipelines de données en continu en tant que première classe. l’accessibilité des citoyens et des développeurs.

IDG
CDF-PC offre un paradigme de développement low-code basé sur les flux qui offre la meilleure correspondance d’impédance avec la façon dont les développeurs conçoivent, développent et testent les pipelines de distribution de données. Avec plus de 400 connecteurs et processeurs à travers l’écosystème de services cloud hybrides, y compris les lacs de données, les maisons de lac, les entrepôts cloud et les sources nées en dehors du cloud, CDF-PC fournit une distribution de données aveugle. Ces flux de distribution de données peuvent ensuite être contrôlés en version dans un catalogue où les opérateurs peuvent effectuer des déploiements en libre-service sur différents environnements d’exécution, y compris les services kubernetes ou les services fonctionnels (FaaS) des fournisseurs de cloud.
Les organisations utilisent CDF-PC pour divers cas d’utilisation de distribution de données allant de l’analyse de la cybersécurité et de l’optimisation SIEM via la collecte de données en continu à partir de centaines de milliers d’appareils périphériques, à l’approvisionnement d’espace de travail d’analyse en libre-service et à l’hydratation des données dans les Lakehouses (par exemple : Databricks, Dremio) , à l’ingestion de données dans les lacs de données des fournisseurs de cloud soutenus par leur stockage d’objets cloud (AWS, Azure, Google Cloud) et leurs entrepôts cloud (Snowflake, Redshift, Google BigQuery).
Dans les blogs suivants, nous approfondirons certains de ces cas d’utilisation et discuterons de la manière dont ils sont mis en œuvre à l’aide de CDF-PC.
Commencer aujourd’hui
Où que vous en soyez dans votre parcours vers le cloud hybride, un service de distribution de données de première classe est essentiel pour réussir l’adoption d’une pile de données hybride moderne. Cloudera DataFlow for the Public Cloud (CDF-PC) fournit un premier service de distribution de données universel, hybride et en continu qui permet aux clients de prendre le contrôle de leurs flux de données.
Faites notre tour de produit interactif pour avoir une impression de CDF-PC en action ou Inscrivez-vous pour un essai gratuit.
Source link