Mieux ensemble / blogs / perficient

SAP Databricks est important car un accès pratique aux données gouvernés pour soutenir les initiatives commerciales est importante. La rupture de Silos a été un tambour de professionnels de données depuis Hadoop, mais cette initiative SAP Databricks peut aider à résoudre l’un des problèmes d’ingénierie des données les plus intraitables. SÈVE A une grande empreinte de données critique dans de nombreuses grandes entreprises. Cependant, SAP a un modèle de données opaque. Il y avait toujours un long processus douloureux pour effectuer le travail de colle nécessaire pour déplacer les données tout en reconnaissant qu’aucune valeur réelle n’était réalisée dans ce processus intermédiaire. Cela a provoqué le retard de nombreux projets, échoué ou non poursuivi, ce qui a entraîné un coût d’opportunité perdu assez important pour le client et une perte potentielle de confiance dans l’intégrateur du système. SAP a reconnu cela et en partenariat avec une petite poignée d’entreprises pour améliorer et agrandir la portée de leur offre. Databricks a été sélectionné pour fournir une intégration bidirectionnelle avec leur Databricks Lakehouse plate-forme. Quand j’ai entendu dire qu’il allait y avoir une grande annonce, je pensais que nous allions entendre parler d’un nouveau Connecteur de la Fédération Lakehouse. Cela aurait été formidable; Je suis un ventilateur.
C’était plus grand.
Les détails techniques émergent toujours, donc je vais essayer de me concentrer sur ce que j’ai entendu et ce que je pense que je sais. Je vais également apporter sur certains cas d’utilisation sur lesquels nous avons travaillé qui, je pense, pourrait être directement touché par cela aujourd’hui. Je pense que le point à retenir les plus importants pour les ingénieurs de données est que vous pouvez maintenant combiner SAP avec votre Lakehouse sans pipelines. Dans les deux sens. Avec gouvernance. C’est grand.
SAP Business Data Cloud
Je ne sais pas grand-chose sur SAP, donc vous pouvez certainement en savoir plus ici. Je veux en savoir plus sur l’architecture du point de vue de Databricks et j’ai pu découvrir des informations de la Présentation de SAP Databricks Publier sur la page du blog interne de données de données.
![]() | C’est à ce moment-là qu’il a vraiment coulé en ce que nous n’avions pas affaire à un nouveau connecteur Lakeflow; SAP Databricks est un composant natif du SAP Business Data Cloud et sera vendu par SAP dans le cadre de leur offre SAP Business Data Cloud. Ce n’est pas dans le diagramme ici, mais vous pouvez réellement intégrer des instances de données nouvelles ou existantes avec SAP Databricks. Je ne veux pas prendre de l’avance sur moi-même, mais j’envisagerais certainement de mettre cette autre instance de Databricks sur un autre hyperscaler. 🙂 Dans mon esprit, la magie est la ligne pointillée du bleu «Produits SAP de données SAP riches en contexte». |
Partage open source
La promesse de SAP Databricks est la capacité de facilement Combinez les données SAP avec le reste des données d’entreprise. Dans mon esprit, facilement signifie pas de pipelines qui touchent la sève. Le diagramme que nous voyons avec le point d’intégration entre SAP et Databricks SAP utilise le partage de Delta est la technologie d’activation sous-jacente.
Partage delta est un protocole open source, développé par Databricks et le Fondation LinuxCela fournit une solide gouvernance et une sécurité pour partager les données, l’analyse et l’IA entre les unités commerciales internes, les fournisseurs de nuages et les applications. Les données restent dans son emplacement d’origine avec le partage de Delta: vous partagez des données en direct sans reproduction. Delta partage, en combinaison avec Catalogue d’unitépermet à un fournisseur de accorder l’accès à un ou plusieurs destinataires et dicter les données que les données peuvent être vues par ces partages en utilisant Row et niveau de colonne sécurité.
Gouvernance open source
Databricks expulse Catalogue d’unité pour la sécurité et la gouvernance sur la plate-forme, y compris Delta Share. Unity Catalog propose une solide authentification, un contrôle d’accès au niveau des actifs et une vente d’identification sécurisée pour fournir une solution ouverte unifiée et unifiée pour protéger les données structurées (semi-et non) et les actifs d’IA. Unity Catalog propose une solution complète pour améliorer la gouvernance des données, l’efficacité opérationnelle et les performances technologiques. En centralisant la gestion des métadonnées, les contrôles d’accès et le suivi des lignées de données, il simplifie la conformité, réduit la complexité et améliore les performances de la requête dans divers environnements de données. L’intégration transparente avec le lac Delta déverrouille les fonctionnalités techniques avancées comme optimisation prédictiveconduisant à un accès aux données et à des économies de coûts plus rapides. Unity Catalog joue un rôle crucial dans l’apprentissage automatique et l’IA en fournissant une gouvernance des données centralisée et un accès sécurisé à des ensembles de données cohérents de haute qualité, permettant aux scientifiques des données de Gérer et accéder efficacement Les données dont ils ont besoin tout en garantissant la conformité et l’intégrité des données tout au long du cycle de vie du développement du modèle.
Entreposage de données
Databricks est maintenant un entrepôt de données de première classe avec son Databricks SQL offre. Le entrepôts SQL sans serveur ont changé la donne pour moi parce qu’ils tournent immédiatement et disent élastiquement. Conseil de pro: c’est le moment idéal pour proposer une stratégie de marquage. Vous pourrez facilement connecter votre outil BI (Tableau, Powerbi, etc.) à l’entrepôt pour les rapports. Il existe également de nombreuses opportunités d’IA / BI vraiment utiles disponibles maintenant. Si vous vous souvenez de l’introduction, j’ai dit que j’aurais été heureux si cela n’avait été qu’une offre de la Fédération Lakehouse. Vous avez toujours la capacité de profiter de la fédération pour découvrir, interroger et régir les données de Snowflake, Redshift, Salesforce, Teradata et bien d’autres à partir d’une instance de données. Je m’enroule toujours la tête pour pouvoir interroger les données Salesforce et SAP dans un ordinateur portable à l’intérieur de Databricks à l’intérieur de SAP.
Mosaïque ai + joule
En tant qu’ingénieur de données, j’ai été le plus enthousiasmé par le flux de données SAP bidirectionnel le plus en copie dans les databricks. C’est égoïste car il résout mes problèmes, mais c’est relativement myope. L’intégration entre SAP et Databricks fournira probablement le plus de valeur à travers AI agentique. Permet de stipuler que je crois que le chat n’est pas l’avenir de Genai. Ce n’est pas une déclaration audacieuse; La plupart des gens sont d’accord avec moi. Des assistants comme les copilotes représentaient un fort chemin à parcourir. Sap pensait ainsi, donc Joule. Il semble que SAP tire parti de la plate-forme Databricks en général et Mosaicai en particulier pour fournir une prochaine génération de Joule qui sera un copilote de l’IA imprégné d’agents.
Source link