Intégrer Salesforce et Databricks / Blogs / Perficient

90 % des entreprises Fortune 500 utiliser Force de vente comme outil de gestion de la relation client. J’ai ingéré des données de Salesforce dans presque toutes les bases de données à l’aide de presque tous les outils ETL. Chaque intégration outil dehors là dispose d’un connecteur Salesforce ; Salesforce possède même Mulesoft. L’intégration a toujours fonctionné, mais elle a rarement été fluide. C’est juste quelque chose que tu as accepté. Je savais que Databricks travaillait sur plusieurs mécanismes différents pour l’intégration à Salesforce, mais je n’avais aucune raison d’approfondir cette question. Jusqu’à hier.
Pilotez votre propre cerf-volant
Nous J’aime évaluer les technologies en avant-première en interne avant toute implémentation client, dans la mesure du possible. En tant que Champion des DatabricksDatabricks m’encourage à essayer des produits avant leur libération au public et donner son avis. Nous avons eu un cas d’utilisation interne dans lequel nous souhaitions pouvoir communiquer nos données de recherche internes à nos partenaires. Naturellement, chaque partenaire souhaitait que ces données leur soient fournies un peu différemment, il y a donc eu beaucoup d’efforts manuels pour masser nos données SFDC internes et les publier à chaque client. Il s’agit d’un cas d’utilisation très typique dans lequel l’automatisation pourrait accélérer le processus, libérer des ressources pour des tâches plus précieuses, améliorer la précision, etc. Nous avons parlé à nos architectes de solution Databricks et ils nous ont dit qu’il y avait une solution en avant-première et ils nous ont donné accès. Dix-huit minutes plus tard, nous avons réalisé que nous avions une nouvelle approche stratégique pour tirer profit de la maison du lac.
Sous le capot
Il existe un certain nombre de solutions pour ingérer des données dans Databricks ; ce nouveau mécanisme est appelé LacFlow. LakeFlow Connect utilise des connecteurs prédéfinis pour ingérer des systèmes SaaS d’entreprise, comme Salesforce ou Journée de travaildans un Tableau Delta en direct. en utilisant un Connexion. Les connexions représentent un système de données distant utilisant des options spécifiques au système qui gèrent les détails de localisation et d’authentification et constituent l’une des nombreuses nouvelles fonctionnalités de Catalogue Unity. Ces connexions étrangères permettent également Requêtes fédéréesdont nous parlerons plus tard. Delta Live Tables (DLT) est un framework ETL déclaratif pour le streaming et le batch qui gère automatiquement l’orchestration des tâches, la gestion des clusters, la surveillance, la qualité des données et la gestion des erreurs. Unity Catalog gère le lignage, la gouvernance et la sécurité. DLT gère la capture, la surveillance et la gestion des données modifiées. Tout cela est alimenté par un architecture de calcul sans serveuren faisant abstraction de la configuration et du déploiement de l’infrastructure. Alors qu’est-ce que cela signifie ?
Abordons l’objection la plus évidente : cette solution nécessite de déplacer les données. Il existe des options intéressantes avec Briques de données et Flocon de neige pour Nuage de données Salesforce pour la fédération et l’intégration zéro copie respectivement. Mais Sales Cloud reste de loin le leader du marché, je suis donc principalement concerné par le produit Salesforce CRM. Il existe naturellement des inquiétudes quant au coût de la duplication des données, mais l’objectif serait d’améliorer les données plutôt que de simplement les dupliquer. Et bien sûr, la valeur est un meilleur indicateur que le coût. Notre cas d’utilisation interne peut montrer des économies de coûts et des avantages intangibles, tels que des relations de partenariat qui dépassent de loin les coûts de stockage. En réalité, je vois que nous remplacerons les processus d’ingestion existants, plus coûteux, au sein de notre clientèle.
Une meilleure souricière
Une comparaison plus précise serait LakeFlow par rapport à des outils comme CinqTran. DLT est une fonctionnalité native de Databricks conçue spécifiquement pour la transformation déclarative de données et la création de pipelines de données. DLT prend en charge les données par lots et en streaming, permet le traitement incrémentiel des données et gère l’évolution des schémas, les contrôles de qualité des données et la récupération automatisée des erreurs. DLT et Connections sont entièrement intégrés à Unity Catalog, ce qui permet des contrôles d’accès précis, un traçage des données et des journaux d’audit pour appliquer des politiques de sécurité de manière cohérente dans l’environnement Data Lakehouse. Le framework DLT gérera automatiquement l’orchestration, la surveillance et la qualité des données tandis que l’architecture sans serveur gère les clusters de manière performante et rentable. Cette intégration étroitement couplée avec l’écosystème Databricks, en particulier Unity Catalog, rend LakeFlow difficile à battre dans cette catégorie.
Autres options
Fédération Databricks Lakehouse vous permet d’interroger, sans déplacer, des sources de données externes à partir de Databricks. Il existe de solides arguments en faveur de l’utilisation de la fédération pour les requêtes ad hoc. Dans ce cas d’utilisation particulier, nous devons appliquer des transformations assez complexes sur nos pipelines afin de conformer nos données Salesforce à nos différents partenaires selon un planning fixe. Cela a fait de LakeFlow un meilleur choix que Federation malgré la nécessité de dupliquer les données pour ce cas d’utilisation. Il n’y a aucune raison pour que Federation et LakeFlow ne puissent pas être utilisés dans la même entreprise pour interroger les données de votre Lakehouse Databricks. En fait, je vous recommanderais d’utiliser les deux. Et je recommanderais également d’envisager une troisième option.
Databricks n’est pas une plateforme de données ; est une plateforme de données et de renseignement. C’est là qu’intervient Bring Your Own Model (BYOM). Salesforce adopte une approche zéro copie pour fournir aux plateformes d’apprentissage automatique externes telles que Databricks un accès direct aux données Salesforce. Vous pouvez créer, entraîner et déployer des modèles de machine learning personnalisés avec Databricks et des données dans Salesforce. Après avoir enregistré un modèle dans Databricks, définissez vos critères de prédiction et connectez le modèle à Data Cloud. Encore une fois, il s’agit d’un autre mécanisme complémentaire permettant de combiner les données Salesforce avec les informations Databricks.
Conclusion
Il est difficile d’exagérer la valeur commerciale que les données Salesforce apporteraient au lac de données de votre entreprise. Vous disposez de plusieurs options complémentaires. Utilisez LakeFlow Connect pour importer vos données Sales Cloud dans votre Lakehouse pour les stocker, les transformer, les analyser et les partager. Utilisez Federation pour interroger des données dans Data Cloud directement à partir de Databricks. Et profitez des puissantes capacités d’apprentissage automatique de Databricks sur votre Data Cloud en utilisant l’approche BYOM.
Contactez-nous et travaillons ensemble sur votre parcours en matière de données et d’IA !
Source link