Fermer

mars 22, 2024

Databricks renforce MosaicAI avec Lilac / Blogs / Perficient

Databricks renforce MosaicAI avec Lilac / Blogs / Perficient


Briques de données a acquis LilasAI alors qu’il continue de renforcer son offre de bout en bout plateforme d’intelligence de données. Le 2023 acquisition de MosaïqueML a donné à Databricks des capacités significatives dans le IA générative espace avec la capacité de former et de déployer Grands modèles de langage (LLM) à grande échelle. Ensuite, Databricks a acheté Arcion pour fournir une ingestion native de données en temps réel dans leurs modèles d’IA et de ML ainsi que dans leur Lakehouse. Le aperçu l’acquisition était la suivante, offrant de solides capacités de traitement du langage naturel (NLP). Databricks a de fortes racines open source, ce qui a conduit à un Partenariat avec l’open source Mistrals. Comment Databricks pense-t-il que LilacAI renforcera son MosaïqueAI plate-forme?

Plus facile à déstructurer

Databricks a toujours fourni une plateforme pour les données structurées, semi-structurées et non structurées. Travailler avec des données non structurées, en particulier à grande échelle, peut s’avérer difficile. Les données non structurées manquent d’étiquettes ou même de métadonnées utiles. Même la définition du « bon » est plus difficile à définir avec des données non structurées qu’avec des données structurées. Le mission déclarée de LilacML est de

rendre les données non structurées visibles, quantifiables et malléables, conduisant à un modèle d’IA de meilleure qualité et offrant un meilleur contrôle et une meilleure visibilité des biais du modèle et une meilleure action en cas d’échec des modèles d’IA.

L’objectif déclaré de Databricks MosaicAI est de fournir aux entreprises clientes des outils de bout en bout pour développer des solutions GenerativeAI avec leurs propres données. Il est intéressant de constater comment ils appelé préparer des ensembles de données pour RAG ainsi que la pré-formation, surveiller les résultats des LLM et affiner les réglages. Il existe un problème persistant avec la formation des LLM, en particulier sur des ensembles de données de taille relativement petite. Les grands modèles linguistiques (LLM) sont sujets à hallucinations.

Nettoyer avec un RAG

Intelligence des données - L'avenir du Big Data
L’avenir du Big Data

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenez le guide

Utilisation des LLM l’apprentissage en profondeur pour traiter de grandes quantités de texte provenant de plusieurs sources à l’aide Traitement du langage naturel (PNL) pour apprendre des modèles et des connexions entre les mots. Certaines de ces données sont exactes, à jour, cohérentes en interne et ne contiennent pas de données sécurisées ; d’autres moins. La fusion d’autant de sources de données disparates avec des niveaux de qualité de données variables peut conduire à des résultats faux, obsolètes, inappropriés, peu sûrs ou tout simplement absurdes. Il n’a pas été facile de trouver des solutions pratiques.

Former un LLM est un processus extrêmement gourmand en ressources et coûteux. Pour les très gros modèles, cela pourrait impliquer des mois d’exécution sur des dizaines de GPU haut de gamme. D’un point de vue pratique, cela signifie que la plupart des LLM accessibles au public travaillent sur des informations obsolètes. Pour les ensembles de données plus petits au niveau de l’entreprise, une mauvaise qualité peut avoir un impact considérable sur l’utilité, voire la sécurité, des données.

Actuellement, la responsabilité de limiter les hallucinations est laissée aux équipes individuelles d’IA/ML. Le réglage manuel d’un LLM nécessite substantielle spécialisée travailler dans la formation de modèles. Récemment, Meta développé une approche pour améliorer la qualité de la sortie LLM appelé Génération augmentée par récupération (RAG).

Un RAG peut améliorer (augmenter) la génération d’un résultat en récupérant des informations plus récentes dans le modèle existant sans recycler l’ensemble du modèle. Une fois que vous réalisez que les coûts élevés associés au recyclage complet d’un modèle sont prohibitifs, augmenter le modèle avec des informations plus récentes semble être une approche raisonnable pour une amélioration continue de la qualité. Langchain rend la réalisation d’un POC initial avec RAG assez simple. Vous pouvez voir une implémentation plus avancée en clonage Projet de recherche Fusion-in-Decode de Meta.

Conclusion

Les données d’entreprise, en particulier dans les secteurs réglementés, s’appuient sur des pipelines de qualité robustes, efficaces et omniprésents. Être capable de libérer la valeur des données non structurées est un objectif depuis l’époque de Hadoop. Un objectif insaisissable, au mieux. Databricks renforce sa plate-forme MosaicAI avec l’inclusion de Lilac en reconnaissant la difficulté et le caractère critique de la qualité des données sur les données non structurées dans la création de LLM prêts pour l’entreprise et en facilitant la tâche à l’équipe de développement.

Contactez-nous pour en savoir plus sur la façon de créer un pipeline GenAI robuste dans Databricks pour votre organisation.






Source link