Les Data Lakes existent depuis le début de cette décennie, la plupart des entreprises du classement Fortune 500 ayant un Data Lake ou construisant un Data Lake. Les données relatives à la conduite vers les lacs ont principalement été motivées par des cas d'utilisation analytiques dans lesquels les scientifiques de données peuvent se débattre et préparer des données pour leur étude ou la création de leur modèle.
Data Lakes pour les cas d'utilisation du traitement de données opérationnel. Les entreprises sont désormais en mesure de transférer le traitement des ordinateurs centraux et des entrepôts de données MPP traditionnels coûteux vers les systèmes Hadoop et en nuage. Bien que le traitement des données d’exploitation ait toujours été possible sur les systèmes Hadoop, la dynamique s’est considérablement accélérée grâce aux nombreux progrès réalisés ces dernières années.
- La transformation basée sur SQL incluse dans Spark a rendu le Big Data ETL accessible à de nombreuses entreprises ne souhaitant pas investir dans des outils ETL coûteux.
- Les entrepôts de données en nuage pouvant offrir une échelle et une facilité d'utilisation similaires les systèmes EDW traditionnels à une fraction du coût, et
- Les avancées en matière de sécurité des offres Big Data basées sur Hadoop et dans le Cloud ont rassuré les entreprises sur le fait que leurs actifs de données sont protégés dans le nouvel écosystème de données.
le traitement sur Data Lakes apporte son propre ensemble de défis que les entreprises doivent résoudre. Dans mon prochain article de blog, j'examinerai les problèmes auxquels les entreprises sont confrontées à mesure que le Big Data devient opérationnel.
Source link