Fermer

janvier 23, 2024

Big data : voici comment naviguer entre les entrepôts de données, les lacs de données et les data lakehouses

Big data : voici comment naviguer entre les entrepôts de données, les lacs de données et les data lakehouses



85 % des PDG exigent que les cadres supérieurs produisent des informations basées sur des données sur lesquelles baser leurs activités d’innovation, a écrit IDC dans son « FutureScape : Worldwide Future of Digital Innovation 2023 Predictions ». En 2024, le rôle des connaissances extraites des données est plus que jamais d’actualité. La nature du Big Data continue d’évoluer et une part croissante de celles-ci est générée nuage: 32% en 2027, selon les estimations du « Worldwide IDC Global DataSphere Forecast, 2023-2027 », contre 17,5% en 2022. Le cloud lui-même évolue technologies de gestion de données: la diffusion des solutions de cloud public – fondamentalement, celles des grands fournisseurs américains – pousse l’évolution du data Warehouse au Data Lake jusqu’au Data Lakehouse. Dans tous les cas, l’objectif est d’extrapoler les connaissances avec des techniques allant de l’intelligence d’entreprise (BI), jusqu’à l’analytique à l’intelligence artificielle (IA).

En général, les DSI en Italie ont tendance à maintenir l’entrepôt de données si les données de leur entreprise sont structurées et en quantités non volumineuses, tandis que le lac de données est le choix plus ou moins obligatoire pour ceux qui traitent des données non structurées. Dans de nombreux cas, les deux solutions fonctionnent côte à côte pour répondre aux besoins d’analyse et de visualisation des deux types de données. Le lac de données, par exemple, se prête à la manipulation d’informations en temps réel ou ultra-réel, qui représentent 22 % des nouvelles données créées, selon IDC.

Cependant, les données en streaming, qui représentent 75% du total des nouvelles données, sont idéalement destinées au Ddta Lakehouse, le nouveau système de gestion de données dont l’adoption est facilitée par l’utilisation du cloud public, comme l’explique Stefano Gatti, expert du secteur. et rédacteur du bulletin d’information Culture des données.

Entre entrepôt de données et lac de données

Les deux solutions d’entrepôt de données et de lac de données sont très différentes l’une de l’autre, souligne Gatti. Le premier concerne le premier des systèmes informatiques de l’ère de la manipulation des données, avec des infrastructures de support souvent encore on-premise. Par la suite, dans le sillage du Web 2.0, le lac de données a fait son chemin pour extraire de la valeur du Big Data non structuré. Mais la différence réside également dans la philosophie et les objectifs sous-jacents.

« Dans l’entrepôt de données, la méthode prévaut : on analyse les données commerciales, financières, de produits et similaires, qui nécessitent une plus grande précision. Dans le lac de données, cependant, la logique de l’innovation prévaut », explique Gatti. « Par conséquent, dans le contexte de la gestion des données à des fins analytiques, l’entrepôt de données se concentre davantage sur les applications de reporting, tandis que le lac de données est davantage configuré comme un laboratoire d’expérimentation pour les data scientists et les analystes de données, adapté aux domaines créatifs, comme le marketing. Aujourd’hui, les deux solutions peuvent montrer des limites : dans l’entrepôt de données, le champ est très limité, tandis que dans le lac de données, il existe un risque de perdre le sens de l’effort d’innovation et la capacité d’arriver à une application de valeur à grande échelle ».

Le Data Lakehouse, qui combine les mérites et dépasse les limites des deux modèles, représente, selon Gatti, une « évolution darwinienne des entrepôts de données et des lacs de données ». Mais pour les DSI italiens, nous n’ignorons pas la pratique, c’est-à-dire la question clé : de quoi ai-je réellement besoin ?




Source link