Fermer

décembre 13, 2022

Pourquoi les DSI doivent comprendre Apache Cassandra

Pourquoi les DSI doivent comprendre Apache Cassandra


De Jeff Charpentier

Vous avez peut-être entendu parler d’Apache Cassandra, la base de données NoSQL open source. Et vous savez peut-être que certaines grandes entreprises très prospères en dépendent, notamment LinkedIn, Netflix, The Home Depot et Apple.

Mais saviez-vous que Cassandra est utilisée par un large éventail d’entreprises, y compris de petits créateurs d’applications natives du cloud, des sociétés financières et des diffuseurs ?

Ici, je vais vous donner un aperçu de Cassandra, ainsi que quelques raisons pour lesquelles cette base de données pourrait bien être le bon moyen de conserver les données dans votre organisation et de garantir que vos données et les applications que vos développeurs construisent dessus sont évolutives et sécurisées à l’infini. , et vite.

Un regard (très abrégé) sur le paysage des bases de données

De nombreuses personnes dans le domaine de la technologie se sont d’abord familiarisées avec les bases de données relationnelles telles qu’Oracle DB ou MySQL. Ils sont très puissants car ils garantissent à la fois la cohérence et la disponibilité des données, et ils sont efficaces et relativement faciles à utiliser, tant que vos bases de données s’exécutent sur la même machine.

Apache Cassandra 4.1 est généralement disponible ! Lire la suite

Mais si vous devez exécuter plus de transactions ou avez besoin de plus d’espace pour stocker vos données, vous atteindrez assez rapidement les limites supérieures, car les bases de données relationnelles ne peuvent pas évoluer efficacement.

La solution? Divisez les données entre plusieurs machines et créez un système distribué. Les bases de données NoSQL (« Not only SQL ») ont été inventées pour faire face à ces nouvelles exigences de volume (capacité), de vélocité (débit) et de variété (format) du big data.

Il est né d’une nécessité, car l’essor de la Big Tech au cours de la dernière décennie a poussé la sphère mondiale des données à monter en flèche 15 fois; les bases de données relationnelles ne peuvent tout simplement pas faire face au nouveau volume de données ou aux nouvelles exigences de performances. D’énormes opérations mondiales comme Google, Facebook et LinkedIn ont créé des bases de données NoSQL pour leur permettre d’évoluer efficacement, de se mondialiser et d’atteindre zéro temps d’arrêt.

Les débuts de Cassandre

Au milieu des années 2000, les ingénieurs du jeune Facebook en pleine croissance avaient un problème : comment pouvaient-ils stocker et accéder aux données prolifiques créées par Messenger, la plateforme qui permettait aux utilisateurs du site de réseau social de communiquer entre eux ? Rien sur le marché ne pouvait gérer les centaines de millions d’utilisateurs qui se trouvaient sur la plate-forme aux heures de pointe, répartis sur des dizaines de milliers de serveurs répartis dans des centres de données à travers le monde.

Ainsi, l’équipe de Facebook a créé sa propre base de données pour permettre aux utilisateurs de rechercher dans leurs boîtes de réception Messenger. Il a répliqué les données à travers les zones géographiques pour réduire les latences, géré des milliards d’écritures par jour et pourrait évoluer à mesure que le nombre d’utilisateurs augmentait. (Vous pouvez consulter l’article original de Facebook Cassandra, rédigé par ses créateurs, ici).

Lorsqu’il est devenu évident que cette technologie convenait à d’autres fins, l’entreprise a confié Cassandra à l’Apache Software Foundation (ASF), où elle est devenue un projet open source (elle a été élue projet de haut niveau en 2010).

L’évolutivité de Cassandra était impressionnante, mais sa fiabilité la distingue également des bases de données. En raison de sa répartition géographique et du fait que les données sont répliquées dans plusieurs centres de données, les capacités de disponibilité et de reprise après sinistre de Cassandra sont inégalées. Cela a rapidement attiré l’attention d’autres stars montantes du Web, comme Netflix. La société a lancé son service de streaming en 2007 en utilisant une base de données Oracle hébergée dans un seul centre de données. La croissance rapide de l’entreprise a rapidement mis en évidence le danger de gérer les données à un seul point de défaillance. En 2013, la plupart des données de Netflix étaient hébergées dans Cassandra.

Cassandra est devenue la base de données standard de facto pour les applications à forte croissance qui ont besoin de fiabilité, de hautes performances et d’évolutivité : elle est utilisée par environ 90 % des entreprises du Fortune 100, et un ensemble de développements relativement récents la rendent encore plus accessible à un plus large public. éventail d’organisations.

Pourquoi Cassandre ?

Récapitulons rapidement certaines des capacités uniques de Cassandra :

  • Évolutivité – Il n’y a pratiquement aucune limitation de volume et de vitesse. Parce qu’il est partitionné sur une architecture distribuée, Cassandra est capable de gérer divers types de données à l’échelle du pétaoctet.
  • La rapidité – Les performances de lecture-écriture sont inégalées, en partie grâce à la nature distribuée de Cassandra – elle peut fonctionner sur plusieurs instances appelées « nœuds ». Un nœud unique est très performant, mais un cluster avec plusieurs nœuds et centres de données fait passer le débit au niveau supérieur. La décentralisation signifie que chaque nœud peut traiter n’importe quelle demande, lecture ou écriture.
  • Disponibilité – Théoriquement, les organisations peuvent atteindre une disponibilité de 100 % grâce à la réplication des données, à la décentralisation et à une stratégie de placement sensible à la topologie qui se réplique sur plusieurs centres de données, éliminant ainsi le gaspillage associé à la pratique traditionnelle consistant à maintenir une infrastructure dupliquée pour la reprise après sinistre.
  • Géographiquement distribué – Les déploiements multi-centres de données offrent une tolérance exceptionnelle aux catastrophes tout en gardant les données proches des clients dans le monde entier, réduisant ainsi la latence (en savoir plus sur la distribution mondiale des données ici).
  • Plate-forme et fournisseur indépendant – Cassandra n’est liée à aucune plate-forme ou fournisseur de services, ce qui permet aux organisations de créer des solutions hybrides et multi-cloud. Il n’appartient pas non plus à un vendeur commercial ; le fait qu’il soit proposé par l’open-source, à but non lucratif ASF signifie qu’il est ouvertement disponible et qu’il s’améliore continuellement.

Pour plus de détails, voir cet excellent aperçu de Cassandre assuré par l’ASF.

Pourquoi Cassandra pour votre organisation ?

Services bancaires en ligne, systèmes de réservation de compagnies aériennes et applications de vente au détail populaires. Ces applications et charges de travail modernes, dont beaucoup fonctionnent à grande échelle et distribuée, ne devraient jamais tomber en panne. La capacité transparente et cohérente de Cassandra à évoluer jusqu’à des centaines de téraoctets, ainsi que ses performances exceptionnelles sous de lourdes charges, en ont fait un élément clé des infrastructures de données des entreprises qui exploitent ce type d’applications.

Par exemple, Best Buy, le plus grand détaillant d’électronique grand public multicanal au monde, décrit Cassandra comme « parfaite » dans la façon dont il gère les énormes pics de trafic des achats de vacances.

Mais Cassandra n’est pas réservée aux grands leaders du secteur établis comme Best Buy ou Bloomberg. Il s’agit d’un magasin de données puissant pour les développeurs et les architectes qui créent des applications à forte croissance dans des organisations de toutes tailles. Envisager Praveen Viswanathcofondateur d’Alpha Ori Technologies, qui propose une plate-forme IOT pour l’acquisition de données à partir de navires et le traitement et l’analyse pour leurs opérateurs.

Ayant expérimenté la puissance de la base de données NoSQL dans des rôles antérieurs, Viswanath s’est de nouveau tourné vers Cassandra – livré via Base de données Astra de DataStax service cloud – pour sa fiabilité distribuée et son débit élevé, car la plate-forme d’Alpha Ori nécessitait la collecte constante de milliers de points de données à partir des quelque 40 systèmes principaux à bord des plus de 260 navires qu’elle desservait.

En raison du besoin de son équipe de se concentrer sur le développement plutôt que sur l’exploitation de la base de données, Viswanath a choisi le service géré Astra DB, une solution sans serveur qui évolue en fonction des besoins.

Un écosystème florissant

La disponibilité de Cassandra en tant que service géré est l’un des moyens par lesquels cette puissante base de données atteint davantage d’organisations. Mais il existe également un écosystème de technologies open source complémentaires qui ont vu le jour autour de Cassandra pour simplifier la création d’applications avec les développeurs.

Porte des étoiles est une passerelle de données open source qui fournit une couche d’API enfichable qui simplifie considérablement l’interaction des développeurs avec n’importe quelle base de données Cassandra. Les API REST, GraphQL, Document et gRPC facilitent le démarrage du codage avec Cassandra sans avoir à apprendre les complexités de la modélisation des données CQL et Cassandra.

K8ssandra est un autre projet open source qui démontre cette accessibilité, permettant de déployer Cassandra sur n’importe quel moteur Kubernetes, des fournisseurs de cloud public à VMWare et OpenStack. K8ssandra étend la promesse Kubernetes de portabilité des applications au niveau des données, ce qui permet d’éviter plus facilement la dépendance vis-à-vis d’un fournisseur.

Un avenir dynamique

En tant que projet open source très actif, Cassandra est constamment mis à jour et étendu par une communauté dynamique de personnes très intelligentes dans des entreprises comme Apple, Netflix et mon employeur, DataStax. En effet, l’Apache Software Foundation annoncé aujourd’hui la disponibilité générale de Cassandra 4.1. Grâce à des innovations passionnantes comme Prise en charge des transactions ACID (longtemps Saint Graal des bases de données NoSQL distribuées) et indexation amélioréenous nous efforçons de rendre Cassandra plus puissante, facile à utiliser et prête pour l’avenir.

Vous voulez en savoir plus sur Apache Cassandra ? Inscrivez-vous dès maintenant au Cassandra Summitqui a lieu à San Jose, Californie, les 13 et 14 mars 2023.

À propos de Jeff Charpentier :

DataStax

DataStax

Jeff a travaillé en tant qu’ingénieur logiciel et architecte dans plusieurs secteurs et en tant que défenseur des développeurs pour aider les ingénieurs à réussir avec Apache Cassandra. Il est impliqué dans plusieurs projets open source dans les écosystèmes Cassandra et Kubernetes, notamment Porte des étoiles et K8ssandra. Jeff est co-auteur des livres O’Reilly Cassandra : le guide définitif et Gérer les données cloud natives sur Kubernetes.




Source link

décembre 13, 2022