Fermer

janvier 5, 2021

Guide du débutant sur la visualisation des données avec Python et Seaborn


La visualisation des données est une technique qui permet aux data scientists de convertir des données brutes en graphiques et tracés qui génèrent des informations précieuses. Les graphiques réduisent la complexité des données et les rendent plus faciles à comprendre pour n'importe quel utilisateur.

Il existe de nombreux outils pour effectuer la visualisation des données, tels que Tableau, Power BI, ChartBlocks, etc., qui sont des outils sans code. Ce sont des outils très puissants et ils ont leur public. Cependant, lorsque vous travaillez avec des données brutes qui nécessitent une transformation et un bon terrain de jeu pour les données, Python est un excellent choix.

Bien que plus compliqué car il nécessite des connaissances en programmation, Python vous permet d'effectuer toute manipulation, transformation et visualisation de vos données . Il est idéal pour les scientifiques des données.

Il y a de nombreuses raisons pour lesquelles Python est le meilleur choix pour la science des données, mais l'une des plus importantes est son écosystème de bibliothèques. De nombreuses grandes bibliothèques sont disponibles pour que Python fonctionne avec des données telles que numpy pandas matplotlib [19659005] tensorflow .

Matplotlib est probablement la bibliothèque de traçage la plus reconnue, disponible pour Python et d'autres langages de programmation comme R . C'est son niveau de personnalisation et d'opérabilité qui le définit en premier lieu. Cependant, certaines actions ou personnalisations peuvent être difficiles à gérer lors de son utilisation.

Les développeurs ont créé une nouvelle bibliothèque basée sur matplotlib appelée seaborn . Seaborn est aussi puissant que matplotlib tout en fournissant une abstraction pour simplifier les graphiques et apporter des fonctionnalités uniques.

Dans cet article, nous allons Concentrez-vous sur la façon de travailler avec Seaborn pour créer les meilleures parcelles de sa catégorie. Si vous voulez continuer, vous pouvez créer votre propre projet ou simplement consulter mon seaborn guide project on GitHub.

Qu'est-ce que Seaborn?

Seaborn est une bibliothèque pour créer des graphiques statistiques en Python. Il s'appuie sur matplotlib et s'intègre étroitement aux structures de données de pandas .

Seaborn design vous permet d'explorer et de comprendre votre données rapidement. Seaborn fonctionne en capturant des cadres de données entiers ou des tableaux contenant toutes vos données et en exécutant toutes les fonctions internes nécessaires à la cartographie sémantique et à l'agrégation statistique pour convertir les données en tracés informatifs.

[Lire: Découvrez les 4 scale-ups utilisant des données pour sauver la planète ]

Installation de Seaborn

Installation seaborn est aussi simple que d'installer une bibliothèque à l'aide de votre gestionnaire de paquets Python préféré. Lors de l'installation de seaborn la bibliothèque installera ses dépendances, y compris matplotlib pandas numpy et scipy .

Installons ensuite Seaborn, et bien sûr, aussi le paquet notebook pour accéder à nos données aire de jeux.

 pipenv install seaborn notebook

De plus, nous allons importer quelques modules avant de commencer.

 import  seaborn  as  sns
 importer  pandas  comme  pd
 import  numpy  as  np
 import  matplotlib

Construire vos premiers graphiques

Avant de pouvoir commencer à tracer quoi que ce soit, nous avons besoin de données. La beauté de seaborn est qu'il fonctionne directement avec les dataframes pandas ce qui le rend très pratique. Plus encore, la bibliothèque est livrée avec des ensembles de données intégrés que vous pouvez maintenant charger à partir du code, pas besoin de télécharger manuellement les fichiers.

Voyons comment cela fonctionne en chargeant un ensemble de données contenant des informations sur les vols.

Nuage de points

Un nuage de points est un diagramme qui affiche des points en fonction de deux dimensions du jeu de données. Créer un nuage de points dans la bibliothèque Seaborn est si simple et avec une seule ligne de code.

 sns.scatterplot (data = flight_data, x = "year", y = "passagers")