Fermer

août 10, 2021

Apprentissage automatique accessible – AWS AutoGluon & Data Prediction3 minutes de lecture



De nombreuses entreprises ont consacré des efforts à l'apprentissage automatique automatisé (AutoML). Il automatise de nombreuses meilleures pratiques et constitue une abstraction pour faciliter l'approche de l'apprentissage automatique pour les développeurs sans expérience préalable. Open source d'AWS, "AutoGluon" est l'une de ces bibliothèques AutoML. AutoGluon est plus rapide, plus robuste et beaucoup plus précis que de nombreuses autres plates-formes AutoML publiques et commerciales, comme le montre leur article ici. De plus, il y a une excellente vidéo youtube du Dr Jonas Mueller (l'auteur de l'article), qui donne un aperçu d'AutoGluon et couvre les points saillants de son article. Après cette recherche préliminaire sur AutoGluon, je voulais explorer plus en profondeur à quel point la bibliothèque est vraiment accessible et la qualité des prédictions avec des paramètres par défaut et aucune optimisation.  

Presque tout le monde dispose aujourd'hui d'une base de données ou de feuilles de calcul pour gérer son activité. J'ai donc décidé d'utiliser ces types de données pour mon exploration et mes tests afin de déterminer si vous pouvez rapidement gagner de la valeur commerciale en utilisant AutoGluon. Il existe deux formes de données qu'AutoGluon peut prédire dans une colonne de table : classification ou régression. La classification est lorsque la réponse provient d'une liste avec des constantes connues. La régression se produit lorsque la valeur peut être un nombre à virgule flottante ayant donc des possibilités presque infinies.  

Classification 

Tout d'abord, concentrons-nous sur la classification. Supposons que vous ayez une table de base de données avec des données manquantes. Peut-être que les données sont perdues à jamais. Peut-être que les données seront éventuellement complétées à l'avenir, mais vous voulez prédire ce qu'elles seront. Dans les deux cas, vous pouvez utiliser l'apprentissage automatique pour trouver des modèles dans les données connues afin de prédire les données manquantes.

Prédire les valeurs manquantes

Dans un sens simplifié, ce processus de recherche d'un modèle est également appelé « entraînement du modèle ». Avec autoML, cela peut être aussi simple qu'une seule ligne de code. Tout ce que vous avez à faire est d'exporter les lignes remplies/connues que vous souhaitez utiliser pour l'entraînement et de fournir les noms de colonnes que vous souhaitez prédire à l'avenir. Voici à quoi ressemble le code.

predictor = TabularPredictor(label=columnpath=save_path).fit(training_datapresets='[19659019]best_quality') 

Lorsque le prédicteur est créé, il est enregistré  sur le disque afin de  peuvent être chargés rapidement à l'avenir.[19659031] Next, exporter les lignes que nous voulons prédire, et pfournir à le prédicteur. Cette 1 ligne de code  ci-dessous  vous fournit la  la colonne de prédictions.

y_pred = predictor.predict(test_data) 

Mais, vous ne voulez pas seulement faire une prédiction, vous voulez connaître aussi la qualité de cette prédiction. Supposons que la colonne que vous vouliez prédire indique si le prix de vente final d'un article sera inférieur à 50 000 $ ou supérieur à 50 000 $. En cas de classifications, il est également possible de connaître les probabilités des prédictions. Surtout lorsque la prédiction est proche de 50/50, vous pouvez envisager de stocker la probabilité avec la prédiction. Cette 1 ligne de code ci-dessous vous fournit des prédictions et leurs probabilités.

pred_probs = predictor.predict_proba(test_data)

Probabilités de Gluton






Source link

0 Partages