Fermer

janvier 15, 2020

Utiliser No Code ML dans Oracle Analytics Cloud pour prédire les prix des logements


D'abord un bref résumé de l'apprentissage automatique (ML). À un niveau élevé et en simplifiant un peu, il existe essentiellement deux types de ML:

  • Apprentissage supervisé – un ensemble de données étiqueté est utilisé pour entraîner un modèle de ML à faire des prédictions. Le modèle de ML «formé» est ensuite appliqué à un ensemble de données pour faire les prédictions pour lesquelles il a été formé. Il existe deux types d'apprentissage supervisé 1. classification où une prédiction non numérique est faite (par exemple, une personne quittera l'entreprise ou non) et 2. régression où une prédiction est faite d'une valeur qui est sur un continuum (par exemple, le logement
  • Apprentissage non supervisé – les données qui passent par le modèle ML ne sont pas étiquetées. Le modèle ML est utilisé pour trouver des modèles et des clusters dans les données qui autrement seraient très difficiles à détecter.

Dans le blog d'aujourd'hui, je vais montrer comment utiliser la fonction d'apprentissage automatique dans Oracle Analytics Cloud pour prédire les prix des logements. Il s'agit d'un exemple d'apprentissage supervisé et de régression, car le modèle ML sera formé à l'aide d'un ensemble de données avec les prix des logements (c'est-à-dire un ensemble de données étiqueté). Je vais le faire étape par étape afin que vous puissiez suivre et l'essayer vous-même.

À un niveau élevé, voici les étapes que nous couvrirons:

  1. Obtenez l'ensemble de données de formation étiqueté pour les prix des logements et téléchargez au CAO. Modifiez légèrement l'ensemble de données avant de le télécharger dans OAC.
  2. Utilisez l'ensemble de données d'apprentissage étiqueté pour former un modèle ML de prédiction numérique fourni avec OAC.
  3. Évaluez le modèle ML de prédiction numérique formé et analysez les facteurs de prédiction.
  4. Appliquer le modèle ML formé à un ensemble de données sur le logement pour prévoir les prix des logements.
  5. Analyser les prix des logements prévus à l'aide du CAO.

Étape 1: obtenir un jeu de données de formation étiqueté et le télécharger dans le CAO. Modifiez légèrement le fichier avant de le télécharger sur le CAO

Pour cet exercice, nous utiliserons un ensemble de données publiquement disponibles sur les prix des logements à Boston. Cet ensemble de données peut être téléchargé à partir de Kaggle:

https://www.kaggle.com/puxama/bostoncsv/data

Le site Kaggle ne comprend pas de description de la signification des colonnes . Vous pouvez utiliser l'URL ci-dessous pour obtenir une description de la signification de chaque colonne de l'ensemble de données sur le logement de Boston:

http://math.furman.edu/~dcs/courses/math47/R/library/mlbench /html/BostonHousing.html[19459015diplomatique19659005‹AvantdetéléchargerversleCAOnousapporteronsleslégèresmodificationssuivantesdansExcel:

  1. Nous ajouterons l'en-tête de «ID maison» à la colonne A.
  2. La colonne intitulée «medv» (c'est-à-dire la valeur médiane) a été arrondie aux milliers sur le fichier téléchargeable. Nous allons multiplier cette colonne par 1 000 pour supprimer l'arrondi.

Pour télécharger le fichier sur OAC, cliquez sur le bouton Créer dans le coin supérieur droit, puis cliquez sur «Ensemble de données». Recherchez le fichier sur votre disque dur et téléchargez-le sur OAC.

 Créer un ensemble de données pour télécharger le fichier

Ensuite, nous changerons l'ID de la maison pour qu'elle soit traitée comme un attribut et non comme une mesure afin que nous puissions faire rapport contre elle. Après avoir initialement téléchargé votre fichier, cliquez simplement sur la colonne ID de la maison, puis, sur le côté gauche où il est dit "Traiter comme", modifiez la valeur à attribuer. Cliquez ensuite sur "Ajouter" pour ajouter le fichier en tant qu'ensemble de données.

À ce stade, l'ensemble de données sur le logement de Boston est disponible pour être utilisé comme ensemble de données d'apprentissage pour notre modèle prédictif d'apprentissage automatique.

Étape 2: Former le modèle prédictif d'apprentissage automatique utilisant l'ensemble de données sur le logement de Boston

Afin de former le modèle ML en OAC, nous devons créer un flux de données. Cliquez donc sur le «bouton Créer» dans le coin supérieur droit, puis cliquez sur «Flux de données». Un écran vous sera présenté qui vous demandera de choisir un ensemble de données à utiliser par le flux de données. Veuillez sélectionner l'ensemble de données sur le logement de Boston que vous venez de télécharger. Après avoir sélectionné votre ensemble de données de logement de Boston téléchargé, un écran semblable à celui-ci s'affiche:

 Premier écran de flux de données pour le modèle de formation

Il est maintenant temps de sélectionner le modèle que nous formera. Utilisez la barre de défilement sur la gauche pour faire défiler vers le bas pour voir les options disponibles pour les modèles d'apprentissage automatique. Cliquez sur «Train Numeric Prediction» et faites-le glisser à côté du symbole bleu de l'ensemble de données «Boston Housing». Vous verrez un signe plus vert, puis vous obtiendrez l'écran ci-dessous:

 Sélection du modèle de prédiction numérique à utiliser

Sélectionnons ‘Régression linéaire pour la formation du modèle’. Cliquez sur OK.

L'étape suivante est importante. C'est là que nous choisissons la colonne cible qui est la colonne que nous voulons prédire. Cliquez sur "Sélectionner une colonne" à côté de "Cible". Sélectionnez «medv» dans les colonnes affichées. «Medv» signifie «Median Value» et c'est la valeur que nous voulons prédire. Pour les autres paramètres, vous pouvez laisser les valeurs par défaut. Lorsque vous faites défiler vers le bas, vous verrez que la valeur appelée «Pourcentage de partition de train» est par défaut de 80. Ceci est très courant et signifie que 80% des données de l'ensemble de données sur le logement de Boston seront utilisées pour former le modèle. Les 20% restants seront utilisés pour tester le modèle (c'est-à-dire en termes de prévision des prix des logements).

 Sélection de la colonne cible

Ensuite, nous cliquons sur le symbole «Enregistrer le modèle» dans le flux de données. Nous serons invités à donner un nom au modèle. Veuillez appeler le modèle comme vous le souhaitez. Ensuite, nous devons enregistrer le flux de données avant de pouvoir l'exécuter pour former le modèle. Cliquez sur «Enregistrer» dans le coin supérieur droit et donnez au flux de données le nom que vous souhaitez. Cliquez ensuite sur «Exécuter le flux de données» (qui se trouve juste à côté de «Enregistrer») pour entraîner le modèle et créer un modèle pouvant être appliqué à d'autres ensembles de données. Pour voir le modèle que vous venez de créer, cliquez sur le «hamburger» dans le coin supérieur gauche et sélectionnez Machine Learning dans le menu déroulant. J'ai appelé mon modèle «modèle de prédiction numérique basé sur un ensemble de données sur le logement à Boston».

 Modèle Ml

Étape 3: Examiner le modèle de prédiction numérique formé. Analysez les pilotes clés

Sur l'écran ci-dessus, sélectionnez votre modèle et allez sur le côté droit. Vous verrez apparaître un «menu Actions». Cliquez sur le «menu Actions» et sélectionnez «Inspecter» pour évaluer le modèle. L’écran suivant apparaît:

 Écran d’évaluation du modèle

Sélectionnez ‘Qualité’ pour analyser la précision du modèle. Sur l'écran ci-dessous, nous voyons que le coefficient de détermination ou R au carré est de 70%, ce qui est généralement considéré comme bon.

 Coefficient de détermination

Voyons maintenant quels sont les principaux moteurs pour la prédiction des prix des logements selon ce modèle. Cliquez sur «Related» pour obtenir l'écran ci-dessous:

 Écran connexe

Sur l'écran ci-dessus, nous cliquerons sur le premier ensemble de données générées appelé «Modèle de prédiction numérique basé sur un ensemble de données sur le logement à Boston .Conducteurs". Cela fera apparaître l'ensemble de données généré par le processus de création de modèle qui décrit les principaux moteurs. Cliquez sur «Visualiser» dans le coin supérieur droit pour analyser les données. Maintenez la touche CTRL enfoncée et sélectionnez «Nom du pilote», «Coefficient» et «Corrélation» et faites-les glisser sur le canevas de visualisation. Si vous sélectionnez un type de visualisation de graphique à barres verticales, vous verrez les principaux facteurs suivants (triés par Coefficient élevé à faible):

 Principaux facteurs de prédiction du prix du logement

Nombre de pièces (rm ) et si la maison est sur la rivière Charles ou non (chas) sont fortement corrélés positivement avec le prix du logement (à mesure que ceux-ci augmentent, le prix de la maison augmente également). De l'autre côté, nous pouvons voir que le ratio élèves-enseignant (ptratio) et le pourcentage de la population de statut inférieur (lstat) sont négativement corrélés avec le prix du logement.

Étape 4: Appliquer le modèle prédictif d'apprentissage automatique que nous venons de former à un ensemble de données pour prévoir les prix des logements

Nous sommes maintenant prêts à appliquer notre modèle ML qualifié pour prédire les prix des logements. Une chose à garder à l'esprit est que l'ensemble de données auquel le modèle ML sera appliqué doit avoir les mêmes entrées (c'est-à-dire des colonnes) que le modèle ML formé. Pour ce faire, nous appliquerons notre modèle ML formé à l'ensemble de données de logement d'origine de Boston.

Pour appliquer un modèle ML, nous devons créer un flux de données dans OAC. Cliquez sur «Créer» dans le coin supérieur droit, puis cliquez sur «Flux de données». Cliquez sur votre ensemble de données sur le logement à Boston pour l'ajouter au flux de données:

 Appliquer le modèle Ajouter un ensemble de données Utilisez la barre de défilement sur le côté gauche pour faire défiler vers le bas jusqu'à ce que vous voyiez «Appliquer le modèle». Faites glisser «Appliquer le modèle» sur le signe plus à droite de l'ensemble de données Boston Housing. Sélectionnez le modèle d'apprentissage automatique que nous venons de créer et de former (dans mon cas, ce sera le modèle appelé «modèle de prédiction numérique basé sur l'ensemble de données de Boston Housing). Sélectionnez OK.

 Sélection du modèle pour l'appliquer

Maintenant, nous devons donner un nom à la colonne qui contiendra la valeur prédite et enregistrer également l'ensemble de données qui sera créé lors de l'exécution du modèle. . Le nom de colonne pour la valeur prédite est par défaut «PredictedValue» et nous le laisserons de cette façon. Utilisez la barre de défilement sur la gauche pour faire défiler vers le haut jusqu'à ce que vous voyiez «Enregistrer l'ensemble de données». Faites glisser "Enregistrer l'ensemble de données" à côté de "Appliquer le modèle". Donnez un nom au nouvel ensemble de données, enregistrez-le dans le stockage de l'ensemble de données et modifiez l'ID de la maison pour qu'il soit traité comme un attribut.

 Enregistrer l'ensemble de données de valeur prédite

Enfin, nous devons enregistrer le flux de données puis exécutez-le pour créer le nouvel ensemble de données avec la valeur prédite. Comme nous l'avons fait auparavant, veuillez cliquer sur "Enregistrer" dans le coin supérieur droit et donner au flux de données le nom que vous souhaitez. Cliquez ensuite sur «Exécuter le flux de données» pour appliquer le modèle à l'ensemble de données sur le logement de Boston afin de prédire les prix des logements. Cela créera un ensemble de données que nous analyserons à l'étape suivante.

Étape 5: Analyser les valeurs prédites

Cliquez sur l'icône «hamburger» dans le coin supérieur gauche, puis cliquez sur sur «Données» pour trouver votre ensemble de données avec la valeur prédite. Une fois que vous avez trouvé votre ensemble de données, cliquez sur le 'Menu Actions' pour votre ensemble de données et sélectionnez 'Créer un projet' (mon ensemble de données est appelé 'Prix des logements avec valeur prédite'):

 Créer un projet en utilisant la valeur prédite Ensemble de données Sélectionnez 'PredictedValue', 'medv' et 'House ID' et sélectionnez 'Scatter' comme type de visualisation. Vous verrez la valeur prévue pour chaque ID de maison par rapport à la valeur médiane d'origine. Bien qu'il existe des valeurs aberrantes, la majorité des prédictions sont proches de la valeur d'origine de la maison:

 Visualisation des données pour la valeur prédite

Je vous encourage à explorer les capacités d'apprentissage automatique d'Oracle Analytics Cloud. Amusez-vous!




Source link