Fermer

novembre 5, 2019

Data Wrangling – Comparaison de trois techniques d'analyse prédictives


Je passe un peu de temps à me disputer avec les données. J'essaie de faire attention à ce que la technique d'analyse prédictive a besoin. De même, il fait les choses lui aussi. Là encore, lors de l’interprétation des résultats, je réfléchis encore. Pire, quand j'essaie de comparer des modèles ou de créer un ensemble, j'ai vraiment besoin de savoir. Donc, j'ai fait cette référence unique

Tout d'abord, il est important de comprendre comment différentes techniques traitent l'irrégularité des données. Ceci est un post simple qui regroupe certaines choses à savoir. Comparons les arbres de décision, la régression linéaire et les réseaux de neurones.

Comparaison des conflits de données

Exemples

Arbres de décision

Régression linéaire

Réseaux de neurones

Types de données

catégoriques vs continues. Unités de mesure.

Les vars continus sont mis à la poubelle.

Les vars catégoriels sont rendus continus. De plus, les transformations peuvent être moins ardues avec le dimensionnement.

Les vars catégoriques sont rendus continus. En outre, vous pouvez adapter normalement des ordres de grandeur adaptatifs.

Valeurs manquantes

Manquantes au hasard (MAR). De même, disparus complètement au hasard (MCAR). Ne manque pas au hasard (NMAR).

Peu importe, mais il existe différentes façons de traiter (par exemple, basculement vers le noeud le plus populaire ou stockage séparé). De plus, peut utiliser des règles de fractionnement de substitution.

Impossible de gérer les valeurs manquantes. Ainsi, doit laisser tomber ou imputer. L'abandon de NMAR peut créer un biais. Généralement, il y a plusieurs façons d'imputer.

Impossible de gérer les valeurs manquantes. Ainsi, doit laisser tomber ou imputer. L'abandon de NMAR peut créer un biais. De plus, il y a beaucoup de façons d'imputer.

Distributions

Skewness. Les valeurs aberrantes. Également, déséquilibre de classe ou petites disjonctions.

Aucune hypothèse sur les intrants ou les distributions cibles. De plus, l'asymétrie peut causer des problèmes.

Suppose une normalité multivariée. En règle générale, les valeurs aberrantes peuvent causer des problèmes. Peut faire des transformations pour rendre normal.

N'assume aucun motif. En outre, des problèmes peuvent survenir lorsque l'inclinaison est supérieure à la valeur lognormale.

Données non équilibrées (biais)

Échantillon non représentatif. Polling défectueux. Binning maladroit. Cueillette des cerises.

Globalement, le biais est faible (aucune hypothèse sur la cible) et la variance élevée (de petits changements d'intrants font une grande différence). Aussi, pourrait changer les pénalités pour mauvaise classification. Ou, peut limiter la profondeur des arbres.

Peut effectuer une régularisation (pour éviter des modèles plus complexes). En outre, vous pouvez ajouter une variable de pondération.

Peut créer des couches de suppression (les neurones désactivés ne sont pas propagés temporairement). Vous pouvez également effectuer une régularisation pour éviter des modèles plus complexes.

Relations variables

Entre vars.
Inversement, entre les prédicteurs et les cibles.

Aucune hypothèse (non paramétrique). De plus, la profondeur de l’arbre permet à la cible d’être non linéaire. Généralement, aime un bon var pour la première division.

Suppose qu'aucune corrélation entre vars et prédicteurs-cible n'est linéaire. En outre, fait des hypothèses sur les résidus aussi. Essayez de combiner vars ou utilisez PCA.

Peut trouver une relation non linéaire entre les prédicteurs et la cible. Généralement, aime un bon point de départ a priori. Essayez de combiner vars ou utilisez PCA.

Pour plus d'informations sur Perficient et l'analyse prédictive: Data, Cloud, Analytics, Big Data




Source link