Fermer

juin 16, 2018

Comment repérer, stocker et nettoyer les données dont vous avez besoin


Le meilleur moment pour concevoir votre initiative d'IA est maintenant.


6 min de lecture

Les opinions exprimées par les entrepreneurs sont les leurs.


En août dernier, Monica Rogati, leader en science des données, a dévoilé une nouvelle façon pour les entrepreneurs de penser à l'intelligence artificielle. Inspirée de la hiérarchie des besoins psychologiques à cinq niveaux du psychologue Abraham Maslow, sa hiérarchie des besoins de l'IA est devenue une conférence favorite pour illustrer comment incorporer l'IA dans une entreprise

. hiérarchie fait un point inconfortable. Peu d'entreprises sont prêtes à adopter l'IA. La plupart ont du mal à satisfaire des besoins fondamentaux, tels qu'un flux de données et un stockage fiables. La vérité est que l'alphabétisation des données fait défaut dans la plupart des entreprises espérant récolter les fruits de l'IA.

Vous sortez ce que vous mettez.

Pour aider les entrepreneurs à comprendre l'importance des données de haute qualité , notre équipe a mis au point ce que nous appelons le principe d'incertitude de l'IA:

La clé de la livraison? Si l'une des valeurs sur la droite tombe à zéro, il en va de même pour la valeur du programme AI. Nous avons discuté de l'évaluation des opportunités d'affaires pour l'IA dans un article antérieur de Entrepreneur nous nous concentrons donc sur la deuxième variable: maximiser la qualité des données.

En relation: 5 choses à garder Esprit lors de l'utilisation de données pour l'intelligence artificielle

Les données de haute qualité sont essentielles dans tous les types d'apprentissage automatique – apprentissage supervisé, non supervisé et renforcement. Pour la plupart des entreprises, l'apprentissage supervisé est le fruit à portée de main parce qu'il s'agit d'apprendre des exemples passés. Si les exemples précédents ne sont pas pertinents ou de qualité médiocre, alors devinez quoi? Toutes les idées qui en découlent le seront aussi. Quelqu'un sans expérience de basketball ne peut pas simplement rejoindre une équipe NBA – du moins pas s'il veut réussir.

Alors que la plupart des scientifiques de données préfèrent les maths de l'apprentissage automatique sur le travail de nettoyage des données, vous ne pouvez pas le premier sans le dernier. La science des données et l'ingénierie vont de pair, et la bonne équipe d'apprentissage de la machine aura des gens capables de gérer les deux.

Related: Vous pensez que votre entreprise a besoin d'un Data Scientist? Vous avez probablement tort.

Faites plus avec de bonnes données; Aucune initiative d'apprentissage automatique ne fonctionnera sans données de haute qualité. Pour obtenir les bonnes données, vous devez:

1. Commencez avec l'instrumentation.

Les initiatives d'apprentissage automatique sont aussi diverses que les entreprises elles-mêmes. Réfléchissez de façon critique au type d'exemples dont vous avez besoin pour former votre algorithme afin de faire des prédictions ou des recommandations.

Par exemple, un registre de bébé en ligne avec lequel nous travaillions voulait projeter la valeur à vie des clients quelques jours après leur inscription. Heureusement pour nous, il enregistrait de manière proactive les données de transaction, y compris les articles ajoutés à leurs registres par les clients, où ils étaient ajoutés et quand ils achetaient. En outre, le client a enregistré l'ensemble du flux d'événements, plutôt que l'état actuel de chaque registre, pour gérer un enregistrement de base de données.

Le client nous a également fourni des données de flux d'événements Web et mobiles. Grâce à Heap Analytics, il a enregistré le type d'appareil et de navigateur utilisé par chaque déclarant dans sa base de données transactionnelle. En utilisant les codes UTM, la compagnie de registre avait même recueilli des données d'attribution, recueillies pour la plupart ou la plupart des activités marketing par seulement 51 pour cent des répondants nord-américains à une enquête AdRoll 2017.

a permis à l'entreprise d'enregistrer la manière dont les différentes campagnes et canaux de marketing correspondent à la valeur à vie du client. Le seul élément qui manquait était les données de CRM sur les points de vente et les mesures similaires. Alors que beaucoup de nos autres clients utilisent des CRM comme Salesforce, les données d'entrée humaine sont désordonnées. Bien qu'il puisse y avoir un signal, nous avons tendance à le prioriser en dessous des données générées par les machines, ce qui est plus cohérent.

Lorsque vous travaillez avec des ensembles de données disparates, pensez à la connectivité. Si vous proposez un produit logiciel, envisagez d'exiger une connexion. Étant donné que le registre avec lequel nous travaillions était utilisé, nous pouvions facilement associer des actions sur plusieurs appareils et plates-formes à un seul utilisateur. Au lieu d'une connexion, qui peut créer une friction de l'utilisateur, envisagez de consigner les adresses IP des utilisateurs ou d'utiliser des cookies de suivi. D'une manière ou d'une autre, les actions individuelles doivent être liées ensemble dans une seule vue cohérente de l'utilisateur.

2. Étiquetez et stockez les données.

Stockez vos données dans un entrepôt de données, tel que Google BigQuery ou Amazon Redshift, bien qu'il existe d'autres options de stockage puissantes . Ces systèmes utilisent des formats structurés qui forcent la discipline, ce qui facilite l'accès et l'analyse des données pour les utilisateurs en aval.

Créez un étiquetage dans vos flux de travail de stockage et essayez d'automatiser l'étiquetage autant que possible. Sur un de nos projets de maintenance prédictive, par exemple, le fait d'obliger les techniciens à utiliser une application pour enregistrer les causes d'échec aurait produit un ensemble de données propre et étiqueté. Les humains sont incompatibles à la fois au fil du temps et entre les individus, et à moins que vous ne créez des systèmes vraiment excellents pour la saisie de données, il sera difficile de normaliser les données pour ces disparités sur la route.

Pour faciliter la normalisation, étiqueter clairement les lignées de données et les suivre à côté des données elles-mêmes. Les changements de produits peuvent décolorer vos données d'une manière qui ne sera pas évidente pour les analystes et les ingénieurs. Si vous déployez une nouvelle interface utilisateur, par exemple, identifiez clairement les données avant et après le basculement.

3. "Nettoyer" les données collectées.

Le nettoyage des données est loin d'être passionnant, mais il est essentiel si vous voulez obtenir des résultats à partir d'une initiative d'IA. En ce qui concerne les projets d'IA, 51% des personnes interrogées pour le rapport Data scientist Report de CrowdFlower considèrent les problèmes de qualité comme leur principal goulot d'étranglement. Le nettoyage peut impliquer l'interpolation des enregistrements manquants, la suppression des valeurs aberrantes qui faussent les résultats, la suppression des redondances et l'enregistrement des changements de régime. Si vous partez de zéro, le nettoyage des données peut impliquer toutes ces choses et bien d'autres, comme le remplissage de données manquantes.

Utilisateur: Que faire quand votre mère vous dit que vos données ressemblent à Rat's Nest '

Souvenez-vous du principe d'incertitude de l'IA. Lorsque des données sont manquantes, incomplètes ou sales, vous n'obtiendrez pas beaucoup de valeur de votre IA. Cela étant dit, n'essayez pas de nettoyer toutes vos données d'un seul coup.

Avec notre client de registre, nous avons commencé par travailler uniquement avec la base de données transactionnelle et la migrer vers Redshift pour créer un certain nombre de modèles en aval. Ce n'est qu'après que nous avons incorporé les données Heap du client dans Redshift, et nous faisons actuellement la même chose avec ses données de marketing par courriel.

Si vous ne savez pas par où commencer, choisissez une solution de bout en bout qui offre une valeur métier avec le sous-produit ajouté du nettoyage des données.

Tout aussi important que la collecte et le nettoyage des données, sachez ceci: ça ne sera jamais suffisant. Tout comme ils l'ont fait depuis le début de votre entreprise, vos produits, contextes et objectifs continueront de changer. Vos efforts de collecte de données et de nettoyage devraient aussi bien. C'est pourquoi le meilleur moment pour concevoir votre initiative d'IA était quand vous avez commencé votre entreprise; le deuxième meilleur moment est maintenant.




Source link