Fermer

juin 21, 2018

Surmonter les défis du Big Data avec l'informatique en temps réel


Notre série a jusqu'ici exploré les applications du secteur public de l'analyse prédictive et de l'apprentissage automatique pour permettre une politique et une pratique basées sur les données. On pourrait faire valoir que la caractérisation de ces technologies émergeant dément le fait que les gouvernements ont utilisé des modèles de calcul non linéaires depuis les années 1950. De plus, les techniques de modélisation statistique sur lesquelles reposent l'analytique prédictive et l'apprentissage automatique ont été comprises depuis le début du XIXe siècle. Pourquoi alors voyons-nous seulement que ces techniques sont appliquées par des agences publiques de premier plan comme l'État de Indiana et l'Office of State Revenue du Queensland (OSR)? La réponse ne réside pas dans la maturité des modèles de calcul, mais dans la préparation des plates-formes Big Data et la capacité à interroger des ensembles de données massives en temps réel.

Riches en données mais pauvres en informations

2017 rapport au président des États-Unis, la Commission sur les États de la politique fondée sur la preuve : "le peuple américain veut un gouvernement qui résout les problèmes. Cela exige que les décideurs disposent de bonnes informations pour guider leurs choix sur la manière dont les programmes et politiques actuels fonctionnent et comment ils peuvent être améliorés. »C'est précisément la motivation pour un gouvernement axé sur les données. Mais la Commission continue en observant que «tout en collectant des impôts, en déterminant l'admissibilité aux avantages gouvernementaux, en s'engageant dans le développement économique et en dirigeant des programmes, le gouvernement recueille nécessairement une quantité considérable d'informations. En 2017, le public américain consacrera près de 12 milliards d'heures à répondre à plus de 100 milliards de demandes individuelles d'information émanant du gouvernement fédéral. Même si les coûts directs de la collecte de ces données sont financés par les contribuables, ces données ne sont généralement pas disponibles pour produire des preuves. "C'est exactement le défi qui doit être surmonté.

Les États-Unis ne sont certainement pas les seuls à vouloir l'élaboration de politiques fondées sur des données probantes ou sur les défis auxquels elle est confrontée pour concrétiser cette vision. Tous les gouvernements modernes ont de riches banques de données sur les clients et les cas, mais la plupart des organismes gouvernementaux ont du mal à convertir ces données en informations significatives et en informations exploitables. Les raisons en sont:

  • Les fonds de données du gouvernement sont souvent cloisonnés au sein des agences et peuvent être difficiles à accéder – et encore moins à partager
  • La qualité des données est souvent incohérente, entravant les efforts d'intégration des systèmes et de consolidation des données.
  • La quantité de données – parfois appelée le brouillard du Big Data – peut rendre difficile d'identifier les événements pivots et les tendances émergentes;
  • Le traitement analytique peut avoir un impact sur la performance des opérations. systèmes, tandis que l'approche alternative d'entreposage de données introduit généralement un retard de déclaration; et
  • Les contraintes réglementaires et la résistance culturelle empêchent davantage les organismes d'essayer de débloquer l'information contenue dans les magasins de données du gouvernement.

Ces problèmes ont pris des décennies et ne sont donc pas faciles à résoudre. Mais avec l'avènement de l'informatique en temps réel, les agences du secteur public disposent désormais d'une plate-forme viable pour travailler avec le Big Data au point de service. Cette capacité est essentielle pour surmonter les défis susmentionnés et permettre ainsi une politique et une pratique axées sur les données.

Surmonter les difficultés d'accès aux données

Avec leur centre de gestion et de performance (MPH) fonctionnant sur une plate-forme informatique en temps réel, l'État de l'Indiana est aujourd'hui un exemple de données ouvertes. Mais ce n'était pas toujours le cas – de nombreuses agences étaient naturellement nerveuses à propos de l'accès à leurs données clients et à leurs systèmes opérationnels. Ils voulaient avoir l'assurance que leurs données seraient conservées en toute sécurité et utilisées de manière appropriée. L'équipe du MPH a répondu à ces préoccupations en établissant des protocoles d'entente (PE) qui ont amené les organismes à participer au processus. Cela a été rendu possible grâce au cadre créé par un ordre exécutif publié par le gouverneur de l'époque, Mike Pence. Le décret-loi remplissait une fonction similaire à celle de la Directive de 1945 sur la protection des données de l'UE en ce sens qu'il définissait les conditions d'accès et de partage sécurisés des données de l'agence

. Une approche viable consiste à exploiter des technologies analytiques en temps quasi réel sur des plates-formes de données distribuées. Dans les deux cas, ce problème ne peut être résolu que partiellement avec la technologie et, dans certains cas, les réglementations gouvernementales empêchent le partage de données entre (et même au sein) des agences. Mais l'expérience MPH démontre qu'il est possible de surmonter les difficultés d'accès aux données grâce à une combinaison d'informatique en temps réel, de collaboration inter-agences et de parrainage de niveau exécutif.

Résolution de problèmes de qualité des données

et obsolète sont souvent utilisés pour décrire les ressources de données gouvernementales, et il n'est pas rare que les problèmes de qualité des données soient considérés comme un obstacle important aux initiatives d'analyse commerciale et de modernisation des systèmes. En Australie, ce défi est amplifié par l'absence d'un identifiant pangouvernemental, ce qui entrave la mise en correspondance des enregistrements citoyens entre les ensembles de données. On pourrait supposer que Queensland OSR a dû passer des mois à nettoyer ses données en préparation du prototype d'apprentissage automatique. Cependant, son expérience a montré que les algorithmes prédictifs peuvent être appliqués à des données imparfaites avec des résultats décents. Elizabeth Goli, la commissaire d'OSR, explique: "malgré l'utilisation de seulement trois sources de données internes et les défis actuels de la qualité des données, la solution d'apprentissage automatique était encore capable de prédire avec 71% de précision les contribuables qui manqueraient à leurs obligations. paiement de l'impôt. Cela nous dit que vous n'avez pas besoin d'attendre que vos données soient parfaites à 100% pour appliquer l'apprentissage automatique. "

Bien que le nettoyage des données améliorera indubitablement l'exactitude des prédictions, Mme Goli observe:" l'outil lui-même »Cela est dû à la capacité de la machine à interroger des ensembles de données massifs pour établir des liens probables, et sa capacité à améliorer de manière autonome la précision de ses prédictions au fil du temps. Alors que 71% est un bon début, OSR s'attend à améliorer la précision des prédictions à plus de 90% grâce à la combinaison de l'amélioration de la qualité des données et du raffinement du modèle prédictif

. En tant que directeur financier de l'État de l'Indiana, Chris Atkins a observé que «très peu de gouvernements considèrent les données comme un atout stratégique. Ce n'est généralement pas aussi bien géré que l'argent du gouvernement. Mais c'est aussi important pour la résolution de problèmes complexes. "Peut-être que les données gouvernementales – contrairement au financement public – sont abondantes (par exemple, un seul cas d'utilisation, sur la mortalité infantile, analyse nécessaire de 9 milliards de lignes de données) . De telles quantités de données peuvent rendre difficile la dérivation d'informations et de connaissances simplement en raison de l'impraticabilité des E / S disque traditionnelles à une telle échelle. C'est là que les plates-formes de données en mémoire prennent le dessus, permettant d'interroger des ensembles de données massifs dans un délai acceptable pour les affaires et réalisable pour les scénarios d'analyse prédictive.

Un autre avantage de l'informatique en temps réel appliquer des analyses directement aux systèmes opérationnels, permettant aux utilisateurs de travailler avec la version la plus à jour des données et d'affiner leurs modèles de données de façon dynamique. M. Atkins exprime la valeur de cette capacité pour l'entreprise: «l'accès aux données en temps réel vous permet de savoir avec un degré élevé de certitude que votre vision des problèmes est à jour et que les décisions que vous prenez en matière de politique et de planification sera mieux calibré pour résoudre les problèmes. Sans données en temps réel, vous gérez les problèmes d'hier – pas aujourd'hui ou demain. "

S'attaquer aux problèmes de performance

Depuis près d'un demi-siècle, le statu quo est que les données opérationnelles sont extraites, transformées et chargés dans des entrepôts de données, auxquels sont appliqués des outils analytiques et des rapports d'activité générés. Les processus ETL sont généralement exécutés par lots pendant la nuit (souvent pas tous les soirs), ce qui se traduit par des décisions commerciales basées sur les données d'hier (dans le meilleur des cas). Les raisons fondamentales en sont que les bases de données transactionnelles ne sont pas conçues pour la génération de rapports et que les performances du système peuvent être affectées par des processus analytiques. M. Atkins décrit comment ce problème s'est manifesté lors du lancement du projet MPH: «la première préoccupation des agences était que l'accès aux données ne pouvait pas interférer avec leurs opérations. Après tout, nous ne voulions pas fermer les services aux citoyens! »

Mais l'informatique en temps réel remet en question le statu quo en permettant l'application de processus analytiques aux bases de données transactionnelles sans affecter les performances des systèmes opérationnels. Mme Goli décrit le potentiel de cette capacité à transformer la prestation de services gouvernementaux: «l'apprentissage automatique a permis de recueillir de grandes quantités de données et d'obtenir un aperçu en temps réel de ces données. La visualisation à l'aide de la carte du parcours et des cotes de risque a permis de mettre ces connaissances au premier plan, permettant au personnel de première ligne de les consommer facilement et de les intégrer dans leurs activités quotidiennes. »

Résistance culturelle

IDC prédit qu'en 2019, 15% des transactions gouvernementales (telles que la perception des impôts, le décaissement de l'aide sociale et le contrôle de l'immigration) auront des analyses intégrées. Mais il existe encore une résistance culturelle aux nouvelles façons de travailler avec les machines. Ceci est largement dû à la perception, née de la révolution industrielle, que les machines remplaceront les emplois des gens. Cependant, le McKinsey Global Institute soutient que, même si 36% des emplois en soins de santé et en assistance sociale seront soumis à un certain degré d'automatisation, moins de cinq pour cent peuvent être entièrement automatisés. Dans la plupart des cas, l'automatisation remplacera des tâches spécifiques plutôt que de remplacer des emplois entiers, environ 60% de toutes les professions comptant au moins 30% d'activités pouvant être automatisées

. Goli explique que dans l'expérience d'OSR, l'automatisation a le potentiel d'améliorer l'expérience de travail: «avec l'introduction des progrès technologiques, tels que l'apprentissage automatique, les gens ont naturellement peur que les machines finissent par remplacer leurs emplois. Cependant, ce que notre prototype a montré à notre personnel, c'est que cette technologie enrichit plutôt que de remplacer leur travail. Plus précisément, notre personnel peut voir comment l'apprentissage automatique va éliminer une grande partie de la frustration de leur travail en leur permettant de traiter les clients de manière holistique et les aider à améliorer l'expérience client. "

Conclusion

applications de l'analyse de Big Data dans le contexte du secteur public et a exploré la possibilité pour les technologies émergentes d'étendre et d'améliorer les techniques analytiques actuelles pour produire de meilleurs résultats sociaux et économiques. L'étude du Melbourne Institute sur le désavantage intergénérationnel a démontré que les gouvernements disposent déjà de riches données qui peuvent être exploitées pour fournir des informations précieuses aux décideurs. Des études de cas de l'État de l'Indiana et de l'Office of State Revenue du Queensland ont illustré le potentiel de l'analyse prédictive et de l'apprentissage automatique pour transformer la prestation de services gouvernementaux. l'analyse prédictive et les techniques d'apprentissage automatique, les défis consistent à préparer les plateformes Big Data sous-jacentes et à surmonter les contraintes réglementaires. Cet article a exploré la mesure dans laquelle les techniques de calcul en temps réel peuvent être utilisées pour atténuer certains problèmes liés à l'accès aux données, à la qualité des données, au brouillard de données, aux performances et à la résistance culturelle. Les commentaires de M. Atkins et de Mme Goli indiquent que ni l'Indiana ni l'OSR n'avaient une stratégie complète, des systèmes intégrés ou des données bien préparées au départ. Ils ont commencé par établir des plateformes en temps réel qui leur ont permis de développer des capacités axées sur les données et de démontrer la valeur de la prise de décision fondée sur des données probantes. Il semble que leurs voyages d'exploration ont offert autant de perspicacité dans leurs entreprises respectives que les technologies elles-mêmes.

La Commission sur l'élaboration de politiques fondées sur des données probantes a bien expliqué le potentiel des technologies émergentes pour permettre des politiques et des pratiques fondées sur les données: "La Commission envisage un avenir dans lequel des preuves rigoureuses sont créées efficacement, en tant que partie intégrante des opérations gouvernementales, et utilisées pour élaborer des politiques publiques efficaces. Les progrès de la technologie et de la méthodologie statistique, couplés à un cadre juridique moderne et à un engagement de transparence, permettent de protéger l'intimité et la confidentialité des personnes, des entreprises et des organisations auprès desquelles le gouvernement recueille des informations. S'attaquer aux obstacles à l'utilisation des données déjà collectées est un moyen de débloquer des idées importantes pour relever les plus grands défis de la société. »

Rassembler plus d'informations sur Le côté humain de l'apprentissage automatique . ! – Commentaires ->




Source link