L’avenir AI-First des données open source

septembre 12, 2022

Par Sam Ramji, responsable de la stratégie chez DataStax

Donner aux gens le droit de changer, de modifier et de modifier votre logiciel est-il une bonne chose ? Que diriez-vous de faire cela pour vos données ? Les entreprises pensaient que publier leur code source revenait à donner leur sauce secrète.

Mais ils commencent à réaliser l’impact que l’open source a eu sur la création des choses qui les entourent, comme les appareils mobiles ou les téléviseurs, et à quel point l’open source est un vecteur de changement.

Et si votre sauce secrète était les données que vous possédez, et non le code source ? Seriez-vous aussi à l’aise de le rendre public? Est-il possible d’avoir une licence publique générale (GPL) pour les données ?

Je me suis récemment assis avec Larry Augustin pour approfondir ce sujet. Augustin est un titan de l’open source : il faisait partie du groupe qui a inventé le terme « open source ». Il a dirigé la première introduction en bourse open source chez VA Linux, a dirigé SugarCRM pendant une décennie et, plus récemment, il a été vice-président des applications chez Amazon Web Services (AWS), responsable de services tels que Connect, Pinpoint, SES, Workspaces, Chime, Alexa for Business, et bien d’autres.

De l’open source aux données open source

Augustin était dans le monde open source à ses origines. Il regardait l’open source comme la marée, s’estompant parfois au loin, puis revenant en une vague gigantesque.

Dans les années 1990 et au début des années 2000, l’open source était le nouveau venu. Certaines personnes étaient enthousiastes à ce sujet, tandis que la majorité posait des questions telles que « pourquoi est-ce important? » et « quelle est la stratégie qui l’entoure? » jusqu’à ce que le battage médiatique se soit dissipé. Maintenant, dans les années 2020, les entreprises sont construites sur un modèle open source par défaut.

Augustin parle de la transition de l’open source des centres de données, comme ceux qu’il construisait à l’époque de Linux, à l’intégration dans les appareils grand public. Mais le consommateur n’a souvent aucune idée de la façon dont l’open source lui profite. Comme il le souligne, vous n’auriez pas de téléviseur fonctionnel sans open source – en regardant dans les paramètres de votre téléviseur, vous verrez probablement les licences open source du logiciel utilisé pour le construire.

L’avenir du logiciel, cependant, ne concerne pas le code source. Il s’agit des données. Dans un monde centré sur l’IA, le code d’apprentissage automatique lui-même n’est pas la partie la plus puissante. Son seul but est de permettre la formation – la construction d’un système de poids neuronaux, en d’autres termes – basés sur de vastes flux de données. Compte tenu des données, vous pouvez reproduire l’IA, mais avec juste le code, vous ne pouvez pas.

Ainsi, alors que nous nous tournons vers l’avenir, Larry voit une ère « native à l’IA » d’applications et d’entreprises qui s’appuient sur le principe fondamental des logiciels alimentés par l’IA qui élèvent le travail humain.

« Pourquoi un commercial devrait-il saisir des données que le système connaît déjà ? Les systèmes intelligents devraient importer ces données automatiquement. C’est un principe de conception que j’appelle « zéro saisie de données ». Au lieu de cela, le logiciel devrait aider le vendeur à faire son travail. Par exemple, aidez le vendeur à savoir quelles informations le client souhaite probablement ensuite. J’appelle cela la création d’un « système d’action », un système qui aide la personne à faire quelque chose (à agir) dans son travail », a déclaré Augustin.

Pour atteindre l’avenir de l’IA native, nous allons devoir trouver comment appliquer l’heuristique de l’open source au monde des données open source.

Open source : deux thèmes centraux

Il y a deux thèmes principaux dont parle Augustin qui ont eu un grand impact sur les logiciels open source, qui, selon lui, devraient également être appliqués aux données open source. Le premier est la possibilité d’étendre, d’améliorer et de réutiliser les logiciels. Et le second est la possibilité de corriger un bogue ou de réparer un problème.

Étendre, améliorer et réutiliser

La notion d’extension ou d’amélioration du code est quelque chose que vous avez peut-être rencontré lors de l’utilisation d’un logiciel et de la découverte d’une petite chose qui, si elle était modifiée, vous faciliterait la vie. L’open source vous donne la liberté d’apporter ces modifications et de les partager avec d’autres personnes qui pourraient se trouver dans une situation similaire.

L’extension, l’amélioration et la réutilisation des données open source sont également applicables, mais ce n’est pas aussi simple que de simplement partager des données. Comme le dit Augustin : « Vous devez avoir la bonne licence. Il existe des mécanismes d’accès. Cela signifie-t-il que vous obtenez les données dans un format structuré ? Avez-vous besoin de changer le schéma ? Les gens qui pensent tout le temps aux données ne pensent pas toujours aux métadonnées qui vont avec.

Augustin a vu de nombreuses entreprises fournir des données sans les métadonnées. C’est un élément clé car il contient des informations sur l’historique et la causalité de la façon dont les données ont été générées. Sans ces métadonnées, la valeur des données s’effondre, car nous avons paralysé notre capacité à leur faire confiance et à les analyser.

Correction de bogues et résolution de problèmes

Le deuxième thème central est la possibilité de corriger un bogue ou de réparer un problème. C’est ennuyeux quand une petite chose peut vous empêcher d’utiliser le logiciel comme vous le souhaitez, tout cela à cause d’un petit oubli dans le codage ou d’un manque de compréhension claire du fonctionnement interne.

À titre d’exemple, Augustin a évoqué un problème qu’il a rencontré lors de l’utilisation de QuickBooks dans une startup il y a de nombreuses années : « J’utilisais QuickBooks pour faire la comptabilité. Et il y avait ce champ. Si je mets 12 caractères, ça plante. Mais si je mets 11, tout a fonctionné. Et c’était très clair quand vous avez mis les 12 caractères, ça s’est terminé, et boum, tout a explosé. Je pouvais voir la personne qui écrivait ce code penser : « Oh, oui, ces choses ne dépasseront jamais 11 caractères. »

Augustin a contacté le support QuickBooks, mais ils n’étaient pas intéressés à résoudre le problème. C’est un exemple de la raison pour laquelle l’open source est si attrayant : vous n’avez pas à « vivre avec » ou à vous débattre avec des solutions de contournement lorsque vous rencontrez un problème logiciel. Vous pouvez modifier le code et partager les avantages avec d’autres personnes qui pourraient également en bénéficier. Il s’agit d’« innovation sans permission », comme l’a si bien dit Vint Cerf.

Les données doivent aussi parfois être « corrigées ». Il peut être difficile de considérer les données comme «cassées», mais Augustin a déclaré qu’il voyait rarement un ensemble de données propre. Et plus l’ensemble de données est volumineux, plus la quantité de « bruit » dans les données est importante. La capacité d’améliorer le rapport signal sur bruit est un élément important de l’ouverture des données.

Qu’est-ce que la GPL pour les données ?

Comme dans le monde du logiciel, où un utilisateur renonce à un certain contrôle par le biais d’un accord de contribution, les utilisateurs de données open source doivent renoncer à certains droits sur leurs données. Mais la question à laquelle nous sommes confrontés maintenant est de savoir à quoi ressemblerait cet accord ou cette licence publique générale (GPL) ?

« Du côté des données, quel est l’ensemble des droits qu’un contributeur de données doit abandonner pour se sentir toujours à l’aise de pouvoir utiliser ses données comme il le souhaite, comme il l’a prévu, qu’il n’a pas en quelque sorte abaissé leurs propres droits ? dit Augustin.

Les contributeurs qui comprennent ce compromis permettent à la communauté open source d’améliorer et de créer de nouveaux éléments à partir de leurs données.

Cet accord d’utilisation ouvre également la possibilité d’un progrès humain accéléré. Par exemple, les chercheurs universitaires en sciences biologiques produisent de toutes nouvelles données. Le partage de leurs découvertes permettrait à d’autres de former de nouveaux modèles à ce sujet.

Le ratio données entrantes/données sortantes

Si nous nous éloignons un peu plus de la GPL pour les données, nous commençons à voir l’équation de valeur des données, ou « le rapport données entrantes/données sortantes » comme l’appelle Augustin. Il utilise l’exemple de la raison pour laquelle les gens sont si disposés à céder une partie de leurs données et de leur vie privée aux sites Web, car la petite quantité de données qu’ils transmettent leur renvoie une plus grande valeur.

Augustin considère le ratio données entrantes/données sortantes comme un point de basculement dans les données open source. Appelant cela l’un de ses principes d’application, Augustin suggère que les ingénieurs de données devraient se concentrer sur la fourniture de plus de valeur aux utilisateurs, mais leur retirer de moins en moins d’informations.

Il veut également trouver un moyen de ne jamais rien demander à vos utilisateurs. Vous ne leur fournissez qu’un avantage. Par exemple, les nouveaux utilisateurs de l’application seront toujours invités à fournir des informations. Mais comment pouvons-nous sauter cette étape et collecter des données directement en échange d’une valeur ajoutée ?

« La plupart des gens sont prêts à [give up data] parce qu’ils récupèrent beaucoup d’utilité. Pensez au rapport entre le montant que vous investissez et le montant que vous récupérez. Vous récupérez énormément. Les gens sont prêts à donner une grande partie de leurs informations personnelles parce qu’ils en reçoivent beaucoup en retour », dit-il.

Le futur paysage des applications natives de l’IA générera des milliards de dollars grâce à l’amélioration de l’efficacité des entreprises en tant que systèmes. Peut-être plus important encore, nous avons une chance de rendre le travail plus significatif et plus agréable pour les personnes libérées de l’administration des données afin de créer de la valeur. L’IA nous a appris que les ordinateurs peuvent apprendre des choses et qu’ils peuvent savoir des choses. Ce qui est spécial chez les humains, c’est que nous sommes des êtres créatifs qui aiment passer leur temps à se connecter avec d’autres humains. Créons un avenir où l’utilisation de l’IA nous rendra libres.

En savoir plus sur DataStax iciet abonnez-vous au podcast Open||Source||Data.

À propos de Sam Ramji:

Sam dirige la stratégie chez DataStax. Vétéran de 25 ans sur les scènes technologiques de la Silicon Valley et de Seattle, Sam a dirigé la gestion des produits Kubernetes et DevOps pour Google Cloud, a fondé la fondation Cloud Foundry, a aidé à construire deux marchés de plusieurs milliards de dollars (API Management chez Apigee et Enterprise Service Bus chez BEA Systems) et a redéfini la stratégie open source et Linux de Microsoft de « éteindre » à « adopter ».

Il est passionné par l’open source, l’économie des plates-formes, le middleware et le cloud computing, en mettant l’accent sur l’expérience des développeurs et les logiciels d’entreprise. Il est conseiller auprès de plusieurs sociétés, dont Dell Technologies, Accenture, Observable, Insight Engines et la Linux Foundation.

Source link