Fermer

juillet 13, 2022

Modèles portables en eDiscovery : aide ou battage publicitaire ?


Dans les litiges civils ou les enquêtes réglementaires, les parties doivent souvent s’engager dans la découverte électronique, également appelée eDiscovery, qui est le processus d’identification, de préservation, de collecte, d’examen et de production d’informations stockées électroniquement potentiellement pertinentes pour la partie requérante. L’objectif est de découvrir (c’est-à-dire de trouver) les documents potentiellement pertinents à produire, tout en identifiant les documents privilégiés et autres documents sensibles à dissimuler à l’avocat de la partie adverse.

Cette partie du processus, l’examen des documents, est l’activité la plus coûteuse, la plus longue et la plus sujette aux erreurs dans l’eDiscovery. Dans le passé, les avocats examinaient les documents papier un par un. Aujourd’hui, avec des volumes de documents souvent de l’ordre de centaines de milliers, voire de millions de documents par affaire, il n’est plus possible de jeter un œil sur chaque document. Les approches modernes de l’examen de documents eDiscovery couvrent toute la gamme des processus purement humains tels que la recherche de mots clés suivie d’un examen linéaire, aux approches principalement axées sur l’IA utilisant diverses formes d’apprentissage automatique supervisé, y compris l’examen assisté par la technologie.

Quelles sont les approches modernes d’apprentissage automatique pour l’examen de documents eDiscovery ?

L’objectif des approches d’apprentissage automatique est de minimiser l’examen humain tout en maximisant l’efficacité.1 Autrement dit, il faut examiner moins de documents dans une collection pour trouver ceux qui sont pertinents et minimiser les coûts et les efforts inutiles de l’examen des documents eDiscovery.

L’une des approches les plus efficaces de l’examen assisté par la technologie, également connue sous le nom de TAR, ces dernières années implique une approche combinée homme-machine connue sous le nom d’apprentissage actif continu (CAL). Au tout début du TAR, il y avait des débats dans la communauté sur la manière de lancer le processus du TAR. Entre autres avantages, Examens TAR basés sur CAL a montré que cette question était sans objet : tant que vous commencez avec un seul document de graine positif, l’approche d’apprentissage continu rattrape d’autres approches qui ont commencé avec des graines plus positives, ou qui étaient plus ou moins biaisées dans la nature des graines . A 70-80% de rappel, l’examen est tout aussi efficace quel que soit le point de départ. La continuité dépasse les conditions initiales.

Un modèle TAR plus récent utilise une autre approche d’ensemencement qui ne repose pas sur l’évaluation humaine de la collection d’examen ou sur l’échantillonnage aléatoire, mais est plutôt basée sur des méthodes d’intelligence artificielle (IA) et dérivée de documents extérieurs à la collection. Cette version du TAR est connue sous le nom de « modèle portable » ou « modèle réutilisable » – c’est-à-dire des modèles d’IA pré-formés sur les données d’un ou plusieurs sujets antérieurs ou d’ensembles de données connexes et appliqués à un autre. Les modèles portables adoptent une approche purement IA et réutilisent les connaissances humaines dans le processus de démarrage à froid.

Sont des modèles portables, le dernier battage médiatique dans eDiscovery techniques d’apprentissage automatique, valent-elles la peine d’être envisagées par rapport au modèle d’examen assisté par la technologie d’apprentissage actif continu ?

Reconnaître les risques dans les modèles portables

Les modèles portables comportent des risques et des avantages dans l’examen des documents eDiscovery. Examinons d’abord les risques, à savoir la confidentialité des données et les considérations de sécurité.

En ce qui concerne les lois sur la protection des données, la collecte et la réutilisation des données font l’objet d’un examen minutieux, car les régulateurs cherchent à minimiser la collecte de données et à maximiser la confidentialité et la sécurité. Comme vous pouvez l’imaginer, il existe des droits et des obligations concernant l’utilisation des données d’origine qui entrent dans la formation de modèles portables, et il est impératif de comprendre (et d’évaluer) les risques potentiels lors du portage de ces modèles. Il s’agit d’un problème important car il existe aujourd’hui des places de marché transfrontalières pour cette technologie, ce qui ouvre la porte à des risques de fuite de données.

Voici ce que les experts ont à dire au sujet des modèles portables et des lois sur la confidentialité des données :

« Naturellement, la plupart des entreprises qui investissent dans la construction d’un modèle ML recherchent un retour sur investissement… Les lois sur la protection des données peuvent aller à l’encontre de ces objectifs en imposant un éventail d’exigences et de restrictions sur le traitement de divers types de données, en particulier pour le dans la mesure où ils incluent des informations personnelles. L’interaction entre ces considérations concurrentes peut conduire à des résultats intéressants, en particulier lorsqu’un certain nombre de parties différentes ont un intérêt dans le résultat. — Brittany Bacon, Tyler Maddry et Anna Pateraki. 2020. Entraînement d’un modèle d’apprentissage automatique à l’aide de données propriétaires du client : navigation dans les principales considérations relatives à la propriété intellectuelle et à la protection des données. Pratt’s Privacy and Cybersecurity Law Report 6, 8 (octobre 2020), 233–244.

De plus, étant donné que les ensembles de données peuvent être très volumineux et provenir de diverses sources, ils peuvent parfois contenir des données sensibles (y compris des PII), ce qui soulève la possibilité que le modèle formé à l’aide de ces données puisse exposer par inadvertance des informations sensibles dans sa sortie.

Un deuxième défi très important en ce qui concerne les modèles portables est la possibilité que des données soient divulguées ou exposées par un type d’attaque connu sous le nom d' »attaques par inférence d’appartenance ». Dans de tels cas, un attaquant sonde des modèles non transparents « boîte noire » pour découvrir ou recréer les exemples utilisés pour former le modèle. Le risque évident est la possibilité que les modèles exposent les spécificités des données sur lesquelles ils ont été formés (en particulier si un modèle basé sur la formation sur des informations sensibles ou privées a été rendu public). En fait, des modèles entiers peuvent même être volés par des attaques par inférence d’appartenance.

Compte tenu des risques, des modèles portables, la question est quelles sont les récompenses ? Ont-ils des avantages durables par rapport aux approches TAR augmentées par l’homme comme l’apprentissage actif continu ?

Évaluer le risque par rapport à la récompense

À la lumière des dangers potentiels des modèles portables, le scientifique principal des données d’OpenText, le Dr Jeremy Pickens, a mené une étude évaluée par des pairs pour explorer les questions sur les risques et les avantages des modèles portables par rapport à l’apprentissage actif continu. Les modèles portables aident-ils ou sont-ils à la mode ?

En termes de récompense, divers aspects des modèles portables ont été évalués par rapport à une base de référence appropriée. Une stratégie d’examen traditionnelle telle que l’examen linéaire n’est pas la base de référence appropriée pour comparer les modèles portables. Pourquoi pas? Nous avons déjà de meilleures façons de faire les choses. Pour que les modèles portables (ou n’importe quelle technologie) montrent de la valeur, ils doivent améliorer les meilleures approches actuelles, c’est-à-dire des bases de référence solides, et pas seulement par rapport aux approches traditionnelles et inefficaces.

L’effort humain (par exemple, la recherche humaine basée sur des mots-clés booléens) combiné avec un TAR basé sur un apprentissage actif continu est l’une des nombreuses bases de référence solides possibles. Nous confions donc à un petit nombre d’humains une tâche de recherche de quelques minutes chacun et utilisons les documents qu’ils trouvent (environ 50 pour chaque cas testé) comme base des comparaisons.

Deux affirmations qui ont été faites à divers stades de l’industrie sont les suivantes : (1) les modèles portables démarreront votre examen (vous permettront de démarrer plus rapidement) et ; (2) ce démarrage rapide vous amènera rapidement à un objectif de rappel élevé (vous permettra de terminer plus rapidement). Ainsi, l’étude se penche sur ces deux questions principales :

  1. Combien de documents plus réactifs le modèle portable trouve-t-il initialement, par rapport à une ligne de base de recherche humaine ?
  1. Combien plus rapidement arrive-t-on à un point de rappel cible (par exemple, 80 % de rappel) après avoir commencé à partir d’un point amorcé par un modèle portable, par rapport à un point amorcé par un chercheur humain ?

Nous notons en outre que cette étude va encore plus loin. Il met en place un cadre d’évaluation dans lequel les modèles portables ont la plus grande chance de montrer de la valeur en étant entraînés sur une « autre » collection qui est statistiquement identique à la collection cible. Les modèles portables dans la nature seront rarement aussi parfaits, mais voir à quel point les modèles portables qui ont été intentionnellement construits de cette manière est un moyen utile d’étudier la limite supérieure de leur efficacité.

Quelle approche d’examen est la plus efficace ?

L’étude conclut qu’un modèle portable n’est pas entièrement inutile dans la mesure où il offre des avantages importants et significatifs en matière d’efficacité de révision par rapport à la révision linéaire et même par rapport aux flux de travail de révision CAL semés au hasard dans des environnements extrêmement peu riches, où les rencontres positives aléatoires avec des documents sont rares. Cependant, l’examen linéaire et l’ensemencement aléatoire sont des lignes de base faibles et inappropriées, car il existe déjà de meilleures façons de faire les choses.

En ce qui concerne la première question : nous constatons que les modèles portables sont capables de trouver en moyenne une petite poignée (trois ou quatre) de documents de plus que le chercheur humain dans les quelque 50 premiers documents examinés. Encore une fois, il s’agit de modèles portables parfaitement adaptés par rapport à la ligne de base de recherche par mot-clé booléen. La différence est statistiquement significative, ce qui signifie que si la recherche par mot-clé a réussi à battre les modèles portables dans quelques cas, l’inverse était plus souvent vrai. Cependant, l’ampleur de la différence n’était pas grande.

Cependant, pour la deuxième question, nous constatons que ce léger avantage initial n’est pas maintenu à long terme : à 80 % de rappel, un processus de CAL basé sur l’homme bat le classement du modèle portable à un coup par une large marge (des milliers, voire des dizaines de des milliers de documents) à chaque fois. L’ensemencement humain assez standard combiné à une itération continue est une combinaison puissante qui dépasse de loin un modèle statique appris sur une collection différente – même lorsque cette autre collection est presque identique à la collection cible.

La deuxième question a un autre aspect : que se passe-t-il si les graines portables sélectionnées par le modèle sont utilisées pour amorcer un processus CAL ? Cela atteindrait-il un rappel élevé plus rapidement que le processus CAL basé sur des mots clés humains ? Autrement dit, la combinaison de la portabilité et de la continuité dépasse-t-elle l’alternative ? La réponse est non.

Nos expériences, encore une fois soutenues par cette recherche évaluée par des pairs, montrent que lorsque le processus CAL est lancé en utilisant les graines sélectionnées de manière portable, il n’y a pas d’amélioration significative et durable par rapport à l’ensemencement humain. Alors que dans environ la moitié des cas, l’approche CAL basée sur un modèle portable atteint l’objectif de rappel de 80 % 2 à 3 % plus rapidement (2 à 3 % de documents examinés en moins), dans l’autre moitié des cas, l’approche CAL basée sur un modèle humain est 2-3% mieux.

Un tien vaut mieux que deux tu l’auras

Essentiellement, l’apprentissage continu qui se concentre spécifiquement sur la collection cible d’intérêt (le sujet actuel) compense largement la transférabilité, la réutilisation ou la portabilité des données historiques. Comme le dit le proverbe, un oiseau dans la main (un jugement sur l’affaire actuelle) vaut deux dans la brousse (anciens jugements des affaires précédentes).

De nombreuses affirmations sont faites sur les modèles portables, et peu de preuves empiriques ont été présentées pour étayer ces affirmations, certainement pas par rapport à une base de référence solide et appropriée. Cette situation peut ou non changer à l’avenir, mais nous notons qu’il existe une longue histoire dans l’industrie des affirmations hyperboliques qui conduisent finalement à la désillusion et à la déception. En étudiant ces revendications et d’autres, nous adoptons une approche plus raisonnée et rationnelle pour construire notre plate-forme d’examen. La réalisation de ces études est particulièrement importante lorsque la technologie, dans ce cas les modèles portables, comporte des risques importants sous la forme de violations des droits de propriété intellectuelle, de fuites de données via des attaques par inférence d’adhésion et de problèmes de confidentialité et de sécurité des données.

Pour en savoir plus sur les risques spécifiques par rapport aux avantages des modèles portables par rapport à CAL, et souhaitez vous plonger dans les résultats des dernières recherches, regardez le Enregistrement du webinaire ACEDS, « Modèles portables pour l’eDiscovery : aide ou battage médiatique ? »

En apprendre davantage sur Découverte électronique d’OpenText et des solutions d’examen assistées par la technologie, visitez notre page web. Non seulement les modèles portables et les solutions CAL sont disponibles, mais la sagesse empiriquement fondée pour savoir s’il faut utiliser chacun est également disponible.




Source link