Fermer

septembre 27, 2023

Classement PDF automatisé avec IA et PNL

Classement PDF automatisé avec IA et PNL


Automatisation du classement PDF avec l’IA et la PNL

Dans le monde en constante évolution de la science des données et de l’automatisation, des solutions innovantes émergent continuellement, simplifiant les tâches complexes et améliorant l’efficacité dans divers secteurs. L’une de ces applications transformatrices est l’automatisation du classement de documents PDF, un processus qui a connu des améliorations significatives grâce aux progrès de l’intelligence artificielle (IA) et du traitement du langage naturel (NLP). Ce blog explore le classement automatisé des PDF, en approfondissant les défis, les technologies et les stratégies impliqués dans ce domaine pionnier.

Aperçu de l’énoncé du problème

Imaginez la nécessité d’automatiser le processus de remplissage des formulaires de demande d’assurance de plusieurs transporteurs à l’aide des données client stockées dans une base de données. Cette tâche implique de classer les formulaires, d’extraire les informations pertinentes, de prédire les étiquettes, les sections et le contexte corrects, et de les mapper aux champs corrects des formulaires. Cette opération complexe et gourmande en données exige un haut degré de précision et d’efficacité. Pour répondre à cette demande, il devient impératif d’intégrer des modèles d’IA et d’apprentissage automatique (ML) à une approche commerciale bien conçue.

Architecture de solution IA/ML/>

Extraction des champs PDF: Initialement un processus manuel, la première étape consiste désormais à extraire les champs pertinents des PDF remplissables. Ce processus utilise diverses bibliothèques Python telles que Textract, PyMuPDF, Fitz, PDF Plumber et pyPDF2 pour créer une solution générique et réutilisable. Une exploration plus approfondie vise à automatiser ce processus à l’aide des modèles Amazon Textract et Generative AI.

Champ de formulaire valide: Pour garantir la précision de l’extraction, une étape manuelle a été introduite dans laquelle nous identifions les champs pertinents parmi tous les champs identifiés, réduisant ainsi le risque d’erreurs.

Intégration de modèles AI/ML: Les champs pertinents sont ensuite transmis à un modèle AI/ML DistilBERT personnalisé pour prédire la classe correcte. Par exemple, un champ de formulaire comme le nom se voit attribuer une classe Prénom, Deuxième prénom et Nom de famille pour aider les scripts Python à identifier que dans ce champ de formulaire particulier, nous devons remplir le nom à partir de la base de données. BERT, ou Bidirectionnel Encoder Representations from Transformers, est un modèle puissant capable de comprendre les relations contextuelles entre les mots du texte.

• JEidentification de la section du formulaire: La prédiction de la classe du champ de formulaire à elle seule est insuffisante pour remplir les données backend. Par exemple, une classe comme « Prénom » peut appartenir à plusieurs sections de formulaire comme « section propriétaire » ou « section Nominé ». Cette étape consiste à mapper les champs du formulaire aux sections appropriées des formulaires, une tâche présentant des défis uniques en raison des classes identiques dans plusieurs sections du formulaire.

Mécanisme de rétroaction: L’amélioration continue est primordiale. Le mécanisme de rétroaction permet d’affiner et de recycler le modèle, garantissant ainsi l’adaptation aux nouveaux défis et ensembles de données.

La nécessité de l’automatisation de l’extraction sur le terrain

Même si l’approche manuelle de l’extraction sur le terrain était précise, elle s’est avérée longue et non évolutive à long terme. L’automatisation a été introduite pour trouver un équilibre entre précision et efficacité. Le cadre automatisé, développé en Python, offre plusieurs avantages, notamment l’efficacité du temps, l’extraction des métadonnées et la réduction des erreurs manuelles. Néanmoins, des problèmes persistent, tels que le bruit dans les champs auto-extraits et les distorsions occasionnelles dues à l’espacement du texte dans les PDF.

VOUS TROUVEZ CECI UTILE ? PARTAGEZ-LE






Source link

septembre 27, 2023