Document SnowFlake AI: Déverrouillage des informations à partir de données non structurées

Fait amusant! Environ 80% à 90% des données du monde ne sont pas structurées. J’ai été choqué quand j’ai lu ce fait. Les données non structurées contiennent des images, des e-mails, des fichiers PDF publics de médias sociaux et d’autres formats. Même s’il est largement présent, 70% des données ne sont pas utilisées pour stimuler les informations et obtenir des analyses.
En tant qu’ingénieur de données, vous devez avoir développé de nombreux pipelines de données en utilisant différents outils pour des données structurées ou semi-structurées. Mais avez-vous déjà construit un seul pipeline pour des données très non structurées comme les PDF, les e-mails, les données capturées à partir d’images, etc.? La réponse pourrait probablement être non. Il est évident que l’extraction de données à partir de données non structurées est vraiment difficile.
À l’ère GEN AI et ML, ce n’est plus un travail fastidieux à faire. Grâce à la dernière fonctionnalité de Snowflake, c’est un document AI. Il s’agit d’une innovation qui change la donne, une fonctionnalité puissante conçue pour extraire et analyser les données à partir de données non structurées.
Document IA: traitement des documents intelligents
Flocon de neige Document que vous avez est la dernière fonctionnalité qui relève de l’IA & ML. Il s’agit d’une fonctionnalité alimentée par AI & ML qui extrait les données de documents non structurés tels que les PDF, les images numérisées et les e-mails. Il s’intègre en douceur avec d’autres fonctionnalités de flocon de neige, ce qui permet aux utilisateurs d’analyser les informations extraites sans aucun autre outil ou processus ETL.
Comment Snowflake documente-t-il les données d’extrait d’IA?

Informations d’extraction du document
Le processus d’extraction des données de documents non structurés implique plusieurs étapes clés:
- Téléchargement de documents sur scène
- Les utilisateurs téléchargent des documents non structurés (PDF, images numérisées ou fichiers textuels) dans l’étape interne ou externe de Snowflake.
- Snowflake le prépare pour vérifier la lisibilité et les métadonnées de la lisibilité et les stocke.
- Extraction d’informations
- Reconnaissance de caractères optiques (OCR): Il convertit les fichiers PDF et les images en texte lisible en anglais naturel.
- Reconnaissance de l’entité nommée (NER): Il identifie des balises importantes contextuelles comme les dates, les noms, les adresses, les numéros de facture, etc.
- Structure et stockage des données
- Les informations extraites sont converties en formats JSON structurés.
- Les données structurées sont chargées dans une table de flocon de neige pour interroger, analyse et rapports.
- Requête et analyse
- Une fois les données chargées aux tableaux, les utilisateurs peuvent effectuer des requêtes SQL, une modélisation ML et des analyses avancées.
- Il permet aux organisations de dériver des informations cachées à partir de données non structurées.
Quelle est la technologie derrière Snowflake Document AI?
Document Snowflake AI exploite une combinaison de avancés Modèles AI / ML et algorithmes propriétaires pour extraire et structurer efficacement les données. Voici quelques-unes des technologies clés dans les coulisses:
- Reconnaissance de caractères optiques (OCR)
- La technologie OCR aide à convertir les images, le texte numérisé et les PDF en texte numérique.
- SnowFlake utilise des modèles OCR basés sur l’apprentissage en profondeur pour améliorer la précision de la reconnaissance de texte manuscrite et imprimée.
- Traitement du langage naturel (PNL)
- Les modèles NLP identifient et catégorisent des entités, des sections et des tables clés dans un document.
- Les modèles de langage avancé (similaires aux modèles d’IA basés sur des transformateurs comme Bert ou GPT) permettent l’extraction de texte complémentaire.
- Reconnaissance de l’entité nommée (NER)
- Catégories et identifie des balises de données contextuelles importantes telles que les noms, les dates, les adresses, les numéros de facture, les termes juridiques, etc.
- Il peut également classer fortement les données personnelles et sensibles et les étiqueter pour les applications critiques.
- Reconnaissance de motifs basés sur l’apprentissage automatique
- Utilise des algorithmes ML pour détecter les tables, les formulaires et les modèles de données structurés dans les documents.
- Il garantit que les données extraites ont sa signification et ses relations contextuelles.
- L’intégration d’IA indigène de Snowflake
- Snowflake Document AI est automatiquement intégré à l’écosystème de Snowflake, cela signifie que les utilisateurs peuvent effectuer des requêtes basées sur SQL sur des données extraites sans avoir besoin de processus ETL supplémentaires.
- Les données traitées sont directement disponibles pour les outils BI, les tableaux de bord et les applications d’apprentissage automatique.
Oh… beaucoup de théorie. Il est maintenant temps de vous salir les mains. Dirigez-vous vers l’interface Snowflake Snowsigh. Nous irons étape par étape pour extraire les données des fichiers PDF spécifiquement des factures Internet qui sont téléchargées sur une étape interne dans Snowflake. Nous insérons ensuite les informations extraites dans une table de flocon de neige. Commençons!
Étape 1: Créez la base de données et le schéma.
-- Create the database CREATE DATABASE TESTDB; -- Create the schema inside the database CREATE SCHEMA TESTDB.TESTSCHEMA; USE database testdb; USE schema testschema;
Étape 2: Créez une étape interne.
CREATE OR REPLACE STAGE airtel_stage DIRECTORY = (ENABLE = TRUE) ENCRYPTION = (TYPE = 'SNOWFLAKE_SSE');
Étape 3: Créez un flux sur scène.
CREATE STREAM airtel_stream ON STAGE airtel_stage; SHOW STREAMS; ALTER STAGE airtel_stage REFRESH;
Étape 4: Créez une table.
-- The metadata about the pdf file will be loaded to the first four columns and the information -- extracted will be loaded to the json_content column in JSON format which we need to parse JSON later. CREATE OR REPLACE TABLE airtel_bill ( file_name VARCHAR, file_url VARCHAR, file_size VARIANT, last_modified VARCHAR, json_content VARCHAR );
Étape 5: Créez un modèle de document AI

Document Vous avez un modèle
- Accédez au menu AI & ML dans le panneau de gauche et sélectionnez Document Document AI.
- Cliquez sur le « + Build « Bouton en haut droit pour créer un nouveau modèle.
- Fournissez le nom du modèle, le nom de la base de données, le nom du schéma et la description.
- Cliquez sur le modèle nouvellement créé.
- Aller au Document Section et ajoutez quelques fichiers PDF de test pour former le modèle.
- Aller au Valeurs section et cliquez sur le Gérer les valeurs bouton.
- Cliquez sur le « + valeur « bouton pour ajouter une nouvelle valeur. Fournissez un nom et une question de clé pour extraire les informations.
- Exemple 1: Le nom de clé est « Invoice_no » Et la question serait «Extraire le numéro de facture de ce document».
- Exemple 2: Le nom de clé est « Bill_period » Et la question serait «Quelle est la période de facturation».
- Vous pouvez ajouter autant de valeurs que vous en avez besoin. Il essaiera d’extraire les informations du document et si la valeur extraite est correcte, cliquez sur le « D’ACCORD » bouton.

Gérer les valeurs
- Maintenant, exécutez ce modèle sur tous vos fichiers de test et vérifiez s’il extrait ou non des valeurs correctes. Sinon, vous devez modifier le format de votre question afin qu’il extrait des informations correctes.

Extraction d’informations
- Pour tester, essayez d’extraire les informations des fichiers qui ont des formats différents car ils rendront votre modèle efficace pour tout document.
- Publiez le document. Cela montrera le « Dernière version » de votre modèle et « Extraire une section de requête » Pour obtenir les valeurs du document.
Étape 6: Créez une tâche.
-- Create a new task which will run interval of 1 minute and process the file uploaded to internal stage and loads the data to table airtel_bill. -- <model_name>!PREDICT() is the syntax to use to get the extracted data from a uploaded file. CREATE OR REPLACE TASK load_new_file_data WAREHOUSE = XSMALL SCHEDULE = '1 minute' COMMENT = 'Process new files in the stage and insert data into the airtel_bill table.' WHEN SYSTEM$STREAM_HAS_DATA('airtel_stream') AS INSERT INTO airtel_bill ( SELECT RELATIVE_PATH AS file_name, file_url AS file_url, size AS file_size, last_modified, AIRTEL_BILL!PREDICT(GET_PRESIGNED_URL('@airtel_stage', RELATIVE_PATH), 3) AS json_content FROM airtel_stream WHERE METADATA$ACTION = 'INSERT' ); ALTER TASK load_new_file_data RESUME;
Étape 7: Afficher les données extraites en analysant la colonne de type JSON
-- Use of LATERAL FLATTEN function to parse the JSON Object SELECT file_name, file_url, file_size, last_modified, b.value:value::STRING AS bill_date, p.value:value::STRING AS bill_period, i.value:value::STRING AS invoice_no, n.value:value::STRING AS name, t.value:value::STRING AS total_bill, o.value as ocr_score FROM airtel_bill, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):bill_date) b, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):bill_period) p, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):invoice_no) i, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):name) n, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):total_bill) t, LATERAL FLATTEN(INPUT => PARSE_JSON(json_content):__documentMetadata) o;

Informations chargées dans la table
Conclusion
Les données non structurées sont depuis longtemps une occasion manquée pour l’analyse. Cependant, avec la puissance de l’IA et de la ML, Flocon de neige Document IA transforme la façon dont les entreprises extraient et utilisent des informations à partir de PDF, d’images et d’autres sources non structurées. En tirant parti de l’OCR, de la NLP et de la structuration des données basées sur ML, le document de flocon de neige AI garantit que les entreprises débloquent la valeur cachée, conduisent l’efficacité et améliorent la prise de décision. Si votre organisation traite de grands volumes de données non structurées, il est temps d’explorer comment Snowflake Document IA peut révolutionner votre stratégie de données.
Vous avez trouvé cela utile? PARTAGEZ-LE
Source link