Les données sont désormais l'un des produits d'entreprise les plus précieux. Selon le rapport IDG State of the CIO 2020, 37% des responsables informatiques affirment que l'analyse des données générera le plus d'investissements informatiques dans leur organisation cette année.
Bien que les données se présentent sous de nombreuses formes, le plus grand pool de données inexploitées est peut-être constitué de texte. Les brevets, les spécifications des produits, les publications universitaires, les études de marché, les actualités, sans parler des flux sociaux, ont tous le texte comme élément principal et le volume de texte est en constante augmentation. C'est pourquoi la firme de recherche Lux Research affirme que les technologies de traitement du langage naturel (NLP), et en particulier la modélisation de sujets, deviennent un outil clé pour libérer la valeur des données.
NLP est la branche de l'intelligence artificielle (AI) qui traite de la formation d'un ordinateur pour comprendre, traiter et générer du langage. Les moteurs de recherche, les services de traduction automatique et les assistants vocaux sont tous alimentés par la PNL. La modélisation de sujet, par exemple, est une technique de PNL qui décompose une idée en sous-catégories de concepts courants définis par des groupements de mots. Selon Lux Research, la modélisation de sujet permet aux organisations d'associer des documents à des sujets spécifiques, puis d'extraire des données telles que la tendance de croissance d'un sujet au fil du temps. La modélisation de sujet peut également être utilisée pour établir une «empreinte digitale» pour un document donné, puis découvrir d'autres documents avec des empreintes digitales similaires.
Alors que l'intérêt pour l'IA augmente dans les entreprises, les organisations commencent à se tourner vers la PNL pour débloquer la valeur des données non structurées dans des documents texte, etc. Le cabinet de conseil Mordor Intelligence prévoit que le marché de la PNL va plus que tripler ses revenus de 6,94 milliards de dollars en 2019 d'ici 2025.
Voici cinq exemples de la manière dont les organisations utilisent le traitement du langage naturel.