Fermer

février 21, 2024

Le modèle d’IA Poro pose de nouvelles jalons pour les LLM multilingues en Europe

Le modèle d’IA Poro pose de nouvelles jalons pour les LLM multilingues en Europe


Poro est un modèle de 34,2 milliards de paramètres, conçu pour traiter l’anglais, le finnois et le code. Il a été formé sur un ensemble de données de 1 000 milliards de jetons.

« Ce que nous prouvons avec Poro, c’est que nous pouvons créer des modèles compétitifs pour les langues à faibles ressources, comme le finnois », a déclaré Peter Sarlin, co-fondateur et PDG de Silo AI, à TNW.

Sarlin a expliqué que dans les LLM génériques, les langues à ressources élevées comme l’anglais dominent, ce qui signifie que les capacités des langues à faibles ressources atteignent l’étendue de la traduction, mais ne sont pas représentatives de la langue et de la culture d’un pays spécifique.

Selon la startup, Poro surpasse tous les modèles linguistiques open source existants en finnois, notamment Mistral, FinGPT, Llama et le modèle de paramètres BLUUMI à 176 milliards.

Le <3 de la technologie européenne

Les dernières rumeurs sur la scène technologique européenne, une histoire de notre sage vieux fondateur Boris et un art de l’IA discutable. C’est gratuit, chaque semaine, dans votre boîte de réception. S’inscrire maintenant!

Pour y parvenir, l’équipe a utilisé une nouvelle approche de formation, en associant le finnois à des langues riches en ressources. Il a déterminé les fréquences optimales de réutilisation des données pour les langues à faibles ressources et intégré des textes appariés traduits entre le finnois et l’anglais. Cette méthode s’appuie sur des signaux multilingues pour améliorer la compréhension des liens entre les langues et, par conséquent, améliorer les performances en finnois, sans les compromettre en anglais.

Poro a également franchi une autre étape : il s’agit du premier modèle multilingue formé sur un EuroHPC. supercalculateur. « C’est la preuve que nous sommes capables de former des LLM sur le système basé sur AMD. Supercalculateur LUMIau lieu d’un supercalculateur basé sur NVIDIA », a déclaré Sarlin.

Un pas vers la souveraineté européenne

Les LLM multilingues open source sont essentiels pour garantir la diversité linguistique, la représentation culturelle et l’accès démocratique intelligence artificielle. Ils sont également essentiels pour l’Europe Souveraineté de l’IA.

« D’un point de vue commercial, ces modèles établissent une base de référence et une infrastructure qui permettent aux entreprises européennes d’innover par-dessus tout », a noté Sarlin. « De cette façon, les entreprises peuvent créer de la propriété intellectuelle, créer un avantage concurrentiel et [create] une excellente entreprise qui garantit que la valeur reste en Europe avec eux.

Poro est disponible gratuitement sous la licence Apache 2.0, qui permet une utilisation à la fois commerciale et de recherche. SiloAI travaille actuellement sur les langues nordiques (suédois, norvégien, danois et islandais) et prévoit de s’étendre à toutes les autres langues officielles de l’UE.




Source link