Posted in

Des chercheurs d’Apple révèlent une nouvelle avancée en matière d’IA pour la formation des LLM sur les images et le texte


Dans un nouveau papier Dans une étude publiée ce mois-ci, des chercheurs d’Apple révèlent avoir développé de nouvelles méthodes pour entraîner de grands modèles linguistiques en utilisant à la fois des informations textuelles et visuelles. Selon les chercheurs d’Apple, il s’agit d’un moyen d’obtenir des résultats de pointe.

Comme repéré en premier par VentureBeatl’idée de la recherche est de démontrer « comment la combinaison minutieuse de différents types de données de formation et d’architectures de modèles peut conduire à des performances de pointe sur une gamme de références d’IA ».

L’article a été publié la semaine dernière et s’intitule «MM1 : Méthodes, analyses et perspectives issues de la pré-formation LLM multimodale”, expliquent les chercheurs d’Apple dans le résumé de l’article :

Dans ce travail, nous discutons de la construction de modèles multimodaux de langage performants (MLLM). En particulier, nous étudions l’importance de divers composants d’architecture et de choix de données. Grâce à des ablations minutieuses et complètes de l’encodeur d’image, du connecteur de langage de vision et de divers choix de données de pré-formation, nous avons identifié plusieurs leçons de conception cruciales.

Par exemple, nous démontrons que pour une pré-formation multimodale à grande échelle, l’utilisation d’un mélange judicieux de données de légende d’image, de texte d’image entrelacé et de données textuelles uniquement est essentielle pour obtenir des résultats de pointe (SOTA) en quelques prises de vue sur plusieurs références, par rapport à d’autres résultats de pré-formation publiés.

MM1 est décrit comme une « famille de modèles multimodaux » à la pointe de la technologie et dotés de « propriétés attrayantes telles qu’un apprentissage contextuel amélioré et un raisonnement multi-images, permettant une incitation à la chaîne de pensée en quelques coups ».

Les capacités d’apprentissage en contexte du modèle MM1 sont particulièrement impressionnantes :

MM1 peut effectuer des prédictions en contexte grâce à son pré-entraînement multimodal à grande échelle. Cela permet à MM1 de (a) compter les objets et de suivre un formatage personnalisé, (b) de se référer à des parties des images et d’effectuer une reconnaissance optique de caractères, (c) de démontrer le bon sens et la connaissance des mots sur les objets du quotidien, et (d) d’effectuer des fonctions mathématiques de base. Les images proviennent de l’ensemble de validation COCO 2014.

Les chercheurs concluent que cette famille de modèles « produit des performances compétitives sur une large gamme de critères de référence, tout en permettant un raisonnement multi-images et une incitation à quelques prises de vue ».

En savoir plus:

FTC : Nous utilisons des liens d’affiliation automatiques générant des revenus. Plus.