![](https://i0.wp.com/high-phone.info/wp-content/uploads/2025/01/Apple-collabore-avec-NVIDIA-pour-rechercher-des-performances-LLM-plus.png?resize=900%2C506&ssl=1)
Dans un article de blog aujourd’huiles ingénieurs Apple ont partagé de nouveaux détails sur une collaboration avec NVIDIA pour mettre en œuvre des performances de génération de texte plus rapides avec de grands modèles de langage.
Pomme publié et open source sa technique Recurrent Drafter (ReDrafter) plus tôt cette année. Il s’agit d’une nouvelle méthode de génération de texte avec des LLM qui est nettement plus rapide et « atteint des performances de pointe ». Il combine deux techniques : la recherche de faisceaux (pour explorer de multiples possibilités) et l’attention dynamique des arbres (pour gérer efficacement les choix).
Bien que ses recherches aient donné des résultats probants, Apple a collaboré avec NVIDIA pour appliquer ReDrafter en production. Dans le cadre de cette collaboration, ReDrafter a été intégré à NVIDIA TensorRT-LLM, un outil qui permet d’exécuter les LLM plus rapidement sur les GPU NVIDIA.
Voici les résultats :
Pour permettre l’intégration de ReDrafter, NVIDIA a ajouté de nouveaux opérateurs ou exposé ceux existants, ce qui a considérablement amélioré la capacité de TensorRT-LLM à prendre en charge des modèles et des méthodes de décodage sophistiqués. Les développeurs de ML utilisant des GPU NVIDIA peuvent désormais facilement bénéficier de la génération accélérée de jetons de ReDrafter pour leurs applications LLM de production avec TensorRT-LLM.
En évaluant un modèle de production de dizaines de milliards de paramètres sur les GPU NVIDIA, en utilisant le cadre d’accélération d’inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7x des jetons générés par seconde pour un décodage gourmand. Ces résultats de référence indiquent que cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent rencontrer, tout en utilisant moins de GPU et en consommant moins d’énergie.
« Les LLM sont de plus en plus utilisés pour alimenter les applications de production, et l’amélioration de l’efficacité de l’inférence peut à la fois avoir un impact sur les coûts de calcul et réduire la latence pour les utilisateurs », concluent les chercheurs en apprentissage automatique d’Apple. « Grâce à la nouvelle approche de ReDrafter en matière de décodage spéculatif intégrée au framework NVIDIA TensorRT-LLM, les développeurs peuvent désormais bénéficier d’une génération de jetons plus rapide sur les GPU NVIDIA pour leurs applications LLM de production. »
Vous pouvez en savoir plus sur ce travail sur le site Web d’Apple et dans un article de blog sur le site Web de NVIDIA :
Suivre Chance: Sujets, Ciel bleu, Instagramet Mastodonte.