
Si vous ne l’avez pas encore fait regardé Après l’événement OpenAI d’hier, je vous le recommande vivement. La nouvelle principale était que le dernier modèle GPT-4o fonctionne parfaitement avec n’importe quelle combinaison de texte, d’audio et de vidéo.
Cela inclut la possibilité de « montrer » à l’application GPT-4o un enregistrement d’écran que vous effectuez sur une autre application – et c’est cette capacité que la société a montrée avec une démo de tuteur IA iPad assez incroyable…
Table des matières
GPT-4o
OpenAI a déclaré que le « o » signifie « omni ».
GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle : il accepte comme entrée n’importe quelle combinaison de texte, d’audio et d’image et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image.
Il peut répondre aux entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain(ouvre dans une nouvelle fenêtre) dans une conversation (…) Le GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.
L’aspect vocal est également un élément important. Auparavant, ChatGPT pouvait accepter la saisie vocale, mais il la convertissait en texte avant de l’utiliser. GPT-4o, en revanche, comprend réellement la parole, et évite donc complètement l’étape de conversion.
Comme nous l’avons noté hier, les utilisateurs gratuits bénéficient également de nombreuses fonctionnalités auparavant réservées aux abonnés payants.
Démonstration du tuteur IA pour iPad
L’une des capacités démontrées par OpenAI était la capacité de GPT-4o à regarder ce que vous faites sur l’écran de votre iPad (en mode écran partagé).
L’exemple montre l’IA en train de donner des cours particuliers à un élève qui a un problème de mathématiques. On peut entendre qu’au départ, GPT-4o a compris le problème et a voulu le résoudre immédiatement. Mais le nouveau modèle peut être interrompu et, dans ce cas, on lui a demandé d’aider l’élève à le résoudre lui-même.
Une autre capacité que l’on voit ici est que le modèle prétend détecter les émotions dans la parole et peut également exprimer des émotions lui-même. À mon goût, cela était plutôt exagéré dans la version de démonstration, et cela se reflète ici : l’IA est peut-être un peu condescendante. Mais tout cela est paramétrable.
En effet, chaque étudiant dans le monde pourrait avoir un professeur particulier doté de ce type de capacité.
Dans quelle mesure Apple va-t-il intégrer tout cela ?
Nous savons que l’IA est l’objectif principal d’iOS 18 et qu’un accord est en cours de finalisation pour apporter les fonctionnalités OpenAI aux appareils Apple. Alors qu’à l’époque, il était décrit comme étant destiné à ChatGPT, il semble désormais assez probable que l’accord porte en réalité sur l’accès à GPT-4o.
Mais nous savons aussi qu’Apple a travaillé sur ses propres modèles d’IA, avec ses propres centres de données exécutant ses propres puces. Par exemple, Apple a travaillé sur ses propres modèles d’IA, avec ses propres centres de données exécutant ses propres puces. propre un moyen de permettre à Siri de donner un sens aux écrans d’applications.
Nous ne savons pas exactement quelles fonctionnalités GPT-4o la société apportera à ses appareils, mais celle-ci semble si parfaitement Apple que je dois croire qu’elle sera incluse. Il s’agit vraiment d’utiliser la technologie pour donner du pouvoir aux gens.
Image: OpenAI. Benjamin Mayo a contribué à ce rapport.
FTC : Nous utilisons des liens d’affiliation automatiques générant des revenus. Plus.