Posted in

Siri a échoué au test ultra-simple du Super Bowl, se trompant 38 sur 58


Le commentateur d’Apple, John Gruber, a décrit hier les performances actuelles de Siri comme «une blague pas drôle», donnant comme exemple son incapacité à nommer correctement le vainqueur du Super Bowl 13, notant qu’il s’agit d’une question de base à laquelle tout chatbot américain devrait être en mesure de répondre.

Il s’avère que ce n’était pas un exemple entièrement aléatoire : il a été incité par son ami Paul Kafasis, qui a décidé de tester Siri sur le Super Bowl 1 à 60 inclus – et les résultats n’étaient pas bons…

Kafasis a partagé les résultats dans un article de blog.

Alors, comment s’est comporté Siri ? Avec l’interprétation la plus charitable, Siri a correctement désigné le vainqueur de seulement 20 des 58 Super Bowls joués. Cela représente un pourcentage d’achèvement absolument épouvantable de 34 %. Si Siri était un quarterback, il serait exclu de la NFL.

Siri a réussi une fois à obtenir quatre années consécutives correctes (Super Bowls IX à XII), mais seulement si nous lui accordons le mérite d’avoir fourni la bonne réponse pour la mauvaise raison. De manière plus réaliste, il a répondu trois fois correctement à trois fois de suite (Super Bowls V à VII, XXXV à XXVII et LVII à LIX). Au pire, il y a eu un incroyable 15 erreurs consécutives (Super Bowls XVII à XXXII).

Siri est un grand fan des Eagles, semble-t-il.

Le plus amusant, c’est qu’il attribue aux Eagles de Philadelphie un étonnant 33 victoires au Super Bowl ils n’ont pas gagné, pour aller avec celui qu’ils ont.

La partie « bonne réponse pour la mauvaise raison » fait référence au fait qu’on demande à Siri de nommer le vainqueur du Super Bowl X. Pour des raisons inconnues, Siri a décidé de répondre par une longue réponse à propos du Super Bowl IX, et par coïncidence, le gagnant était le même à chaque fois. .

Parfois, Siri sortait complètement des pistes et ignorait complètement la question, citant des entrées Wikipédia sans rapport.

« Qui a gagné le Super Bowl 23 ? »
Bill Belichick détient le record du plus grand nombre de victoires (huit) et d’apparitions au Super Bowl (douze : neuf fois en tant qu’entraîneur-chef, une fois en tant qu’entraîneur-chef adjoint et deux fois en tant que coordinateur défensif) par un individu.

Mais peut-être que les chiffres romains prêtent à confusion et que d’autres systèmes d’IA ont tout autant de difficultés ? Gruber a décidé de procéder à quelques contrôles ponctuels.

Je n’ai pas effectué de test complet des Super Bowls 1 à 60 parce que je suis paresseux, mais une vérification ponctuelle de quelques nombres aléatoires dans cette plage indique que tous les autres agents qui posent une question et obtiennent une réponse l’utilisation personnelle les rend tous corrects.

J’ai essayé ChatGPT, Kagi, DuckDuckGo et Google. Ces quatre-là s’en sortent même tous bien dans les questions sans doute pièges concernant les vainqueurs des Super Bowls 59 et 60, qui n’ont pas encore été joués. Par exemple, demandé au vainqueur du Super Bowl 59, la « réponse rapide » de Kagi commence : « Le Super Bowl 59 devrait avoir lieu le 9 février 2025. Pour l’instant, le match n’a pas encore eu lieu, il n’y a donc pas de gagnant à signaler. .»

Les vainqueurs du Super Bowl ne sont pas un sujet obscur, comme, par exemple, demander « Qui a remporté le championnat de basket-ball des lycéens du Dakota du Nord en 2004 ? » — une question que je viens de complètement sortir de mon cul, mais qui, étonnamment, Kagi a répondu correctement pour la classe A, et ChatGPT a répondu correctement pour à la fois classe A et classe Bet a fourni un lien vers cette vidéo du match de championnat de classe A sur YouTube.

C’est incroyable ! J’ai choisi un État obscur (n’en déplaise aux Dakotans, du Nord ou du Sud), il y a un an assez loin, et le sport du lycée auquel je jouais personnellement le mieux et qui me tenait le plus à cœur. Et Kagi et ChatGPT ont bien compris. (Je donnerais à Kagi un A et à ChatGPT un A+ pour avoir nommé les champions des deux classes, et un crédit supplémentaire au sommet du A+ pour les liens YouTube.)

Gruber note que l’ancien Siri – sur macOS 15.1.1 – fait mieux. Bien sûr, il semble moins performant, car il a donné sa réponse classique « Voici ce que j’ai trouvé sur le Web », mais au moins cela donne des liens vers la bonne réponse. Ce n’est pas le cas du nouveau Siri.

Le nouveau Siri, optimisé par Apple Intelligence™ avec l’intégration ChatGPT activée, obtient la réponse complètement mais plausiblement fausse, ce qui est la pire moyen de se tromper. C’est aussi de manière incohérente faux – J’ai essayé la même question quatre fois et j’ai obtenu une réponse différente, toutes fausses, à chaque fois. C’est un échec complet.

Photo par Caleb Bois sur Unsplash

FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Plus.