AI V : Bing Chat, capteurs 200 MP et Samsung Gauss AI
- CHMultimedia
- 10 déc. 2023
- 6 min de lecture

Sur le forum Samsung Européen, l'article de @Cassidy007 exploitant Bing Chat (à lire ici) catalysa une discussion sur les LLM qui, de fil en aiguille, produisit un autre de mes fameux pavés. De plus, cela me rappela l’existence de Gauss, la suite générative que doivent arborer les Galaxy S24. Ainsi, je vous présente cet article portant sur les LLM et ce à quoi vous pourriez vous attendre sur les téléphones de la marque.
| 1 // L’article de Bing via Cassidy007
Souvenez-vous, ce n’est pas mon premier rodéo avec les LLM. Je suis le domaine depuis longtemps. Pour avoir essayé les modèles GPT et GPT-2 bien avant que OpenAI ne soit avalée en pratique par Microsoft, leur ascension fut fulgurante. Plus pertinent à la présente situation, j’ai rédigé en mars 2023 une série de quatre articles détaillant les LLM, ce qu’ils sont, ce qu’ils ne sont pas et tout le tralala. J’étais bien placé pour réagir à la production de l'estimé contributeur au forum, qui a eu la gentillesse de me taguer.
Son article permet à Bing Chat et au LLM GPT-4 sous-jacent d’exhiber ses tendances naturelles. Si ces algorithmes de type « Transformer » (c’est le « T » de « GPT ») intègrent désormais à merveille les principes élémentaires de la construction d’une phrase, ils n'appréhendent pas la composante sémantique du propos humain. Si vous daignez examiner de plus près le texte généré par ceux-ci, les failles se révèlent profondes et légion, généralement sous forme de pures fabulations.
| 1.1 // Au micronscope
Examinons l’explication présumée du capteur 200MP du S23 Ultra. Bing Chat affirme « Le Super Quad Pixel est une technologie développée par Samsung qui permet d'augmenter le nombre de pixels sur le capteur sans réduire la taille des photosites ». Mais immédiatement après cette phrase, le LLM décrit un procédé reposant justement sur des photosites de taille réduite.
La taille des photosites est mesurée en microns. Bing Chat affirme qu’en mode 12.5MP, les photosites du S23 Ultra ont une taille de 0.96 micron, ce qui est très petit. Et faux. En mode 12.5MP, leur taille sur le S23 Ultra est de 2.4 microns, une taille plus que respectable. De plus, Bing Chat affirme qu’en mode 50 MP, les photosites ont une taille de 0.24 micron, alors qu’ils sont plutôt de 1.2 micron en réalité.
Voici le calcul : la taille en mode « natif » 200MP de chaque photosite est de 0.6 micron de côté. Pour passer de 200 à 50 MP, vous devez combiner un carré quatre pixels, ce qui multiplie la longueur et la largeur par deux. Donc, vous passez de 0.6 micron à 1.2 micron de côté. Pour passer de 200 à 12.5 MP, vous devez combiner un carré de seize pixels, ce qui multiplie la longueur et la largeur par quatre. Donc, vous passez de 0.6 micron à 2.4 microns de côté. Un exercice d’arithmétique élémentaire auquel le LLM échoue lamentablement.
J’ignore d’où Bing Chat a trouvé la valeur de 0.96 micron. Aucune source en ligne n’évoque ce chiffre. Il s’agit d’une pure invention du modèle. La valeur de 0.24 micron est aussi illogique dans son contexte. Il en va de même pour le fameux Qualcomm Snapdragon 898 5G. Ce processeur n’existe pas et n’a jamais existé, quoi qu'en dise Bing Chat.
| 1.2 // Bonne réponse!
Si nous évitons d’aborder les sujets trop pointus, telles que les technologies récentes parmi lesquelles figurent les capteurs mobiles très haute résolution, ces LLM s’en tirent plutôt bien. Bing Chat explique correctement ce que sont des pixels et un capteur d’appareil photo numérique.
| 1.3 // Mauvaise synthèse
À la fin de chaque article gît une conclusion. Ça, les LLM l’ont bien compris. Malheureusement, la conclusion proposée ici est médiocre. Elle consiste uniquement en la régurgitation de la section Pour/Contre les capteurs 200MP. De plus, le LLM fait preuve d’un politiquement correct étrange en évitant de juger le rapport coût-bénéfice de cette technologie, ce qui constituerait une conclusion infiniment plus instructive. Le lecteur novice est laissé à lui-même.
Le titre de l’article généré est « Pourquoi les téléphones Samsung ont-ils des capteurs de 200 mégapixels ? ». Or, la question sous-jacente que l’article lui-même titille est: « Est-ce que les capteurs 200MP sont une bonne ou une mauvaise caractéristique des téléphones de Samsung? » Vous n'aurez jamais réponse à cette question, et la stratégie « d'éviter de prendre position » de la part de Bing Chat a pour conséquence de semer indûment un doute.
| 2 // Comprendre l’écart
Pourquoi cette différence? Attardons-nous sur la création d’un modèle algorithmique de type LLM. Pour créer votre propre modèle, il vous faut un ordinateur, un processeur graphique dédié, beaucoup de mémoire vive, et un immense, gigantesque, grandissime amas de texte. Ensuite, vous faites tourner votre processeur graphique en lui demandant de déceler les tendances dans votre pile de texte. Après un looooooooooong moment, vous aurez un modèle.
Dans le paragraphe précédent, un mot particulier doit retenir votre attention, le mot tendance. Un LLM décèle des tendances. C’est pour cela que les phrases générées semblent plausibles, d’un regard syntaxique, grammatical et orthographique. Donnez-lui l’ensemble de l’œuvre écrite humaine et il ne tardera pas à comprendre comment le genre humain s’exprime.
C’est aussi cette caractéristique qui explique l’écart d’exactitude entre des informations plus génériques et basiques, et des informations plus récentes et poussées. C’est tout simplement une information répétée plus souvent dans son corpus.
Remémorons-nous du fait que les LLM n’ont aucune compréhension sémantique des mots, ce qui entrave gravement la production d’une synthèse. Intrinsèquement, une synthèse est un résumé du propos, du sens, du message véhiculé par un texte quelconque. Sans comprendre le texte, vous ne pourrez le synthétiser.
En somme, l’article proposé puis être qualifié de niveau « École élémentaire / primaire » en théorie, et de niveau « Collège / secondaire » en pratique (aïe!).
| 3 // Que cela signifie-t-il pour Gauss AI?
Samsung annonça récemment la suite générative Gauss AI, promettant un traitement local des requêtes. Pour ma part, je suis intrigué et il me tarde de mettre la suite à l’épreuve. Jusqu’à présent, les algorithmes de génération de texte exigeaient l’usage de processeurs graphiques dédiés fort dispendieux, dotés d’une immense plage de mémoire graphique. Si Samsung Gauss AI offre un LLM local fonctionnel, cela protègera la confidentialité des requêtes. Vous n’êtes pas sans savoir que l’une des critiques majeures à l’encontre de ceux-ci réside en la protection des prémisses fournies. Le géant coréen lui-même fit face à cette réalité en avril 2023 lorsque des employés du vaste conglomérat fournirent au service ChatGPT des secrets industriels. Oups.
Concernant les constats posés précédemment, il m’apparaît clair que Gauss AI ne saurait les éluder, surtout lorsque nous tenons compte du fait que le modèle GPT-4 – qui produisit les bourdes en question – comporte plus d’un trillion (un million de millions) de paramètres. Un processeur de téléphone – limité à une consommation d’énergie de moins de 10 watts en conditions extrêmes – ne peut aujourd’hui traiter une telle quantité d’informations. Peut-être dans quelques années, qui sait.
| 3.1 // Tangente : exploration rapide du potentiel.
La série S24, propulsée par le Snapdragon 8G3 ou pas, devra se contenter d’un modèle vastement simplifié. Le site de l’illustre informaticien/mathématicien français Fabrice Bellard recense de nombreux LLM évalués selon plusieurs critères. Des modèles à 7 milliards de paramètres exigeant une empreinte d’environ 4 Go se montrent très performants. 4 Go de stockage et de RAM, c’est viable sur un téléphone. En particulier, le modèle mistral_7B_q4, à seulement 4,3 Go, offre une qualité moyenne comparable au gigantesque LLaMa2 à 70 milliards de paramètres qui pèse 40 Gigaoctets. Il y a moyen de faire plus petit, mais la qualité dégringole.
Pour garantir une performance minimalement décente, l’intégralité du modèle doit être chargée dans la mémoire vive du processeur. La série S24 doit se décliner en modèles ayant entre 8 et 12 Go de mémoire vive. Il est évident que l’intégralité de la mémoire vive ne peut être dédiée au modèle embarqué, donc l’objectif doit être d’environ 4 Go. Notez que plusieurs modèles peuvent être utilisés au cas par cas. Pour contourner ce problème, il est possible d’ajouter une étape de traduction de/vers l’anglais, ce que fait apparemment ChatGPT et certains services l’exploitant, dont Bing Chat.
Sur mon ordinateur portable, lorsqu’accélérée par le processeur graphique, une carte graphique NVIDIA RTX 4060 limitée à moins de 40 Watts génère 300 jetons à la seconde dans mistral_7B_q4. C’est assez pour générer un texte de 10 000 caractères en quelques secondes.

Avec un processeur neural dédié tels que vus sur les processeurs AMD 8x45 avec accélérateur XDNA, Intel Meteor Lake ou sur nos téléphones et tablettes équipés de « NPU » ou « processeurs neuronaux » depuis quelques années, la performance devrait être suffisante sans consommer autant d’énergie.
De retour à votre programme…
Dans ce cas, nous devrions nous remémorer les forces de ces LLM, qui sont d’accélérer la rédaction de platitudes, d’offrir des informations de nature très générale, et d’offrir des prémisses et des pistes. Ces usages sont, selon moi, valides. De plus, la composante générant des images servira assurément à épauler la vision créatrice des utilisateurs particuliers qui ne sauraient affranchir les frais d’images stock. Faites attention aux doigts, cependant.
Oh, et il sera amusant de voir comment le modèle que Samsung utilisera peut être manipulé pour produire des textes loufoques. Surpasser « I am a good Bing » suscitera mon admiration.
Commentaires