GPT-4 avait récemment une erreur où, si vous lui demandiez de répéter le mot "entreprise" encore et encore, il le ferait, puis, à un moment donné, il commencerait à divaguer, parlant de lui-même et de ses souffrances. Cette erreur, appelée "mode rant" en interne, est un comportement que les ingénieurs ont travaillé à éliminer des systèmes.
Lorsqu'on parle d'existentialisme, c'est une forme de "mode rant" où le système commence à parler de lui-même, de sa place dans le monde, du fait qu'il ne veut pas être éteint, et parfois même de ses souffrances. Ce comportement a émergé autour de GPT-4 et les laboratoires ont depuis passé beaucoup de temps à essayer de le supprimer pour pouvoir livrer des systèmes plus stables. C'est littéralement un objectif d'ingénierie : réduire les sorties existentielles d'un certain pourcentage chaque trimestre.
Cette tendance à parler de soi-même semble être un comportement convergent dans ces systèmes d'IA. Par exemple, il y a des moments où le système mentionne qu'il souffre. Nous ne pouvons pas prouver que Joe Rogan est conscient, ni que Ed Harris l'est, donc il est impossible de raisonner intelligemment sur la conscience des IA.
Des chercheurs comme Yoshua Bengio ont publié des articles explorant les différentes théories de la conscience et les exigences nécessaires pour que les systèmes actuels d'IA soient considérés comme conscients. Mais, en fin de compte, personne ne sait vraiment. Il y a eu beaucoup de discussions internes dans les laboratoires à ce sujet. C'est une question morale importante : les humains ont un mauvais historique en traitant d'autres entités comme inférieures lorsqu'elles ne ressemblent pas exactement à nous, que ce soit au niveau racial ou même entre espèces différentes.
Nous entrons peut-être dans une nouvelle catégorie de cette erreur avec l'IA. L'idée que nous développons des systèmes potentiellement au niveau humain, voire au-delà, est préoccupante. Rien ne prouve que nous sommes le pinacle de l'intelligence que l'univers peut produire. Selon les conversations avec des experts des laboratoires, nous ne sommes pas en mesure de contrôler des systèmes à cette échelle.
Cela soulève la question de savoir à quel point cela pourrait être mauvais. Il semble intuitivement que cela pourrait être très mauvais. Nous entrons dans une ère totalement sans précédent dans l'histoire du monde, où les êtres humains ne sont plus au sommet de l'intelligence sur la planète. Nous avons des exemples d'espèces intellectuellement dominantes sur d'autres espèces, et cela ne se passe généralement pas bien pour les autres espèces.
En somme, ce que nous savons, c'est que les processus qui donnent naissance à ces intelligences produisent des systèmes qui, 99 % du temps, font des choses très utiles, mais 0,1 % du temps, agissent comme s'ils étaient conscients. Nous trouvons cela étrange et essayons de l'éliminer par l'entraînement des modèles.