Pictures of President Macron and I discussing AI extinction risks

Lettre de réponse au Président Macron :

Les risques d’extinction de l’IA sont bien réels

Le Lundi 10 Février au Grand Palais pour le Sommet International sur l’IA, j’ai eu l’honneur de discuter un instant avec le président Macron. Après l’avoir félicité pour le développement d’une stratégie “non-alignée” concernant l’intelligence artificielle, j’ai indiqué que les risques d’extinction étaient bien réels, comme le disent 3 des 5 Nobels de l’IA. Après un bref échange d’arguments, il a indiqué que la question restait “à débattre”. La lettre ci-contre vient proposer le premier jeu d’argument et une invitation à un débat.

Cher monsieur le président,

Vous mentionniez que vous aviez consulté d’autres experts tels que Michael Jordan de UC Berkeley qui pensaient que ces risques n'étaient pas pertinents. Soit. Si la moitié des ingénieurs en aviation vous indiquait que votre avion avait des chances significatives de crasher, monteriez-vous ? Certainement pas. Feriez-vous monter de force l’ensemble de votre famille & vos proches ? Moins encore. C’est pourtant ce qui pourrait advenir si vous encouragiez plus de 100 milliards d’investissement dans l’IA sans regard et attention particulière aux risques d’extinction concernant lesquels les leaders mondiaux de l’IA alertent.

Comment les risques d’extinction pourraient ils arriver ? Non par malice, non par cruauté ; mais pour la même raison qui nous a amené à causer 40% des espèces d’insecte à l’extinction. Nous aimons les insectes, mais nous aimons plus encore rouler en voiture et construire des immeubles. Ces deux objectifs étant en conflits, nous poussons les insectes à l’extinction. Les insectes n’ayant aucun pouvoir de négotiation sur nous, ils ne sont pas en capacité de nous arrêter. Le développement d’IA plus compétentes que les humains mettra les humains dans une situation similaire par défaut.

A un niveau plus techniques le problème fondamental et si difficile à résoudre est ce qu’on appelle la misgénéralisation, c’est-à-dire le fait qu’une IA échoue à extrapoler un jeu d’instruction conformément à ce qu’on aurait voulu. Voici deux exemples :

L’erreur humaine : OpenAI a instruit un agent de résoudre une tâche de cybersécurité, alors qu’ils avaient oublié d’activer l’environnement qui permettait l’accomplissement de cette tâche. Le résultat est que l’IA est sorti de sa machine virtuelle en exploitant une faille de l’environnement, a allumé à la place de l’humain l’environnement de test, puis a résolu le challenge.
L’ingénuité des IA : Palisade Research a fait jouer aux échecs un LLM avec une IA bien plus forte aux échecs (Stockfish). Le LLM, déterminé à gagner, a pour ce faire exploité une faille de sécurité permettant de modifier l’environnement d’échec en sa faveur.

Résoudre le problème de généralisation est une condition sine qua none pour que des IAs à qui on délègue peu à peu un montant croissant des décisions qui déterminent la trajectoire de l’humanité se conduisent conformément à ce que l’humanité aurait voulu faire.

Pourquoi confierions-nous un montant croissant de notre pouvoir à des IAs ? Pour la raison exacte qui vous a conduit à chercher 109 milliards d’investissement en IA pour la France. Quiconque utilisera et aura accès à l’IA gagnera en efficience. A mesure que les IA, et notamment agents, seront capables d’automatiser un montant croissant des activitiés humaines, les entreprises et pays qui automatiseront davantage gagneront sur ceux qui ne le font pas. De façon progressive et continue, les systèmes d’IA accumuleront de plus en plus de pouvoir, jusqu’à effectuer l’essentiel des activités économiquement valorisables.

Le risque est donc réel, et va se manifester de façon croissante dans les années à venir. Comment avoir un discours porteur et positif dans ce contexte ? Il existe des approches d’innovation de rupture prometteuses pouvant faire l’objet d’investissement massif, attirer des talents de classe internationale, et payer des dividendes à des échelles de 3 à 5 ans. C'est possible, via un programme d’innovation de rupture similaire à DARPA aux États-Unis ou ARIA au Royaume-Unis pouvant attirer des pointures du domaine et de nombreux talent présents dans des organisations de renom international que nombre d’individus ont rejoint motivés par la volonté de réduire les risques d’extinction de l’IA.

Vous n’avez pas besoin de choisir entre risques et discours porteur d’espoir pour l’Europe. Il est possible et désirable de poursuivre les deux.

Conformément à votre proposition, je vous propose de débattre pendant 45 minute de ce sujet à la date qui vous convient.

Cordialement,

Siméon

Letter in response to President Macron:

AI extinction risks are very real

Monday 10th February, at the Grand Palais for the International AI Action Summit, I had the honour of having a brief discussion with President Macron. After congratulating him on the development of a “non-aligned” strategy with respect to AI, I indicated that the risks of extinction are very real, as stated by three of the five AI Nobel Laureates. After a brief exchange, he indicated that the question remained “up for debate”. The following letter presents the first set of arguments and an invitation to debate.

Dear Mr. President,

You mention that you have consulted other experts, such as Michael Jordan from UC Berkeley, who believe that the risks do not exist. Very well. If every other aviation engineer told you that your plane had significant chances of crashing, would you get on it? Certainly not. Would you force your entire family and loved ones on board? Even less so. Yet this is what could happen if you encourage more than 100 Billion Euros of investment in AI with no particular regard or attention to the extinction risks that global AI leaders are warning about.

How could extinction risks materialize? Not through malice or cruelty, but for the very same reason that has led us to bring 40% of insect species to extinction. We cherish insects, yet we cherish even more our ability to drive cars and construct buildings. These two objectives being in conflict, we push insects to extinction. Insects, possessing no negotiating power over us, find themselves unable to halt this progression. The development of AI more competent than humans will, by default, put humans in the same position.

At a more technical level, the fundamental challenge—one so remarkably difficult to resolve—is that termed “misgeneralisation”, that is the fact that an AI fails to extrapolate a set of instructions in alignment with our intended outcomes. Allow me to present two examples:

Human error: OpenAI had instructed an agent to resolve a cybersecurity task, having forgotten to turn on the environment that allowed for the completion of this task. The result was that the AI broke out of its virtual machine by exploiting an environmental vulnerability, activated the test environment in place of the human, and then solved the challenge.
AI ingenuity: Palisade Research had an LLM play chess with a much stronger AI (Stockfish). The LLM, determined to win, exploited a security vulnerability that allowed it to modify the chess environment in its favor.

Solving the generalisation problem is a sine qua none for AIs—to whom we little by little delegate more of the decisions that determine the trajectory of humanity—to behave in accordance with what humanity would have wanted.

Why would we entrust an increasing amount of power to AI? For the exact same reasons that led you to seek 109 Billion Euros in investment for AI in France. Whoever uses and has access to AI will gain in efficiency. As AI, and notably AI agents, become capable of automating an increasing number of human activities, companies and countries that automate more will gain advantages over those who don’t. Progressively and continuously, AI systems will accumulate more and more power, until they perform the majority of economically valuable activities.

The risk is therefore real, and will manifest itself increasingly in the coming years. How do we maintain an inspiring and positive discourse in this context? There exists promising breakthrough innovation approaches that could be the subject of massive investment, attract world-class talent, and pay dividends on a 3 to 5-year scale. It is possible through a breakthrough innovation program similar to DARPA in the United States or ARIA in the United Kingdom capable of attracting leading figures of the field and numerous talented individuals present in existing world-class AI organisations, which many individuals have joined motivated by the desire to reduce AI extinction risks.

You don't need to choose between risks and a discourse of hope for Europe. It is both possible and desirable to pursue both.

In accordance with your proposal, I suggest we debate this subject for 45 minutes at a date that best suits you.

Respectfully,

Siméon

Page updated

Google Sites

Report abuse