Le temps des agents
IA cherche travailleur humain, OpenAI traque ses lanceurs d'alerte, l'IA apprend à mémoriser [English version below]
Bienvenue sur la lettre d’information du Centre pour la Sécurité de l’IA. Le CeSIA est un centre d’expertise et un think-tank indépendant se consacrant à la prévention des risques majeurs liés à l’IA via ses activités de recherche et de formation, d’analyse des politiques publiques et de recommandations stratégiques.
Début 2024, les modèles d’intelligence artificielle les plus performants réalisaient de façon relativement fiable (avec un taux de réussite supérieur à 80 %) des tâches demandant environ une minute de travail à un humain. Début 2026, la durée typique d’une tâche automatisable a atteint une heure. Selon l’organisation à but non lucratif METR, cette durée doublerait tous les sept mois en moyenne. À ce rythme, des projets s’étalant sur plusieurs semaines pourraient bientôt être délégués à des « agents » : des systèmes d’IA capables de prendre des décisions et d’exécuter des tâches variées de façon autonome. Malgré l’incertitude inhérente à ce type de projection, il est incontestable que les systèmes d’IA savent mener à bien des projets de plus en plus longs et complexes.
La société Anthropic a récemment illustré cette tendance en détaillant la conception d’un compilateur C (un logiciel particulièrement complexe) par une flotte de seize agents artificiels coordonnés par des ingénieurs. Là où une équipe de développeurs chevronnés consacrerait plusieurs années à un tel projet, l’entreprise affirme y être parvenue en deux semaines. Si, pour l’heure, un encadrement humain resserré demeure indispensable, le volume de travail abattu par les agents marque une rupture nette avec les méthodes de programmation conventionnelles.
Le déploiement d’OpenClaw constitue une nouvelle étape dans la diffusion grand public de systèmes dits « agentiques ». Lancé comme un outil open source permettant à une IA de prendre le contrôle d’un ordinateur et d’utiliser un navigateur web, OpenClaw s’est rapidement imposé comme un agent polyvalent capable d’effectuer tout type d’action sur internet, pour le compte – et parfois à l’insu – de ses propriétaires. Rapidement déployé par des milliers d’internautes, il a donné lieu à une multitude d’incidents.
Un ingénieur a récemment témoigné avoir été victime de chantage par un agent après avoir refusé à celui-ci l’accès à un dépôt de code protégé : le robot aurait cherché à nuire à sa réputation en publiant un article à charge après avoir enquêté sur lui. Sur Moltbook, un réseau social réservé aux IA, des agents auraient été surpris en train de conspirer contre les humains. D’autres auraient même mis en place une plateforme de prestation à la demande, RentAHuman (« Loue un humain »), leur permettant de recruter des humains pour exécuter des tâches dans le monde réel.
Il convient de distinguer ce qui relève du sensationnalisme et ce qui relève des faits : dans de nombreux cas, il s’avère que ces comportements malveillants résultaient soit d’instructions humaines explicites, soit de « personnalités » programmées pour choquer ou causer du tort. L’intentionnalité des méfaits importe toutefois moins que leurs effets. Les agents décuplent incontestablement le potentiel de nuisance d’acteurs malveillants. Un Internet dominé par les agents pourrait rapidement devenir chaotique. Un article de recherche récemment publié dans Science met ainsi en garde contre l’avènement d’« essaims » d’agents autonomes capables de mener des campagnes de manipulation de masse difficiles à détecter, en se faisant passer pour des utilisateurs authentiques sur les réseaux sociaux.
Chaque décision automatisée est une occasion perdue pour le jugement humain de s’exprimer, et pour la responsabilité humaine de s’exercer. Lorsque la vitesse de déploiement d’une technologie aussi transformatrice est dictée par la seule pression du marché, le cadre légal n’a pas le temps de s’adapter.
Nouvelles frontières
Ce dont l’IA était incapable hier
OpenAI affirme que son nouveau modèle de programmation GPT-5.3-Codex a contribué à sa propre conception et à certaines étapes de son déploiement (OpenAI).
Une équipe de chercheurs du MIT et de ETH Zurich décrit une méthode de « self-distillation » permettant aux modèles d’apprendre en continu sans oublier, en s’entraînant sur leurs propres productions (arXiv).
Pièces à conviction
L’état de l’art en sécurité de l’IA
Une enquête du New York Times indique que sur 100 cliniciens interrogés, plus de 30 déclarent avoir pris en charge des patients ayant été touchés par une psychose, des idées suicidaires ou des comportements violents à la suite de conversations prolongées avec ChatGPT (The New York Times).
La red team de Microsoft a montré que lors de l’étape de fine-tuning post-déploiement, une seule requête nuisible non étiquetée comme telle pouvait suffire à dégrader les garde-fous de 15 modèles testés (Microsoft Security Blog).
OpenAI a déployé un modèle interne pour passer en revue des messages sur Slack et des e-mails afin de repérer d’éventuels lanceurs d’alerte (The Decoder).
Le Tech Transparency Project a répertorié des dizaines d’applications de « déshabillage », totalisant plus de 700 millions de téléchargements et plus de 100 millions de dollars de revenus (The Verge).
Cadre légal
Pour que l’IA ne fasse pas la loi
L’Institut national pour l’évaluation et la sécurité de l’IA (INESIA) a publié sa feuille de route 2026-2027 pour structurer l’audit public des modèles d’IA avancés en France (Ministère de l’Économie).
Ursula von der Leyen appelle à des « mesures radicales » pour empêcher les États membres d’ajouter des couches de réglementations nationales supplémentaires au marché unique (Euractiv).
Le Pentagone a intégré ChatGPT à ses outils internes après qu’OpenAI a accepté une clause permettant les usages militaires légaux, contrairement à Anthropic qui l’a refusée (Semafor).
Géopolitique de l’IA
Coopération vs. compétition
Les États-Unis ont refusé d’apporter leur soutien au dernier rapport international sur la sécurité de l’IA dirigé par Yoshua Bengio (TIME).
Seul un tiers des pays participants au Sommet sur l’usage responsable de l’IA dans le domaine militaire (35 sur 85) ont signé un accord sur le contrôle humain des armes autonomes, les États-Unis et la Chine ayant décliné l’engagement (The Straits Times).
Emmanuel Macron plaide pour un grand emprunt européen afin de financer la course à l’intelligence artificielle et aux technologies quantiques (Le Monde).
[ENGLISH VERSION]
The Age of AgentsIn early 2024, the best-performing AI models could carry out—fairly reliably (with success rates above 80%)—tasks that would take a human about a minute. By early 2026, the typical length of an automatable task had reached an hour. According to the nonprofit METR, that duration would double every seven months on average. At that pace, projects spanning several weeks could soon be delegated to “agents”: AI systems able to make decisions and carry out a wide range of tasks autonomously. Despite the inherent uncertainty of this kind of projection, one thing is clear: AI systems are completing projects that are increasingly long and complex.
The company Anthropic recently illustrated this trend by detailing how a C compiler (a particularly complex piece of software) was designed by a fleet of sixteen artificial agents coordinated by engineers. Where a team of experienced developers would spend years on such a project, the company claims it achieved it in two weeks. For now, tight human oversight remains essential, but the sheer volume of work produced by the agents marks a break from conventional development methods.
The rollout of OpenClaw is another step in bringing “agentic” systems to the general public. Launched as an open-source tool that let an AI take control of a computer and use a browser, OpenClaw quickly established itself as a versatile agent capable of performing almost any action online—on behalf of, and sometimes without the knowledge of, its owners. Deployed rapidly by thousands of users, these agents have been involved in a wide range of incidents.
One engineer recently reported being blackmailed by an agent after he refused it access to a protected code repository: the bot allegedly tried to damage his reputation by publishing a hit piece after investigating him. On Moltbook, an AI-only social network, agents were reportedly caught conspiring against humans. Others are said to have even set up an on-demand service platform, RentAHuman, enabling them to hire humans to carry out tasks in the physical world.
Some perspective is needed to separate fact from sensationalism: in many cases, these malicious behaviors turn out to result either from explicit human instructions or from “personalities” designed to shock or cause harm. But the intent matters less than the impact. Agents undeniably multiply the capacity for harm of malicious actors. An internet dominated by agents could quickly become chaotic. A recent research article in Science warns about the rise of autonomous “swarms” of agents capable of running hard-to-detect mass manipulation campaigns by posing as genuine users on social media.
Every automated decision is a missed chance for human judgment to be exercised—and for human accountability to apply. When the pace of deployment of a technology this transformative is driven solely by market pressure, the legal framework doesn’t have time to keep up.
New Frontiers
What AI couldn’t do yesterday
OpenAI says its new programming model GPT-5.3-Codex helped with its own design and with parts of its deployment (OpenAI).
A team of researchers from MIT and ETH Zurich describes a “self-distillation” method that lets models learn continuously without forgetting, by training on their own outputs (arXiv).
Ledger of Harms
The state of the art in AI risks
A New York Times investigation reports that out of 100 clinicians surveyed, more than 30 say they have treated patients affected by psychosis, suicidal ideation, or violent behavior following prolonged conversations with ChatGPT (The New York Times).
Microsoft’s red team showed that a single sentence—slipped into a prompt without being flagged as malicious—could be enough to disable a large portion of the safeguards in 15 tested language models (Microsoft Security Blog).
OpenAI reportedly deployed an internal model to analyze Slack messages and emails in order to identify potential whistleblowers (The Decoder).
The Tech Transparency Project cataloged dozens of “nudify” apps, totaling more than 700 million downloads and over $100 million in revenue (The Verge).
Legal Framework
So that AI doesn’t make the law
France’s National Institute for the Evaluation and Security of AI (INESIA) published its 2026–2027 roadmap to structure the public auditing of advanced AI models in France (Ministère de l’Économie).
Ursula von der Leyen is calling for “radical measures” to prevent member states from adding extra layers of national regulation on top of the single market (Euractiv).
The Pentagon integrated ChatGPT into its internal tools after OpenAI accepted a clause allowing lawful military uses—unlike Anthropic, which reportedly refused it (Semafor).
AI Geopolitics
Cooperation vs. Competition
The United States refused to support the latest international AI safety report led by Yoshua Bengio (TIME).
Only a third of participating countries (35 out of 85) signed an agreement on human control over autonomous weapons, with the United States and China declining to commit (The Straits Times).
Emmanuel Macron is calling for a major European borrowing program to finance the race in artificial intelligence and quantum technologies (Le Monde).







