Newsletter du CeSIA #4

Dangers de la désinformation, réactions à l’IA générative et déploiement de nouveaux modèles.

sept. 09, 2024

Bienvenue sur la newsletter du Centre pour la Sécurité de l'IA ! Le CeSIA est une nouvelle organisation qui vise à promouvoir un développement sûr et bénéfique de l’intelligence artificielle pour tous. Retrouvez ici les dernières actualités et ressources sur l'intelligence artificielle, sa sécurité et sa gouvernance.

Certains des liens fournis renvoient vers des textes en anglais, pour lesquels nous avons inclus un lien vers une traduction française “(fr)” générée par Google, quand cela était possible.

Enjeux éthiques

Désinformation, slop et décrédibilisation

Une grande inquiétude à propos de l’IA est celle de la désinformation : les IA génératives permettent la création de vidéos ou de textes qui peuvent facilement passer pour faux. La désinformation ne nécessite pas forcément l’usage d’IA, mais est facilitée par le déploiement de systèmes d’IA génératifs simples à utiliser et ayant un minimum de garde-fous.

Il existe plusieurs manières d’utiliser les IA génératives de façon néfaste. La première est de falsifier des données pour soutenir un argument ou une perspective sur l’actualité. Grok 2, le dernier modèle de xAI (la startup d’Elon Musk), a notamment été conçu pour réduire les barrières à la création de contenu arbitraire, ce qui a permis à ses usagers de générer des images violentes ou choquantes de célébrités et de politiciens américains en protestation. Ce choix est particulièrement critiquable à l’approche des élections américaines, où il y a beaucoup à gagner en manipulant l’opinion publique.

Mais la désinformation délibérée n’est pas le seul moyen de causer du tort : tout aussi problématique est la prolifération massive de contenu généré par IA, appelé “slop”. Si ce contenu n’a pas la même qualité que des articles écrits par des journalistes professionnels, il se rattrape par la quantité, inondant ainsi Internet de fausses informations difficiles à vérifier. Parmi les nombreux exemples, citons BNN Breaking, un journal en ligne au contenu principalement généré par IA, menant à de la diffamation, des affirmations trompeuses et du plagiat. BNN Breaking ayant fait scandale, le site redirige désormais vers une application d’IA, et son créateur à recréé le même modèle sous le nom de Trimfeed.

Les problèmes du slop sont aussi indirects, en décrédibilisant les canaux d’information légitimes et en minant notre capacité à s’accorder sur ce qui est réel. Même lorsqu’on réussit à limiter les faux contenus, la possibilité de falsification permet une désinformation en accusant à tort du contenu d’être généré par IA, comme ça a été le cas pour Donald Trump à propos d’un rassemblement électoral de Kamala Harris, son opposante aux élections présidentielles.

Pour distinguer du contenu généré par IA, on peut recouper les informations entre plusieurs sources, ou se fier à des sources indépendantes, mais au fur et à mesure que la technologie progresse, il devient de plus en plus difficile pour un individu de distinguer ce qui est généré par l’IA de ce qui ne l’est pas, comme le montre un papier récent où GPT-4 passe le test de Turing.

Impacts sociétaux et dynamiques sociales

L’adoption de l’IA générative et son utilisation de plus en plus importante sont constatées dans tous les milieux professionnels de la plupart des pays (étude Blomberg) : gain de temps grâce à l’augmentation de la vitesse d’exécution, et donc perspective de réaliser plus de tâches. Si beaucoup souhaitent être mieux formés pour connaître les droits et limites liés à son utilisation, d’autres expriment la crainte de pertes d’emplois massives en constatant l’efficacité de ces nouveaux outils.

Ainsi, différentes communautés et organisations se sont exprimés, ont poussé à des boycotts ou se sont mises en grève afin de garantir leur protection contre l’utilisation de l’IA et la préservation de leurs droits. Citons notamment les acteurs et scénaristes de l’industrie cinématographiques américaines, ceux du secteur des jeux vidéo en Californie, ainsi que les traducteurs professionnels français.

De nombreuses annonces de licenciements se sont succédé ces dernières semaines : chez DELL, CISCO, CNN, Intuit, du fait d’un remplacement par l’IA, ou pour réorienter les activités de l’entreprise vers l’IA.

En réponse, de nouvelles actions militantes, plus agressives que les récentes manifestations pour demander un ralentissement de la recherche en IA avancée, commencent à émerger, comme le piratage de données dont a été victime la société Disney, visée notamment pour ses productions artistiques exploitant l’IA. Citons aussi les actes de résistance ou de vandalisme contre des robotaxis Waymio ou contre des robots livreurs.

Pause IA, un groupe militant, critique quant à lui le rapport de la commission française de l’IA, l’accusant d’erreurs et de déni des risques, et pointant les liens de ses membres avec l’industrie. Leur analyse propose de compléter le rapport de la commission par des amendements, et appelle à un débat public sur l’IA en France, une initiative que nous soutenons. Pause IA organise une conférence le mardi 10 septembre pour aborder ces enjeux et présenter leur contre-expertise.

Actualités mondiales

Nouveaux modèles et contraintes au déploiement

Alors que de nouveaux modèles encore plus performants ont été mis en ligne cet été (Mistral Large 2, GPT-4o, Llama 3.1, …) et parfois publiés en open-weight, on peut s’interroger sur le respect des engagements pris par leurs éditeurs lors du sommet sur la sécurité de l’IA de Séoul en mai dernier, particulièrement concernant les moyens pour les évaluer.

La plupart des grandes entreprises d’IA ont pris des engagements volontaires sur les capacités dangereuses qui les conduiraient à repenser le déploiement d’un modèle, et c’est dans cette optique qu’OpenAI partage ses évaluations de GPT-4o, mais il est difficile de savoir si les moyens mis en oeuvre sont à la hauteur des enjeux et des risques les plus extrêmes.

De plus, l’adhérence des entreprises à leurs promesses n’est pas garantie, et les actes suivent difficilement les déclarations. Contournant complètement la question, xAI choisit de minimiser les restrictions dans son dernier modèle multimodal, Grok 2, bien que cela facilite grandement les dérives.

La panne Crowdstrike

Le 19 juillet, une panne de grande ampleur a frappé des ordinateurs à travers le monde, suite à une mise à jour forcée d’un logiciel de sécurité qui faisait crasher l’ordinateur.
Bien que cette panne ne soit pas directement liée à l’IA, elle nous informe sur la fragilité des systèmes informatiques à l’échelle mondiale et le besoin de développer des mesures de sécurité par défaut. Cette fragilité pourrait s’avérer dramatique à mesure que les IA gagnent en compétence et deviennent plus capables que l’humain en cyberattaque.

Actions du CeSIA

Dialogues de Turing

Le premier cycle des “Dialogues de Turing”, des tables rondes ouvertes à toutes et à tous sur les enjeux de l'IA se sont clôturés avec celle du mardi 9 juillet : Comment concilier sécurité, éthique et compétitivité dans le développement de l'IA ?

Hackathon avec Apart Research

Le CeSIA a organisé en collaboration avec Apart Research un hackathon sur les démos interactives des capacités et risques de l’IA. Génération de pseudo-articles journalistiques, vulnérabilité à l’injection de code, manipulation sur-mesure : retrouvez divers exemples frappants sur le site du hackathon.

Vendred’IA

L’organisation des vendred’IA a pris une pause estivale et va connaître des évolutions pour la rentrée. Après une première expérimentation en ligne concluante sur Discord cet été, et un sondage destiné à choisir le meilleur jour de la semaine pour une réunion en présentiel qui pourrait amener à renommer ce rendez-vous, de nouvelles dates de réunions physiques ou virtuelles vont être proposées. Rendez-vous sur Discord pour discuter avec nous d’ici-là !

Introduction à la sécurité de l’IA

Notre dernière conférence introductive sur le sujet s’est déroulée le 28 juin à l’école 42. Pour connaître les prochaines dates, abonnez-vous à la page Luma du CeSIA.

ML4Good

Après le bootcamp précédent organisé en France en juin, le dernier ML4Good s’est déroulé au Brésil et fut un franc succès. Nous sommes ravis que nos bootcamps continuent à se développer sur d’autres continents !

Nos publications

Nous sommes intervenus récemment sur les podcasts du Futurologue et de Thibault Neveu.

Notre benchmark BELLS a été présenté lors de la conférence AI_dev organisée par la Linux Foundation. Cela a été l'occasion de partager notre vision avec la communauté des développeurs d'IA open-source. Par ailleurs, l’article de recherche présentant ce projet a été accepté au workshop NextGen AI Safety à ICML. Une belle reconnaissance de l'importance de développer des benchmarks pour évaluer la fiabilité des systèmes de supervision d’agents conversationnels.

Divers

Le CeSIA a co-organisé avec Entrepreneur First un AI Safety meetup à station F le 24 juin dernier.

Liens / en bref

Yoshua Bengio critique des arguments fréquemment avancés pour ne prendre la sécurité de l’IA au sérieux, notamment au sujet des risques catastrophiques.

Meta suspend la publication de son modèle d'IA multimodal Llama 3 en Europe en raison de l'environnement réglementaire jugé imprévisible de l'UE. Cette décision de Meta souligne les tensions croissantes entre les géants technologiques et les régulateurs européens, dont les efforts peuvent cependant être vus comme une victoire pour les particuliers et la protection de leurs données.

Microsoft présente une méthode de jailbreak appelée Skeleton Key (fr) efficace sur la plupart des modèles de frontière, ainsi que des méthodes pour l’atténuer.

Une étude publiée dans Nature (fr) confirme que la qualité de production des grands modèles d’IA se dégrade s’ils sont entraînés avec des données synthétiques (générées par IA).

Google DeepMind présente des modèles capables de résoudre des problèmes mathématiques avancés.

Sakana AI dévoile AI Scientist, un projet d’automatisation de la recherche scientifique.

Le Center for AI Safety discute de SB 1047, un projet de loi américain qui obligerait entre autres les entreprises à mettre en place des mesures de sécurité significatives avant de déployer des IA de frontière, et imposerait la protection des lanceurs d’alertes.

Un nouveau benchmark trouve que les modèles de frontière actuels sont pour l’instant incapables de collaborer efficacement à des fins de tromperie.

Vous pouvez retrouver tous les évènements du CeSIA sur Luma et nous suivre sur LinkedIn pour ne rien manquer !

Une question ? Une opinion à partager ? Une info à ajouter ? Contactez-nous sur notre site ou venez discuter avec nous sur Discord !
Pour vous renseigner sur les risques, vous pouvez aussi parcourir notre manuel sur la sécurité de l’IA.

Newsletter du CeSIA