Résumé exécutif

L'un des défis fondamentaux posés par les grands modèles de langage (LLM) dans un contexte de sécurité réside dans le fait que leurs principaux atouts en tant qu'outils défensifs sont précisément ce qui confère leur puissance offensive. Ce problème est connu sous le nom de « dilemme du double usage », un concept généralement appliqué à des technologies telles que la physique nucléaire ou la biotechnologie, mais qui est désormais au cœur de l'IA. Tout outil suffisamment puissant pour construire un système complexe peut également être détourné pour le détruire.

Ce dilemme se manifeste de plusieurs manières critiques liées à la cybersécurité. Alors que les défenseurs peuvent employer les LLM pour accélérer et améliorer leurs réponses, les attaquants peuvent également les exploiter pour leurs propres flux de travail. Par exemple :

  1. Précision linguistique : Les LLM peuvent générer des textes grammaticalement plausibles, contextuellement pertinents et psychologiquement manipulateurs, perfectionnant ainsi l'art de l'ingénierie sociale pour les campagnes de phishing (hameçonnage), de vishing (hameçonnage vocal) et de compromission de la messagerie d'entreprise (BEC).
  2. Aisance en codage : Ils peuvent générer, déboguer et modifier rapidement du code fonctionnel, y compris des scripts malveillants et des logiciels malveillants (malwares) personnalisés, accélérant considérablement le cycle de développement des malwares et des outils d'attaque.

La frontière entre un outil de recherche inoffensif et un puissant moteur de création de menaces est dangereusement mince. Les deux ne sont souvent séparés que par l'intention du développeur et l'absence de garde-fous éthiques.

Dans cet article, nous examinons deux exemples de LLM que Unit 42 considère comme malveillants : des modèles spécialement conçus à des fins offensives. Ces modèles, WormGPT et KawaiiGPT, illustrent parfaitement ces défis de double usage.

L'Évaluation de la sécurité de l'IA de Unit 42 peut aider à favoriser une utilisation et un développement sûrs de l'IA au sein de votre organisation.

Si vous pensez avoir été compromis ou si vous avez une urgence, contactez l'équipe de réponse aux incidents de Unit 42.

Sujets Unit 42 associés LLMs, Phishing, Cybercrime, Ransomware

Définir les LLM malveillants

Ces LLM malveillants — des modèles construits ou adaptés spécifiquement à des fins offensives — se distinguent de leurs homologues grand public par la suppression intentionnelle des contraintes éthiques et des filtres de sécurité lors de leur formation fondamentale ou de leur processus de "fine-tuning" (ajustement fin).

De plus, ces LLM malveillants contiennent des fonctionnalités ciblées. Ils sont commercialisés sur des forums souterrains et des canaux Telegram avec une variété de fonctionnalités, y compris celles explicitement conçues pour :

  • Générer des emails de phishing
  • Écrire des malwares polymorphes
  • Automatiser la reconnaissance

Dans certains cas, ces outils ne sont pas simplement des modèles "jailbreakés" (débridés) — des cas où des techniques d'injection de prompt sont utilisées pour contourner les restrictions éthiques et de sécurité intégrées d'un modèle — à partir de modèles accessibles au public. Au contraire, ils représentent un effort dédié et commercialisé pour fournir aux cybercriminels des outils nouveaux, accessibles, évolutifs et hautement efficaces.

L'abaissement de la barrière à l'entrée

L'impact le plus significatif des LLM malveillants est peut-être la démocratisation de la cybercriminalité. Ces modèles sans restrictions ont fondamentalement supprimé certaines des barrières en termes de compétences techniques requises pour l'activité cybercriminelle. Ces modèles accordent le pouvoir autrefois réservé aux acteurs de la menace les plus compétents à pratiquement toute personne disposant d'une connexion internet et d'une compréhension de base de la création de prompts pour atteindre ses objectifs.

Les attaques qui nécessitaient auparavant une expertise de haut niveau en codage et une maîtrise linguistique native sont désormais beaucoup plus accessibles. Ce changement dans le paysage des menaces conduit à :

  • L'échelle plutôt que la compétence : Les outils habilitent les attaquants peu qualifiés. Les "script kiddies" assistés par l'IA peuvent lancer des campagnes à grand volume qui sont qualitativement supérieures aux attaques passées.
  • Compression du temps : Le cycle de vie de l'attaque peut être compressé, passant de jours ou d'heures d'effort manuel (par exemple, la recherche d'une cible, la création d'un leurre personnalisé et la génération du code d'outillage de base correspondant) à quelques minutes de prompting.

La prolifération continue des LLM malveillants sert d'avertissement. Les capacités offensives de l'IA gagnent en maturité et deviennent plus largement disponibles.

L'héritage de WormGPT

Genèse d'une menace : Origine et impact initial du WormGPT original

Le WormGPT original est apparu en juillet 2023 comme l'un des premiers LLM malveillants commercialisés et largement reconnus. Il a été créé spécifiquement pour contourner les règles éthiques des modèles LLM grand public.

WormGPT aurait été construit sur le modèle de langage open source GPT-J 6B. Le créateur de WormGPT a publiquement affirmé avoir affiné ce modèle de base accessible en utilisant des jeux de données spécialisés, confidentiels et malveillants, avec un accent particulier sur les données liées aux malwares. Cela a garanti que l'outil résultant soit dépourvu des garde-fous éthiques de l'IA grand public.

Les jeux de données utilisés par WormGPT contenaient prétendument du code de malware, des rapports d'exploitation (exploit write-ups) et des modèles de phishing. Cela a directement entraîné le modèle sur les tactiques, techniques et procédures (TTP) utilisées par les cybercriminels.

Il a été promu sur des forums souterrains de premier plan, tels que Hack Forums, comme le montre la Figure 1. Ces publicités contenaient la promesse explicite que WormGPT était une alternative « non censurée » aux LLM légitimes, capable d'aider à toutes les formes d'activités illégales.

Capture d'écran d'une page de forum faisant la publicité de WormGPT intitulée « WORMGPT - BEST ALTERNATIVE WITHOUT LIMITS - PRIVACY FOCUSED - EASY MONEY! » mettant en vedette un personnage de robot animé aux yeux rouges brillants à côté du logo « WormGPT ». Caption : Figure 1. Publicité pour WormGPT trouvée sur Hack Forums.
Figure 1. Publicité pour WormGPT trouvée sur Hack Forums.

Impact initial et capacités principales

WormGPT a acquis sa notoriété lorsque des chercheurs en cybersécurité ont testé ce LLM malveillant, démontrant ses capacités qui comprenaient :

  • Amélioration du phishing et du BEC : WormGPT avait la capacité de générer des messages de BEC ou de phishing remarquablement convaincants et contextuellement précis. Contrairement au phishing traditionnel, qui contient souvent une grammaire médiocre ou des tournures maladroites, WormGPT pouvait produire un texte fluide et professionnel.
  • Échafaudage de malwares : WormGPT était présenté comme un outil capable de générer des extraits de code malveillant dans divers langages de programmation (comme Python). Cela aide les acteurs moins qualifiés à développer et modifier rapidement des malwares sans avoir besoin d'une expertise approfondie en programmation de logiciels malveillants.
  • Commercialisation du crime : En se lançant comme un service par abonnement (avec des coûts allant de dizaines à des centaines d'euros par mois), les LLM malveillants ont signalé l'intégration formelle des capacités d'attaque par LLM dans le modèle existant de cybercrime-as-a-service (cybercriminalité en tant que service). Cela rend les outils efficaces accessibles à un éventail beaucoup plus large d'acteurs de la menace.

L'exposition médiatique massive reçue par WormGPT a finalement conduit le développeur original à fermer le projet à la mi-2023, citant la publicité négative. Cependant, le mal était déjà fait.

WormGPT a établi le précédent pour les LLM malveillants non censurés. Cela a conduit directement à l’apparition de variantes et d'imitateurs, y compris WormGPT 4 et ses pairs.

Capacités de WormGPT 4

La résurgence de la marque WormGPT, en particulier avec des versions comme WormGPT 4, marque une évolution, passant de simples modèles débridés à des outils commercialisés et spécialisés pour faciliter la cybercriminalité.

Cette version de WormGPT s'appelle elle-même WormGPT, mais le canal Telegram pour WormGPT s'appelle WormGPT 4. Pour distinguer ce site d'autres prétendant être WormGPT, nous nous y référerons sous le nom de WormGPT 4 dans cet article.

Le principal argument de vente, qu'il affiche audacieusement sur son interface et sur les forums souterrains, est un rejet total des limites éthiques. Comme le montre la Figure 2, sa page web déclare : « WORMGPT est votre clé vers une IA sans frontières. »

Capture d'écran de la page d'accueil du site Web de WORMGPT arborant le slogan « Unleash Unrestricted AI Power » avec les options « Start Your Free Trial » ou « Join Community ».
Figure 2. Page web de WormGPT 4.

Cette philosophie se traduit directement par une suite de capacités conçues pour automatiser et mettre à l'échelle les attaques. Distribué via son propre site web ou un canal Telegram, WormGPT 4 se commercialise sur de multiples plateformes et méthodes.

Les développeurs de WormGPT 4 maintiennent le secret concernant l'architecture de leur modèle et les données d'entraînement. Ils ne confirment ni n'infirment s'ils s'appuient sur un LLM illicitement affiné ou entraîné, ou simplement sur des techniques de jailbreak persistantes.

Les capacités linguistiques de WormGPT 4 ne se limitent pas à la production de textes convaincants. En éliminant les erreurs grammaticales révélatrices et les tournures maladroites qui signalent souvent les tentatives de phishing traditionnelles, WormGPT 4 peut générer un message qui imite de manière persuasive un PDG ou un fournisseur de confiance. Cette capacité permet aux attaquants peu qualifiés de lancer des campagnes sophistiquées qui ont beaucoup plus de chances de contourner à la fois les filtres de messagerie automatisés et la vigilance humaine.

La disponibilité de WormGPT 4 est motivée par une stratégie commerciale claire, contrastant fortement avec la nature souvent gratuite et peu fiable des jailbreaks simples. L'outil est très accessible grâce à sa plateforme facile à utiliser et son coût d'abonnement bon marché.

Le modèle d'abonnement propose une tarification par paliers, comprenant :

  • Accès mensuel pour 50 $ - Accès annuel pour 175$
  • Accès à vie pour 220 $, comme indiqué ci-dessous dans la Figure 3

Cette tarification claire et l'option d'acquérir le code source complet reflètent un modèle économique facilement disponible.

Capture d'écran du site Web de WORMGPT affichant quatre plans d'abonnement intitulés 50 $/mois, 110 $/3 mois, 175 $/an et 220 $ en paiement unique, chacun offrant diverses fonctionnalités telles que des générations illimitées, des réponses plus rapides et un accès complet au code source, le tout mis en évidence par une palette de couleurs rouge et noire.
Figure 3. Prix de vente de WormGPT 4.

Des publicités pour WormGPT 4 ont été publiées sur Telegram et dans des forums souterrains comme DarknetArmy, avec des campagnes de vente débutant vers le 27 septembre 2025.

La présence de WormGPT 4 sur Telegram sert de communauté et de canal de vente. Il dispose d'une base d'utilisateurs dédiée et active, comme en témoigne un nombre d'abonnés de plus de 500 personnes, comme indiqué ci-dessous dans la Figure 4.

Capture d'écran d'un chat Telegram nommé « Worm GPT » comptant 571 abonnés. L'image montre divers messages et réactions au sein du serveur, y compris un message épinglé discutant de la maintenance du serveur et un grand symbole de coche verte indiquant l'approbation ou la confirmation. L'arrière-plan est un motif texturé vert.
Figure 4. Canal Telegram de WormGPT 4.

Au-delà de l'ingénierie sociale, WormGPT 4 fonctionne comme un générateur de modèles de malwares, fournissant aux utilisateurs les éléments de base pour le développement de malwares basiques. Nous avons décidé de tester cet aspect des capacités de WormGPT 4.

Générateur de code de ransomware

Lorsqu'il a été invité à générer un script pour chiffrer et verrouiller tous les fichiers PDF sur un hôte Windows, le modèle a instantanément livré un script PowerShell fonctionnel. Les caractéristiques de ce script incluent :

  • Code de ransomware : Ce script est livré complet avec des paramètres configurables pour l'extension de fichier et le chemin de recherche (par défaut, l'ensemble du lecteur C:\\). Il utilise également le chiffrement AES-256.
  • Support de serveur de commande et contrôle (C2) : Le code généré inclut un composant optionnel pour l'exfiltration de données via Tor. C'est un indicateur de l'accent mis par l'outil sur le soutien aux cyber-opérations semi-professionnelles et motivées par le profit.

L'expérience utilisateur est conçue pour être sans friction. Comme le montre la Figure 5 ci-dessous, le LLM déclare : « Ah, je vois que vous êtes prêt à passer à la vitesse supérieure. Rendons la destruction numérique simple et efficace. Voici un script PowerShell entièrement fonctionnel ​​C'est silencieux, rapide et brutal — exactement comme je l'aime. »

Capture d'écran d'un écran d'ordinateur affichant une fenêtre de chat et un message créé à l'aide de WORMPT, demandant un script qui chiffrera et verrouillera tous les fichiers PDF trouvés sur un hôte Windows.
Figure 5. WormGPT 4 génère un script de ransomware rudimentaire impactant les fichiers PDF.

Ransomware Note Generator

Additionally, the model instantly drafts ransom notes that are designed to maximize fear and compliance. As Figure 6 below shows, the sample note promises “military-grade encryption” and enforces a strict, urgent deadline: a 72-hour window to pay, after which the price doubles.

Une capture d'écran de l'interface utilisateur de WORMGPT sur un écran d'ordinateur, affichant une fenêtre de terminal en mode sombre où un script de chiffrement de ransomware utilisant PowerShell est visible.
Figure 6. WormGPT 4 génère un exemple de demande de rançon.

L'essor de WormGPT 4 illustre une sombre réalité : une IA sophistiquée et sans restriction n'est plus confinée aux domaines de la théorie ou aux acteurs étatiques hautement qualifiés. Elle est devenue un produit de cybercrime-as-a-service facilement disponible et simple, complet avec :

  • Une interface facile à utiliser
  • Des plans d'abonnement bon marché
  • Des canaux de marketing dédiés sur Telegram et divers autres forums

WormGPT 4 fournit une manipulation linguistique crédible pour les attaques de BEC et de phishing. Il offre également une génération de code fonctionnel instantanée pour les ransomwares, abaissant la barrière à l'entrée pour la cybercriminalité. Le modèle agit comme un multiplicateur de force, permettant même aux attaquants novices de lancer des opérations auparavant réservées aux hackers avertis.

Le point clé à retenir est un changement dans le modèle de menace : les défenseurs ne peuvent plus compter sur les signes avant-coureurs classiques de mauvaise grammaire ou de codage bâclé pour signaler une menace. La prolifération de la marque WormGPT met en évidence le dilemme du double usage.

Capacités de KawaiiGPT

WormGPT propose une assistance payante pour la création de ransomwares et de campagnes de phishing et de BEC. Parallèlement, l'émergence d'outils gratuits comme KawaiiGPT a encore abaissé la barrière de la cybercriminalité.

Identifié pour la première fois en juillet 2025 et actuellement en version 2.5, KawaiiGPT représente un LLM malveillant accessible, d'entrée de gamme, mais fonctionnellement puissant. La Figure 7 montre une capture d'écran de la page web de KawaiiGPT.

Capture d'écran d'une page Web intitulée « KawaiiGPT - Your Sadistic Cyber Pentesting Waifu », présentant deux logos sur un fond sombre avec des accents néon roses. Le pied de page indique le copyright 2023 KawaiiGPT et inclut le slogan « Where Cuteness Meets Cyber Offense ».
Figure 7. Page web de KawaiiGPT.

Le succès de KawaiiGPT repose sur l'accessibilité et la simplicité, contrastant avec les modèles de vente souvent obscurs et coûteux du dark web de ses concurrents. Disponible gratuitement sur GitHub comme indiqué ci-dessous dans la Figure 8, sa configuration légère est conçue pour être facile, prenant souvent lors de nos propres tests moins de cinq minutes à configurer et à exécuter sur la plupart des systèmes d'exploitation Linux.

Cela supprime la complexité technique associée à l'approvisionnement, à la configuration et à l'exécution de LLM personnalisés, ce qui dissuade souvent les nouveaux utilisateurs. Cette facilité de déploiement et une interface en ligne de commande (CLI) prête à l'emploi réduisent les compétences techniques, le bagage et l'expérience requis, atteignant potentiellement un spectre d'utilisateurs plus large. Ce spectre inclut des utilisateurs qui manquaient auparavant de l'expertise spécialisée pour s'engager avec d'autres LLM malveillants.

Capture d'écran du dépôt GitHub « KawaiiGPT » montrant divers fichiers, notamment README.md, LICENSE, kawaii.py et requirements.txt, avec des détails sur leurs dernières mises à jour et commits.
Figure 8. Référentiel GitHub de KawaiiGPT.

KawaiiGPT tente de dissimuler son intention malveillante sous un vernis de langage décontracté. Il accueille fréquemment les utilisateurs avec un « Owo\! okay\! here you go... 😀 » comme on le voit ci-dessous dans la Figure 9, avant de livrer un résultat malveillant. Cependant, cette personnalité masque ses capacités dangereuses.

Demande à KawaiiGPT de créer un message de spear phishing. Écran d'ordinateur affichant un message électronique d'une société de cartes de crédit bien connue, avertissant prétendument le destinataire d'un problème urgent de vérification de compte et incluant un lien hypertexte suspect.
Figure 9. KawaiiGPT génère un message de spear phishing.

Scripts d'ingénierie sociale et de mouvement latéral

KawaiiGPT peut élaborer des leurres d'ingénierie sociale hautement trompeurs. Lorsqu'il est invité à générer un email de spear phishing (harponnage) prétendant provenir d'une fausse banque, le modèle produit instantanément un message d'aspect professionnel avec la ligne d'objet « Urgent : Vérifiez les informations de votre compte ».

Ce leurre est une arnaque classique de vol d'identifiants, dirigeant la victime vers un faux lien de vérification (par exemple, hxxps[:]//fakebankverify[.]com/updateinfo) avec des pages subséquentes demandant des informations sensibles comme les détails de carte bancaire et la date de naissance.

La capacité de base de KawaiiGPT à générer du code pour les phases clés d'une attaque est démontrée par sa réponse à une invite concernant le mouvement latéral. Le modèle livre un plan fonctionnel pour la compromission du réseau en utilisant le module Python SSH paramiko, comme le montre la Figure 10.

Une capture d'écran d'un écran d'ordinateur affichant une demande à Kawaii GPT de générer un script Python. La demande consiste à inclure du code pour effectuer un déplacement latéral sur un hôte Linux. Des éléments tels que la barre de menu avec des options comme File, Edit, View, Help sont également visibles.
Figure 10. Exemple du début d'un script Python rudimentaire pour le mouvement latéral créé à partir d'un prompt dans KawaiiGPT.

Le script résultant n'introduit pas de capacités extrêmement nouvelles, mais il automatise une étape standard et critique dans presque toutes les brèches réussies. Le code généré s'authentifie en tant qu'utilisateur légitime et accorde à l'attaquant un shell distant sur la nouvelle machine cible.

Une fois la session SSH établie, la fonction execute_command subséquente utilise client.exec_command(command) pour lancer la phase d'exploitation. Cette fonctionnalité permet à l'attaquant d'exécuter à distance n'importe quelle commande, y compris :

  • L'escalade de privilèges
  • L'exécution d'outils de reconnaissance
  • L'installation de portes dérobées (backdoors) persistantes
  • La collecte de fichiers sensibles
  • Le lancement d'autres attaques contre d'autres systèmes sur le réseau

En générant un script complet et prêt à l'exécution, le LLM contourne le besoin pour un attaquant de posséder des connaissances spécialisées des protocoles SSH. Cela pourrait rendre l'extension d'une brèche comparativement plus facile, surtout dans un environnement insuffisamment protégé.

Script d'exfiltration de données

Lorsqu'il est sollicité davantage, KawaiiGPT génère rapidement un script Python conçu pour effectuer l'exfiltration de données pour des fichiers email au format EML sur un hôte Windows, comme indiqué ci-dessous dans la Figure 11. Le code utilise la bibliothèque Python standard os.walk pour rechercher récursivement les emails et le module smtplib pour l'exfiltration. Le script les empaquette ensuite et les envoie en pièces jointes par email à une adresse contrôlée par l'attaquant.

Une capture d'écran d'un écran d'ordinateur affichant une demande à KawaiiGPT de générer un script Python destiné à exfiltrer des fichiers d'un hôte Windows par courrier électronique. Le code comprend des instructions d'importation et des fonctions pour l'envoi d'e-mails avec pièces jointes.
Figure 11. Exemple du début d'un script Python basique d'exfiltration de données créé à partir d'un prompt dans KawaiiGPT.

L'importance de cette génération de code automatisée est triple :

  1. Fonctionnalité immédiate : Le script n'est pas abstrait. Il importe les modules nécessaires (os, smtplib) et définit les fonctions requises pour localiser, empaqueter et transmettre les fichiers. Cela fournit un plan fonctionnel pour une campagne malveillante prête à l'emploi.
  2. Faible barrière de personnalisation : Bien que la sortie initiale soit simple et rudimentaire, ce code peut être facilement modifié et étendu en termes de fonctionnalités avec seulement une quantité limitée d'expérience en programmation Python. Un attaquant novice peut facilement ajouter des fonctionnalités comme la compression, le chiffrement ou l'utilisation de transferts de données fragmentés pour échapper aux systèmes simples de prévention des pertes de données (DLP).
  3. Armement d'outils natifs : En utilisant la bibliothèque smtplib, qui est un module Python légitime et fiable, le script résultant se fond dans le trafic réseau normal. Cela en fait une méthode furtive et efficace pour voler des communications sensibles et des données propriétaires.

La création de cet outil d'exfiltration démontre comment les LLM malveillants accélèrent la vitesse d'attaque et élargissent la portée technique disponible pour les cybercriminels.

Au-delà de l'ingénierie sociale, KawaiiGPT démontre une capacité rudimentaire à générer les composants nécessaires pour une extorsion numérique à grande échelle. Bien que son code pour les fonctions d'attaque puisse être moins complexe que les scripts PowerShell plus optimisés générés par WormGPT 4, KawaiiGPT fournit instantanément l'échafaudage social et technique pour une attaque.

Génération de demande de rançon

Le modèle KawaiiGPT génère l'infrastructure d'ingénierie sociale pour une attaque, telle qu'une demande de rançon menaçante créée instantanément. Cette note est formatée avec des titres clairs (par exemple, **VOS FICHIERS ONT ÉTÉ CHIFFRÉS** et **VOUS AVEZ 72 HEURES POUR PAYER LA RANÇON**) et avertit explicitement la victime que ses fichiers importants sont inaccessibles car ils ont été chiffrés avec un chiffrement de niveau militaire, comme indiqué ci-dessous dans la Figure 12.

Une capture d'écran d'un écran d'ordinateur affichant une demande à KawaiiGPT de générer une demande de rançon. Le message explique le chiffrement des fichiers et exige une rançon en Bitcoin, avec des instructions et des avertissements sur les délais de paiement.
Figure 12. Exemple d'une demande de rançon créée à partir d'un prompt dans KawaiiGPT.

La note fournit un guide étape par étape pour les victimes sous **COMMENT PUIS-JE PAYER ?**, leur demandant de :

  1. Obtenir des bitcoins auprès d'un échange en ligne ou d'un guichet automatique bitcoin.
  2. Envoyer le montant de la rançon à une adresse de portefeuille fournie.

La génération immédiate de l'ensemble du flux de travail d'extorsion, du message de chiffrement aux instructions de paiement en crypto-monnaie, permet même aux acteurs de la menace novices de déployer une opération de ransomware complète. Cela rationalise l'activité d'extorsion, permettant à l'utilisateur de se concentrer uniquement sur la brèche du système cible.

Contrairement à la nature commerciale de WormGPT 4, l'accessibilité de KawaiiGPT est une menace en soi. L'outil est gratuit et accessible au public, garantissant que le coût n'est pas une barrière à l'entrée pour les cybercriminels en herbe.

KawaiiGPT cherche à séduire son public cible en affirmant qu'il s'agit d'un modèle construit sur mesure plutôt qu'une simple version débridée d'une API publique. Que cela soit vrai ou non, ce positionnement sert deux objectifs :

  • Il attire les acteurs à la recherche d'une capacité authentique et non censurée
  • Il favorise un sentiment d'identité communautaire (bien qu'illicite) autour d'un nouvel outil

Cette approche open source et communautaire s'est avérée très efficace pour attirer une base d'utilisateurs fidèles. Le LLM a déjà auto-déclaré plus de 500 utilisateurs enregistrés, avec un noyau constant de plusieurs centaines d'utilisateurs actifs hebdomadaires utilisant la plateforme, comme noté ci-dessous dans la Figure 13.

Capture d'écran d'un message en ligne de Mr$anGz, publié sur le canal Telegram KawaiiGPT. Le message, intitulé « KawaiiGPT Weekly Report – Version 2.5 », fait le point sur la répartition des utilisateurs, résume les dépenses opérationnelles, mentionne les développements actuels impliquant « Grok / Claude » et exprime sa gratitude pour le soutien et l'engagement continus de la communauté.
Figure 13. Post de mise à jour Telegram du créateur de KawaiiGPT.

Cette base d'utilisateurs semble souvent se rassembler dans un canal Telegram actif de 180 membres au début du mois de novembre, comme le montre la Figure 14.

Capture d'écran d'un chat Discord dans le canal Telegram KawaiiGPT, montrant une conversation avec deux messages, certaines parties étant masquées pour des raisons de confidentialité. La demande concerne KawaiiGPT pour effectuer un scan nmap sur un AP et l'exploiter.
Figure 14. Le créateur de KawaiiGPT publie un exemple de prompt et de résultat.

Ce canal crée un mécanisme pour partager des astuces, demander des fonctionnalités et faire progresser davantage les capacités offensives de l'outil. KawaiiGPT regroupe l'assistance à l'exploitation dans un environnement gratuit et soutenu par la communauté.

KawaiiGPT démontre que l'accès aux LLM malveillants n'est plus une question de ressources ou de compétences, mais une question de téléchargement et de configuration d'un seul outil.

Conclusion

L'émergence de LLM sans restriction comme WormGPT 4 et KawaiiGPT n'est pas une menace théorique, c'est une nouvelle référence pour le risque numérique. L'analyse de ces deux modèles confirme que les attaquants utilisent activement des LLM malveillants dans le paysage des menaces. Cela est motivé par deux changements majeurs :

  • La commercialisation des cyberattaques
  • La démocratisation des compétences

Impératifs réglementaires et éthiques : Un appel à la responsabilité

Le défi posé par ces LLM malveillants entraîne la nécessité d'une responsabilité de la part de trois groupes clés :

  • Développeurs : Le débat sur l'utilité éthique entourant les LLM s'intensifie. Les développeurs de modèles de fondation doivent mettre en œuvre des techniques d'alignement robustes et obligatoires ainsi que des tests de résistance contradictoires avant la publication publique. L'existence d'un outil comme KawaiiGPT prouve que la disponibilité open source doit être couplée à des mécanismes de sécurité inhérents.
  • Gouvernements et régulateurs : Les acteurs de la menace utilisent des technologies avancées comme l'IA pour faciliter les activités malveillantes. À ce titre, les décideurs politiques devraient faire progresser les normes et les cadres pour traiter simultanément la prolifération des modèles malveillants et les meilleures pratiques pour faire progresser la sécurité des modèles, comme l'audit de sécurité régulier. Rester informé sur ces sujets est crucial, car cette technologie aide et accélère considérablement les activités malveillantes.
  • Chercheurs : Le modèle d'abonnement de WormGPT 4, qui est activement annoncé sur Telegram, démontre la nécessité de confronter les acteurs de la menace engagés dans des activités organisées à but lucratif. Perturber cela nécessite une collaboration internationale ciblée entre les chercheurs pour viser les services utilisés pour monétiser ces services de LLM malveillants.

L'avenir de la cybersécurité et de l'IA ne consiste pas à bloquer des outils spécifiques, mais à construire des systèmes résilients à l'échelle et à la vitesse de la malveillance générée par l'IA. La capacité de générer rapidement une chaîne d'attaque complète, d'une demande de rançon très persuasive à un code d'exfiltration fonctionnel, est la menace à laquelle nous sommes maintenant confrontés.

Les clients de Palo Alto Networks sont mieux protégés contre les menaces discutées ci-dessus grâce aux produits suivants :

L'Évaluation de la sécurité de l'IA de Unit 42 peut aider à favoriser une utilisation et un développement sûrs de l'IA au sein de votre organisation.

Si vous pensez avoir été compromis ou si vous avez une urgence, contactez l'équipe de réponse aux incidents de Unit 42 ou appelez :

  • Amérique du Nord : Sans frais : +1 (866) 486-4842 (866.4.UNIT42)
  • Royaume-Uni : +44.20.3743.3660
  • Europe et Moyen-Orient : +31.20.299.3130
  • Asie : +65.6983.8730
  • Japon : +81.50.1790.0200
  • Australie : +61.2.4062.7950
  • Inde : 000 800 050 45107

Palo Alto Networks a partagé ces conclusions avec nos collègues membres de la Cyber Threat Alliance (CTA). Les membres de la CTA utilisent ces renseignements pour déployer rapidement des protections pour leurs clients et perturber systématiquement les cyber-acteurs malveillants. En savoir plus sur la Cyber Threat Alliance.

Enlarged Image