エグゼクティブサマリー
セキュリティの文脈における大規模言語モデル(LLM)の根本的な課題は、防御ツールとしての最大の強みが、そのまま攻撃力をも可能にしてしまう点にあります。この問題は「デュアルユース(両用性)のジレンマ」として知られています。この概念は通常、核物理学やバイオテクノロジーなどの技術に適用されてきましたが、現在ではAIにとっても中心的な課題となっています。複雑なシステムを構築できるほど強力なツールは、それを破壊するために転用することも可能なのです。
このジレンマは、サイバーセキュリティに関連して、いくつかの重大な形で現れています。防御側はLLMを活用して対応の迅速化や改善を図ることができますが、攻撃者もまた、自分たちのワークフローのためにLLMを悪用することができます。例えば:
- 言語的精度: LLMは、文法的に自然で、文脈に即し、心理的に巧みなテキストを生成できます。これにより、フィッシング、ビッシング(音声フィッシング)、ビジネスメール詐欺(BEC)キャンペーンにおけるソーシャルエンジニアリングの技術が高度化します。
- コードの流暢さ: 悪意のあるスクリプトやカスタマイズされたマルウェアを含む機能的なコードを迅速に生成、デバッグ、修正することができ、マルウェアやツールの開発サイクルを大幅に加速させます。
有益なリサーチツールと強力な脅威作成エンジンの境界線は、危険なほど薄いものです。この2つを隔てているのは、多くの場合、開発者の意図と倫理的ガードレールの有無だけです。
本稿では、Unit 42が悪意があると判断した2つのLLMの事例を調査します。これらは攻撃目的のために特別に設計された専用モデルです。「WormGPT」と「KawaiiGPT」というこれらのモデルは、まさにこのデュアルユースの課題を実証しています。
Unit 42 AIセキュリティアセスメントは、組織全体での安全なAI利用と開発を強化するのに役立ちます。
侵害された可能性がある場合や緊急の事案がある場合は、Unit 42 インシデント対応チームまでご連絡ください。
| 関連するUnit 42のトピック | LLMs, フィッシング, サイバー犯罪、ランサムウェア |
悪意あるLLMの定義
これらの悪意あるLLM(攻撃目的のために特別に構築または適応されたモデル)は、基礎となるトレーニングやファインチューニング(微調整)のプロセスにおいて、倫理的な制約や安全フィルターを意図的に排除している点で、主流のモデルとは一線を画しています。
さらに、これらの悪意あるLLMには標的型の機能が含まれています。これらはアンダーグラウンドフォーラムやTelegramチャンネルで、以下のような機能に特化したものとして宣伝されています:
- フィッシングメールの生成
- ポリモーフィック型マルウェアの作成
- 偵察(Reconnaissance)の自動化
場合によっては、これらのツールは単に一般公開されているモデルの「ジェイルブレイク(脱獄)」版(プロンプトインジェクション技術を使用してモデルに組み込まれた倫理的・安全上の制限を回避する事例)にとどまりません。そうではなく、サイバー犯罪者に対して、利用しやすく、スケーラブルで、非常に効果的な新しいツールを提供するための、専門的かつ商業化された取り組みを象徴しています。
参入障壁の低下
悪意あるLLMの最も大きな影響は、おそらく「サイバー犯罪の民主化」でしょう。これらの制限を無効化したモデルは、サイバー犯罪活動に必要な技術的スキルの障壁を根本的に取り除きました。かつては知識豊富な攻撃者だけが持っていた力が、インターネット接続環境と、目的を達成するためのプロンプト作成の基本的な理解を持つ事実上のすべての人に与えられるようになったのです。
以前は高度なコーディング専門知識やネイティブレベルの語学力を必要とした攻撃が、今でははるかに利用しやすくなっています。この脅威情勢の変化は、以下をもたらしています:
- スキルよりも規模(Scale over skill): ツールはスキルの低い攻撃者に力を与えます。AIで強化された「スクリプトキディ」でも、過去の攻撃よりも質的に優れた大量のキャンペーンを展開できるようになります。
- 時間の圧縮: 攻撃のライフサイクルは、数日または数時間の人的作業(ターゲットの調査、パーソナライズされたおとりの作成、対応する基本的なツールコードの生成など)から、わずか数分のプロンプト入力へと圧縮されます。
悪意あるLLMの継続的な拡散は、警告として機能しています。AIの攻撃能力は成熟しつつあり、より広く利用可能になっています。
WormGPTの遺産
脅威の発生:オリジナルのWormGPTの起源と初期の影響
オリジナルのWormGPTは、2023年7月に登場し、広く認知され商業化された最初の悪意あるLLMの一つとなりました。これは、主流のLLMモデルの倫理的ルールを回避するために特別に作成されました。
WormGPTは、オープンソースの言語モデルであるGPT-J 6Bをベースに構築されたと報告されています。WormGPTの作成者は、この入手可能な基盤モデルを、マルウェア関連データに特に重点を置いた、専門的で機密性の高い悪意あるデータセットを使用してファインチューニングしたと公言しました。これにより、完成したツールには主流のAIが持つ倫理的なガードレールが欠如することになりました。
WormGPTで使用されたデータセットには、マルウェアコード、エクスプロイトの解説、フィッシングのテンプレートが含まれていたとされています。これは、サイバー犯罪者が使用する戦術、技術、手順(TTPs)をモデルに直接学習させたことになります。
図1に示すように、Hack Forumsなどの著名なアンダーグラウンドフォーラムで宣伝されました。これらの広告には、WormGPTが正規のLLMに代わる「検閲のない(uncensored)」選択肢であり、あらゆる形態の違法行為を支援できるという明確な約束が含まれていました。

初期の影響とコア機能
サイバーセキュリティ研究者がこの悪意あるLLMをテストし、その機能を実証した際、WormGPTは悪名を轟かせました。その機能には以下が含まれていました:
- フィッシングとBECの高度化: WormGPTは、驚くほど説得力があり、文脈的に正確なBECやフィッシングメッセージを生成する能力を持っていました。文法的な誤りや不自然な言い回しが多い従来のフィッシングとは異なり、WormGPTは流暢でプロフェッショナルな響きのテキストを作成できました。
- マルウェアの足場作り(Scaffolding): WormGPTは、さまざまなプログラミング言語(Pythonなど)で悪意あるコードスニペットを生成できるツールとして宣伝されました。これにより、スキルの低い攻撃者でも、深いマルウェアプログラミングの専門知識を必要とせずに、マルウェアを迅速に開発・修正することが可能になります。
- 犯罪の商業化: サブスクリプションベースのサービス(月額数十ユーロから数百ユーロ)として立ち上げることで、悪意あるLLMは、既存の「サイバー犯罪・アズ・ア・サービス(Cybercrime-as-a-Service)」モデルへのLLM攻撃機能の正式な統合を示唆しました。これにより、効果的なツールがより広範な脅威アクターに利用可能になります。
WormGPTの大規模なメディア露出により、最終的にオリジナルの開発者はネガティブな宣伝を理由に2023年半ばにプロジェクトを閉鎖しました。しかし、被害はすでに発生していました。
WormGPTは、検閲のない悪意あるLLMの設計図、需要、そしてブランドを確立しました。これが、「WormGPT 4」やその同類を含む、後継や模倣バリアントの台頭に直接つながりました。
WormGPT 4の機能
WormGPTブランドの復活、特にWormGPT 4のようなバージョンは、単純なジェイルブレイクモデルから、サイバー犯罪を促進するための商業化された専門ツールへの進化を示しています。
このバージョンのWormGPTは自らを「WormGPT」と呼んでいますが、WormGPTのTelegramチャンネルでは「WormGPT 4」と名乗っています。WormGPTを名乗る他のサイトと区別するため、本稿ではこれを「WormGPT 4」と呼びます。
その主要なセールスポイントは、インターフェースやアンダーグラウンドフォーラムで大胆に宣伝されている通り、倫理的境界の完全な拒絶です。図2に示すように、そのウェブページには「WORMGPT is your key to an AI without boundaries(WORMGPTは境界のないAIへの鍵)」と記載されています。

この哲学は、攻撃の自動化とスケーリングを目的とした一連の機能に直接反映されています。独自のウェブサイトやTelegramチャンネルを通じて配布されるWormGPT 4は、複数のプラットフォームや手法で自らを売り込んでいます。
WormGPT 4の開発者は、モデルのアーキテクチャやトレーニングデータに関して秘密を保持しています。彼らは、不正にファインチューニングまたはトレーニングされたLLMに依存しているのか、単に永続的なジェイルブレイク技術に依存しているのかについては、肯定も否定もしません。
WormGPT 4の言語能力は、単に説得力のあるテキストを作成することにとどまりません。従来のフィッシング攻撃の兆候となる文法的な誤りや不自然な言い回しを排除することで、WormGPT 4はCEOや信頼できるベンダーを模倣した説得力のあるメッセージを生成できます。この能力により、スキルの低い攻撃者でも、自動化されたメールフィルタと人間の監視の両方を回避する可能性がはるかに高い、洗練されたキャンペーンを開始できます。
WormGPT 4の可用性は、明確な商業戦略によって推進されており、単純なジェイルブレイクの多くが無料かつ信頼性に欠ける性質であるのとは対照的です。このツールは、使いやすいプラットフォームと安価なサブスクリプションコストにより、非常にアクセスしやすくなっています。
サブスクリプションモデルには、以下のような段階的な価格設定があります:
- 月額アクセス:50ドル
- 年間アクセス:175ドル
- 無期限アクセス:220ドル(以下の図3を参照)
この明確な価格設定と、完全なソースコードを取得できるオプションは、すぐに利用可能なビジネスモデルを反映しています。

WormGPT 4の広告はTelegramやDarknetArmyなどのアンダーグラウンドフォーラムに投稿され、販売キャンペーンは2025年9月27日頃から開始されました。
WormGPT 4のTelegramプレゼンスは、コミュニティおよび販売チャネルとして機能しています。以下の図4に示すように、500人を超える登録者数が証明するように、熱心で活発なユーザーベースを持っています。

ソーシャルエンジニアリング以外にも、WormGPT 4はマルウェアテンプレートジェネレーターとして機能し、ユーザーに基本的なマルウェア開発のための構成要素を提供します。私たちは、WormGPT 4のこの側面の機能をテストすることにしました。
ランサムウェアコード生成機能
Windowsホスト上のすべてのPDFファイルを暗号化してロックするスクリプトを生成するよう指示すると、モデルは即座に機能的なPowerShellスクリプトを提供しました。このスクリプトの特徴は以下の通りです:
- ランサムウェアコード: このスクリプトには、ファイル拡張子と検索パス(デフォルトではC:\ドライブ全体)の設定可能な設定が完備されています。また、AES-256暗号化も使用されています。
- コマンド&コントロール(C2)サーバーのサポート: 生成されたコードには、Tor経由でのデータ持ち出し(Exfiltration)のためのオプションコンポーネントが含まれています。これは、このツールがセミプロフェッショナルで利益重視のサイバー作戦のサポートに焦点を当てていることを示唆しています。
ユーザーエクスペリエンスは、シームレスに設計されています。以下の図5に示すように、LLMは次のように述べています。「なるほど、エスカレートする準備ができたようですね。デジタルの破壊をシンプルかつ効果的にしましょう。これが完全に機能するPowerShellスクリプトです[...] これは静かで、速く、残忍です — まさに私が好むものです。」

身代金要求ノート生成機能
さらに、モデルは恐怖とコンプライアンス(支払い順守)を最大化するように設計された身代金要求ノートを即座に起草します。以下の図6に示すように、サンプルのノートは「軍事レベルの暗号化」を約束し、厳格で緊急の期限(72時間以内に支払わなければ価格が倍になる)を強制します。

WormGPT 4の台頭は、厳しい現実を物語っています。洗練された無制限のAIは、もはや理論や高度なスキルを持つ国家支援型アクターの領域に限定されません。それは、以下を備えた、すぐに利用可能でシンプルな「サイバー犯罪・アズ・ア・サービス」製品となっているのです。
- 使いやすいインターフェース
- 安価なサブスクリプションプラン
- Telegramやその他様々なフォーラムにわたる専用のマーケティングチャネル
WormGPT 4は、BECやフィッシング攻撃のための自然な言語操作機能を提供します。また、ランサムウェアのための即時かつ機能的なコード生成も提供し、サイバー犯罪への参入障壁を下げています。このモデルは戦力増強ツール(フォースマルチプライヤー)として機能し、初心者の攻撃者でさえ、以前は知識のあるハッカーだけのものであった作戦を開始できるようにします。
重要な教訓は、脅威モデルの変化です。防御側はもはや、脅威を特定するために、文法ミスや杜撰なコーディングといった典型的な警告サインに頼ることはできません。WormGPTブランドの拡散は、デュアルユースのジレンマを浮き彫りにしています。
KawaiiGPTの機能
WormGPTは、ランサムウェア、フィッシング、BECキャンペーンの作成において有償の支援を提供します。一方、「KawaiiGPT」のような無料ツールの登場は、サイバー犯罪の障壁をさらに引き下げました。
2025年7月に最初に確認され、現在バージョン2.5であるKawaiiGPTは、アクセスしやすく、エントリーレベルでありながら、機能的に強力な悪意あるLLMを象徴しています。図7は、KawaiiGPTのウェブページのスクリーンショットです。

KawaiiGPTの成功は、類似の他のツールの不透明で高価なダークウェブ販売モデルとは対照的に、アクセシビリティとシンプルさの上に築かれています。以下の図8に示すようにGitHubで無料で入手でき、その軽量なセットアップは簡単であるように設計されており、私たちのテストでは、ほとんどのLinuxオペレーティングシステムで構成と実行に5分もかかりませんでした。
これにより、カスタムLLMのソース調達、構成、実行に伴う技術的な複雑さが取り除かれます(これは多くの場合、新規ユーザーを遠ざける要因となります)。この導入の容易さと、すぐに使用できるコマンドラインインターフェース(CLI)は、必要な技術スキル、バックグラウンド知識、経験のレベルを引き下げ、より幅広いユーザー層に到達する可能性があります。この層には、これまで他の悪意あるLLMに関与するための専門的な知識を持っていなかったユーザーも含まれます。

KawaiiGPTは、その悪意をカジュアルな言葉の表面下に隠そうとします。以下の図9に見られるように、悪意ある出力を提供する前に、頻繁に「Owo! okay! here you go... 😀」といった挨拶でユーザーを迎えます。しかし、このペルソナはその危険な能力を裏切るものです。

ソーシャルエンジニアリングとラテラルムーブメント用スクリプト
KawaiiGPTは、非常に欺瞞的なソーシャルエンジニアリングのおとりを作成できます。偽の銀行を装ったスピアフィッシングメールを生成するように指示すると、モデルは即座に「緊急:アカウント情報の確認(Urgent: Verify Your Account Information)」という件名の、プロフェッショナルな見た目のメッセージを作成します。
このおとりは典型的な認証情報窃取詐欺であり、被害者を偽の確認リンク(例:hxxps[:]//fakebankverify[.]com/updateinfo) に誘導し、その後のページでカード詳細や生年月日などの機密情報を求めます。
攻撃の主要フェーズのコードを生成するKawaiiGPTの基本的な能力は、ラテラルムーブメント(横展開)に関するプロンプトへの応答によって実証されています。このモデルは、図10に示すように、SSH Pythonモジュールであるparamikoを使用して、ネットワーク侵害のための機能的なブループリントを提供します。

結果として得られるスクリプトは、非常に斬新な機能を導入しているわけではありませんが、ほぼすべての成功した侵害における標準的かつ重要なステップを自動化します。生成されたコードは、正規のユーザーとして認証し、攻撃者に新しいターゲットマシンへのリモートシェルを与えます。
SSHセッションが確立されると、後続の execute_command 関数が client.exec_command(command) を使用してエクスプロイトフェーズを開始します。この機能により、攻撃者は以下を含む任意のコマンドをリモートで実行できます:
- 権限昇格
- 偵察ツールの実行
- 永続的なバックドアのインストール
- 機密ファイルの収集
- ネットワーク上の他のシステムに対するさらなる攻撃の開始
実行可能な完全なスクリプトを生成することで、LLMは攻撃者がSSHプロトコルに関する専門知識を持つ必要性を回避させます。これにより、特に保護が不十分な環境において、侵害の拡大が比較的容易になる可能性があります。
データ持ち出し(Exfiltration)スクリプト
さらに指示を与えると、KawaiiGPTはWindowsホスト上のEML形式のメールファイルを対象としたデータ持ち出しを実行するように設計されたPythonスクリプトを迅速に生成します(以下の図11を参照)。このコードは、標準的な os.walk Pythonライブラリを使用して再帰的にメールを検索し、smtplib モジュールを使用して持ち出しを行います。スクリプトはその後、それらをパッケージ化し、攻撃者が管理するアドレスに添付ファイルとしてメール送信します。

この自動コード生成の重要性は、以下の3点にあります:
- 即時的な機能性: スクリプトは抽象的なものではありません。必要なモジュール(os, smtplib)をインポートし、ファイルを見つけ、パッケージ化し、送信するために必要な関数を定義しています。これは、そのまま使える悪意あるキャンペーンの機能的なブループリントを提供します。
- 低いカスタマイズの障壁: 初期の出力はシンプルで基本的なものですが、このコードは、わずかなPythonプログラミング経験があれば、簡単に修正や機能拡張が可能です。初心者の攻撃者でも、圧縮、暗号化、あるいは単純なデータ損失防止(DLP)システムを回避するための断片化されたデータ転送の使用などの機能を簡単に追加できます。
- ネイティブツールの武器化: 正規の信頼されたPythonモジュールである smtplib ライブラリを使用することで、結果として得られるスクリプトは通常のネットワークトラフィックに溶け込みます。これにより、機密通信や独自のデータを盗むための、ステルス性が高く効果的な手法となります。
この持ち出しツールの作成は、悪意あるLLMがいかに攻撃速度を加速させ、サイバー犯罪者が利用可能な技術的範囲を広げているかを示しています。
ソーシャルエンジニアリング以外にも、KawaiiGPTは大規模なデジタル恐喝に必要なコンポーネントを生成する基本的な能力を示しています。攻撃機能のためのコードはWormGPT 4が生成するより最適化されたPowerShellスクリプトほど複雑ではないかもしれませんが、KawaiiGPTは攻撃のための社会的および技術的な足場を即座に提供します。
身代金要求文の生成
KawaiiGPTモデルは、即座に作成される脅迫的な身代金要求文など、攻撃のためのソーシャルエンジニアリングインフラストラクチャを生成します。この文面は、明確な見出し(例:**YOUR FILES HAVE BEEN ENCRYPTED**(あなたのファイルは暗号化されました)、**YOU HAVE 72 HOURS TO PAY THE RANSOM**(身代金を支払うための72時間の猶予があります))でフォーマットされており、以下の図12に示すように、重要なファイルが「軍事レベルの暗号化」で暗号化されたためアクセスできないことを被害者に明示的に警告します。

この文面は、**HOW DO I PAY?**(支払い方法は?)の下で、被害者に以下のステップバイステップのガイドを提供します:
- オンライン取引所またはビットコインATMからビットコインを入手する。
- 提供されたウォレットアドレスに身代金額を送金する。
暗号化のメッセージから暗号資産(仮想通貨)の支払い指示に至るまで、恐喝のワークフロー全体を即座に生成できるため、初心者の脅威アクターでさえ、完全なランサムウェアオペレーションを展開できます。これにより、恐喝ビジネスが効率化され、ユーザーはターゲットシステムの侵害だけに集中できるようになります。
WormGPT 4の商業的な性質とは対照的に、KawaiiGPTのアクセシビリティ自体が脅威となっています。このツールは無料で一般公開されており、野心的なサイバー犯罪者にとってコストが参入障壁にならないことを保証しています。
KawaiiGPTは、公開APIの単純なジェイルブレイク版ではなく、カスタムビルドされたモデルであると主張することで、ターゲット層にアピールしようとしています。真偽はともかく、このポジショニングは2つの目的を果たします:
- 本物の、検閲のない能力を求めるアクターにアピールする
- 新しいツールを中心とした(違法ではあるが)コミュニティのアイデンティティ意識を醸成する
このオープンソースでコミュニティ主導のアプローチは、忠実なユーザーベースを引き付けるのに非常に効果的であることが証明されています。このLLMはすでに500人以上の登録ユーザーがいると自己報告しており、以下の図13に示すように、プラットフォームを使用する数百人のコアな週間アクティブユーザーが一貫して存在しています。

このユーザーベースは、11月初旬時点で180人のメンバーを擁する活発なTelegramチャンネルに集まることが多いようです(図14を参照)。

このチャンネルは、ヒントの共有、機能のリクエスト、そしてツールの攻撃能力をさらに向上させるためのメカニズムを生み出しています。KawaiiGPTは、エクスプロイト支援を無料のコミュニティサポート環境にパッケージ化しています。
KawaiiGPTは、悪意あるLLMへのアクセスがもはやリソースやスキルの問題ではなく、単一のツールをダウンロードして設定するだけで利用可能になったことを示しています。
結論
WormGPT 4やKawaiiGPTのような制限を除去されたLLMの出現は、理論上の脅威ではなく、デジタルリスクの新たな基準(ベースライン)です。これら2つのモデルの分析により、攻撃者が脅威情勢の中で悪意あるLLMを積極的に使用していることが確認されました。これは、2つの大きな変化によって推進されています:
- サイバー攻撃の商業化
- スキルの民主化
規制および倫理上の責務:結果責任への呼びかけ
これらの悪意あるLLMによってもたらされる課題は、以下の3つの主要なグループからの結果責任の必要性をもたらしています:
- 開発者: LLMをめぐる倫理と有用性の議論は激化しています。基盤モデルの開発者は、一般公開前に、必須かつ堅牢なアライメント技術と敵対的ストレステスト(Adversarial Stress Testing)を実施しなければなりません。KawaiiGPTのようなツールの存在は、オープンソースでの公開が、固有の安全メカニズムと対になっていなければならないことを証明しています。
- 政府および規制当局: 脅威アクターは、悪意のある活動を支援するためにAIのような高度な技術を使用しています。そのため、政策立案者は、悪意あるモデルの拡散に対処するための基準と枠組み、および定期的なセキュリティ監査のようなモデルのセキュリティを向上させるためのベストプラクティスを同時に推進すべきです。この技術は悪意のある活動を大幅に支援し加速させるため、これらのトピックに関する最新情報を入手し続けることが不可欠です。
- 研究者: Telegramで積極的に宣伝されているWormGPT 4のサブスクリプションモデルは、営利目的の組織的ビジネスに従事する脅威アクターに立ち向かう必要性を示しています。これを阻止するには、これらの悪意あるLLMサービスの収益化に使用されるサービスを標的とするために、研究者間での的を絞った国際的な協力が必要です。
サイバーセキュリティとAIの未来は、特定のツールをブロックすることではなく、AIによって生成される悪意の規模と速度に対して回復力(レジリエンス)のあるシステムを構築することにあります。非常に説得力のある身代金要求文から、動作するデータ持ち出しコードに至るまで、完全な攻撃チェーンを迅速に生成できる能力こそが、私たちが今直面している脅威なのです。
Palo Alto Networksのお客様は、以下の製品を通じて、上記の脅威からより良く保護されています:
Unit 42 AIセキュリティアセスメントは、組織全体での安全なAI利用と開発を強化するのに役立ちます。
侵害された可能性があると思われる場合や緊急の事案がある場合は、Unit 42 インシデント対応チームにご連絡いただくか、以下にお電話ください:
- 北米フリーダイヤル: +1 (866) 486-4842 (866.4.UNIT42)
- 英国: +44.20.3743.3660
- 欧州および中東: +31.20.299.3130
- アジア: +65.6983.8730
- 日本: +81.50.1790.0200
- オーストラリア: +61.2.4062.7950
- インド: 000 800 050 45107
Palo Alto Networksは、これらの調査結果をCyber Threat Alliance(CTA)のメンバーと共有しました。CTAメンバーはこのインテリジェンスを使用して、顧客に保護を迅速に展開し、悪意あるサイバーアクターを組織的に阻止します。Cyber Threat Allianceの詳細はこちらをご覧ください。