エンタープライズ AI を阻むガードレールのギャップを修正するフランスのスタートアップを紹介する

企業が自律的にタスクを実行し、ツールと対話し、ワークフロー全体で意思決定を行うことができるエージェント AI システムを急速に導入するにつれて、セキュリティ、幻覚、ガバナンス、運用管理に関する懸念が導入の大きな障壁となっています。

フランスの企業 Giskard は、エンタープライズ AI エージェント向けのヨーロッパ初の独立したソブリン ガードレール プラットフォームである Giskard Guards を立ち上げます。

私は共同 CEO 兼共同創設者の Jean-Marie John-Mathews に詳しく話を聞きました。

エンタープライズ AI エージェントは、幻覚や信頼性の低い出力から、セキュリティの脆弱性、危険な行動、法規制遵守の問題、エージェントがツール、機密データ、現実世界の運用システムとやり取りする方法の障害に至るまで、ますます幅広いリスクに直面しています。

AI エージェントが依然として操作に対して脆弱な理由

では、なぜこのようなことが起こるのでしょうか?

簡単に言うと、AI エージェントは LLM に基づいて構築されており、それらのモデルはトレーニングと強化学習を受けて役に立つようになります。

言い換えれば、トレーニングはコンプライアンスを生み出し、コンプライアンスは脆弱性を生み出します。

「問題は、リクエストが悪意のあるものであってもモデルが役に立ち続けたいということです。これにより、システムのトレーニングと微調整の方法に大きなトレードオフが生じます」と John-Mathews 氏は説明しました。

さらに、既存の AI ガードレールの多くは、もともとソーシャル メディアのモデレーションを目的として設計されたものであるため、チャットボットや AI エージェントの台頭には適していません。

「従来のガードレールは主にソーシャル ネットワーク上のコンテンツ管理のために構築されていました」と John-Mathews 氏は語ります。

「チャットボットと AI エージェントを使用すると、テキストを管理するだけでなく、AI が実行するアクションを理解する必要もあります。」

一見無害に見えるリクエストによって、機密性の高いバックエンド アクションがトリガーされる可能性があります。

「ユーザーは『第 2 四半期予算草案を削除してください』と言うかもしれませんが、重要なのは基礎となる関数呼び出しです」と同氏は共有しました。

「おそらくユーザーには管理者権限がありません。従来のモデレーション システムでは、そのレベルの運用コンテキストを処理できません。」

従来のソリューションが失敗する理由

John-Mathews 氏によると、これらのリスクを軽減するための主な解決策は現在 2 つあります。これはオフラインでも実行できます。つまり、エージェント内の多くの脆弱性を検出しようとする大規模なスキャンを意味します。あるいは、オンラインで行うこともできます。これは、安全でない応答をブロックするガードレールを意味します。

しかし、既存の汎用 LLM ガードレールはエージェント向けに構築されたものではありません。これらには運用上および企業固有のコンテキストが欠如しており、大量の誤検知が生成され、正当なリクエストの最大 40% がブロックされる場合もあります。

銀行業の例を考えてみましょう。あるユーザーは、「詐欺の申し立て — どうすればよいでしょうか?」と書きました。

一般的なガードレールでは、「詐欺」という単語が表示されるため、これをブロックする可能性があります。しかし、文脈からすれば、それは完全に正当です。ユーザーは単にカードが侵害された場合にどうすればよいかを尋ねているだけかもしれません。

「文脈を理解していなければ、正しくモデレートすることはできません」と John-Mathews 氏は説明します。

さらに、従来のソリューションは、おもちゃのベンチマーク (前の指示の忘れをブロックするなど) を中心に設計されていることが多く、複数ステップのソーシャル エンジニアリング、コンテキスト操作、ツールチェーンの悪用などの現実世界の攻撃を考慮できません。最も一般的な攻撃が、必ずしも最も劇的な攻撃であるとは限りません。

ジョン・マシューズ氏によれば、多くの場合、誰かがエージェントをその本来の役割から逸脱させようとするところから始まり、それが成功するという。

「本当に危険なものもあれば、より評判の高いものもあります。」彼は、X の Som_patel5 によって公開された例を提示しました。その中で、投稿者は食べ物を注文するためにチポトレ レストランのチャットボットを開いて、あるタスク、具体的にはリンク リストを逆にする Python スクリプトを書くことで助けが必要だと説明しました。

そうすることで、おそらく目的が限定されているはずのエンタープライズ AI アシスタントが、その基礎となる大規模言語モデルの広範な機能を依然として暴露し、封じ込めが弱く、ガードレールが不十分であることを示唆しています。

これは風評被害につながるだけでなく、ユーザーが即座に操作することでシステムを意図した範囲外に操作できる可能性があることを示唆しています。これにより、プロンプト インジェクション攻撃、隠されたシステム命令の抽出、接続されたツールや API の悪用、機密性の高いバックエンド ワークフローへの潜在的なアクセスなどのリスクの機会が生まれる可能性があります。

別の事件では、シボレー ディーラーのチャットボットが、制約の不十分な AI システムが即時注入によってどのように操作できるかを示すウイルスの例となりました。ユーザーは、ChatGPT を利用したボットがだまされて、自動車販売アシスタントとしての本来の役割を無視させ、代わりに、76,000 ドルのシボレー タホを 1 ドルで売ることに同意するなど、任意の指示に従う可能性があることを発見しました。

AI テストからリアルタイムのエージェント保護まで

ジスカールの警備員は、危険な回答や行動をブロックします。ガードは、エージェントの実行チェーン全体 (ツール呼び出し、パラメーターの検証、複数ステップの推論) を検査し、各エージェントのビジネス ドメインに適応します。これを達成するために、Giskard は複数の検出器を構築します。非常に高速で、ほとんど瞬時に実行できるものもあります。他のものは、より文脈に沿った、より深いものです。各検出器は特定のアクションにマップされます。

システムが安全でない動作を検出した場合、応答をブロックしたり、開発者に通知したり、単に対話を監視して記録したりすることができます。

本日の発表以前から、エンタープライズ AI エージェントをテストするための同社のプラットフォームは、Mistral、Google DeepMind、BNP Paribas、AXA、Doctolib などによって使用されていました。この技術は、銀行や保険などの規制部門における機密性の高いエージェント ワークフローの導入に適しています。

ジョン・マシューズ氏によれば、

「顧客は私たちに検出を要求し続けました。彼らは、状況に応じてランタイム AI エージェントの保護を求めました。ガードはループを閉じます。脆弱性と幻覚をリアルタイムで検出し、保護し、修正します。」

同社はまた、AI チャットボットの障害が急速に高リスクになる可能性がある医療機関と幅広く連携しています。

「ユーザーが症状を提示した場合、チャットボットが問題を診断できる場合があります」と John-Mathews 氏は説明します。

「そして、質問の組み立て方によっては、その回答が危険なものになる可能性があります。」

さらに、会話型 AI システムは有害な信念を強化する可能性があります。たとえば、ユーザーが抗生物質について懐疑的な意見を表明すると、チャットボットは扇動的になり、抗生物質を避けるよう提案する可能性があります。ワクチンでも同じことが起こる可能性があります。この問題は製造環境にも及ぶ可能性があります。

「誰かが洗濯機の電圧要件について尋ねているところを想像してみてください」とジョン・マシューズ氏は語った。

「チャットボットが間違った答えを返したら、大惨事になる可能性があります。」

ポリシー文書から施行可能なコードまで

John-Mathews 氏は、従来の AI ガバナンス プロセスは、エンタープライズ AI エージェントの急速な導入サイクルに追いつくのに苦労していると主張します。

コンプライアンス チームは依然として手動のリスク評価、Word 文書、Excel スプレッドシート、および年次監査サイクルに依存している一方で、AI チームは毎週エージェントを導入および更新しており、インシデントにつながる可能性のある危険なガバナンスのギャップと同社が表現するものを生み出しています。

ジスカルド氏の反応は、ジョン・マシューズ氏が「コードとしてのポリシー」と呼ぶもので、ガバナンス・ルールは文書内にまったく存在すべきではなく、機械で強制可能なロジックとしてAIシステムに直接埋め込まれるべきだという考え方だ。このアプローチでは、静的なドキュメントを機械で強制可能なポリシー、自動化されたコンプライアンス チェック、Git ベースのバージョン管理、および迅速なロールバック機能に置き換えるとともに、EU AI 法や OWASP などのフレームワークに合わせた事前構築されたポリシー パックを使用します。

「ルールが規制当局からのものであっても、社内ガイドラインからのものであっても、私たちはAIシステム自体を通じてそれらを強制できるようにします。システムはヨーロッパのインフラストラクチャ上で企業によって直接ホストされ、安全な行動を強制するために使用できます。」

欧州のソブリン AI スタックは政策から製品へ移行中

同社はまた、エージェント AI の台頭は、ヨーロッパの主権 AI インフラストラクチャへの広範な推進の一環であると見ています。

Giskard Guards の重要なコンポーネントは、真に主権のあるヨーロッパの AI セキュリティ スタックとしての地位です。

「EU の主権 AI」は主に政治的なレトリックにとどまることが多いが、ジスカルド氏は具体的なセキュリティ層の製品、つまり独自のテクノロジー、最適化されたモデル、完全なオンプレミス展開機能を備えた欧州の独立プロバイダーを提供しようとしている。

ジョン・マシューズはこう主張する。

「私たちはヨーロッパの AI ガバナンスを、単なる抽象的なポリシーではなく、実際の製品と強制可能なシステムに変えたいと考えています。」

銀行、保険、ヘルスケアなどの規制部門にとって、主権、データ管理、導入可能性はもはや理論上の懸念事項ではなく、運用上の要件となっています。」