LLMの世界におけるセキュリティーとリスク低減

これまで、大規模言語モデル(LLM)と人工知能(AI)が、ビジネスの効率性データと分析、さらにFinOpsにさまざまな形で影響を与えていることをお話ししてきました。しかし、おそらく最も重要な懸念事項の1つであるセキュリティーについて、まだお話ししていません。 

LLMの世界におけるセキュリティーの重要性

GPTが最初にリリースされたとき、世界は衝撃を受けました。AIが初めて、テクノロジーチームやシリコンバレーの投資家の間だけでなく、一般の人々の間で流行語になったのです。 

GPTがこれほどまでに早く注目を集めた理由

  • トランスフォーマーアーキテクチャーこのニューラルネットアーキテクチャーは、言語を人間のように理解したり、言語にコンテキストを適用したりするのに優れています。ハードウェアはここ数年間で改善され、このアーキテクチャーのさらに大規模なモデルに対応できるようになっています。さらに重要な点として、このモデルは特定の時点と規模でより多くのデータに対してトレーニングされてきたため、常に改善されてきました。これらが組み合わさり、GPTは人間と真の自然言語で対話できるまで「スマート」になったのです。

  • 指示に従う:GPTは、与えられた指示に従うことができます。企業は自然言語を使ってGPTをプログラムし、自社の製品にLLMを組み込むことができるため、LLMを基盤とした共同イノベーションや新商品の開発に迅速に着手しています。

  • 対話型AI:ChatGPTには、携帯電話のテキストメッセージのスレッドのように親しみやすいインターフェイスが用意されています。この使いやすさが、ChatGPTが広く普及した主な要因です。さらに、無料で利用できます。

GPTがリリースされて間もないころ、ThoughtSpotの共同創設者であるAmit Prakashは次のように述べました。「私はこれを、周期表の新元素の発見になぞらえています。GTPという新しい元素により、これまで不可能だった多くの新しいことが可能になりますが、これを実現するには、その特性を注意深く調べて他の元素と混合する必要があります」。私たちはその後、さまざまな変化を目撃してきました。

LLMの普及によって何が変化したのか 

  • 新しいソースコードが前例のないスピードで作成、統合されている

  • 構築されるAIアプリが増えたことで、アプリがよりスマートになっている

  • ユーザーは英語などの好きな言語で簡単に指示できるため、新しいAI機能をより積極的に試すようになっている

  • LLMやアプリのログでアクティビティが増加した結果、データ生成が大幅に増えている

  • 生成されたデータは、AIアプリや基盤となるLLMの改善のために使用されている

上記のサイクルにより、LLMを製品に統合している企業や、ワークフローにLLMがすでに統合されている製品を使用している企業は、多くのセキュリティーリスクにさらされることになります。この記事では、このようなセキュリティーリスクに焦点を当て、リスクを軽減するための戦略をご紹介します。 

LLMによってもたらされる4種類のセキュリティーリスク

1.自社の機密データがOpenAI、Microsoft Azure、Google Cloud PlatformなどのLLMプロバイダーを介して流出する

LLMを使用して製品を構築している場合、これは明らかに重大なセキュリティーリスクです。こうした流出は以下のようなさまざまな形で発生します。 

  • データが保存され、データ侵害のリスクにさらされる

  • 会社の非公開データや専有データを使用してモデルのトレーニングが行われる

後者の例の場合、個人情報、顧客情報、PIIなどが含まれるデータを使用してモデルがトレーニングされたら、どのような事態になるのでしょうか。あるいは、会社の非公開データを使ってモデルがトレーニングされ、サービスとして競合他社に提供されているかもしれません。その結果、専有情報が競合他社に流出し、あなたの会社に対する競争上の優位性を確立するために競合他社によって利用されることもあります。 

2.自社の機密データがAIビジネスアプリ(Notion、Gmailなど)や開発ツール(Githubなど)を介して流出する

こうした信頼性の高いワークスペースアプリが重大なリスクの原因になるとは考えにくいかも知れませんが、AIが活用されていることで新たな流出が発生するおそれがあります。たとえば、あるLLMプロバイダーを利用し、そのプロバイダーが提供する製品のAIを活用した新機能を導入したために、上記のようなリスクが発生することがあります。

さらに、プロバイダーはあなたの会社のデータを使ってモデルを微調整してから、サービスとして利用できるようにする場合があります。そのため、競合他社がこうしたデータを利用できるようになったり、指標の定義といった専有データが流出したりするおそれがあります。

3.LLMが指示に従わず、確率論的に動作しているため、自社の秘密データがLLMベースのアプリを介して無許可のユーザーに流出する

組織には複数の部門やさまざまなレベルのスタッフが存在します。たとえば人事部門は、他の部門がアクセスできない従業員の個人データにアクセスできます。あなたの上司は、他のスタッフがアクセスできないあなたの報酬パッケージにアクセスできます。こうした情報は文書の形で特定のアプリに保存されていたり、職場のメールやメッセージングツールで交換されたりしています。 

LLMは、職場での効率を向上させるためにアプリで活用されています。たとえば、Q&A用の社内ツールの強化、クリエイティブなマーケティングコンテンツの作成、営業用のパーソナライズされた返信メールの増加、製品マネージャー向けのミーティングの要約などに利用されています。そのため、組織はこうしたアプリに対するある程度のアクセス権を付与し、AIを活用したこれらのワークフローを強化できるようにしています。 

LLMには、トレーニング対象データのトークンを使用したアクセスという概念がありません。アプリによっては、LLMに対して、ユーザーが読み取りを許可されているデータのサブセットのみを使用してユーザーのリクエストに応答するよう指示し、ベストエフォート方式でこの概念を適用しています。しかし、LLMは指示に従わなかったり、幻覚を起こすことで知られています。そのため、応答の事後処理、秘密データの認識、ユーザーが許可を受けているかどうかの検証を試行するアプリもあります。ただし、この方法の信頼性と安全性が確保されるのは、応答が適切に構造化されているか、小規模なサンプルスペースに制限されている場合に限ります。   

4.安全でないソースコードが原因で、新たなセキュリティー上の脆弱性がサービスやアプリに発生する

特にPythonやJavaScriptなどのプログラミング言語では、基礎となるモデルの主な機能はソースコードの生成です。そのために、何百万ものコード行に対してモデルがトレーニングされています。コーディング支援のイノベーションが多少先行しているもの、GithubやReplitのようなコード生成ツールやQ&Aツールはすでに開発者の生産性を向上させています。 

LLMには現在、予測されるトークンとライセンス条項などのプロパティーを関連付ける能力はありません。したがって、作成途中のコード行や関数を実行する場合、LLMはそのコードスニペットの取得元のライブラリーを認識できません。その結果、予測されるコードは、商業的利用が許可されていないライブラリーやセキュリティー上の脆弱性があるライブラリーからのものだったり、そうしたライブラリーを使用している可能性があります。

リスク軽減のための重要な戦略

ビジネスでLLMを利用するリスクはありますが、だからと言ってLLMの利用を避けるべきではありません。AIによって提供される機会を拒否する企業は、取り残されることになります。そうならないために、ビジネスに対するこれらのリスクを低減するための方法をご紹介します。 

ベンダーのライセンス契約を理解する

ビジネスを保護するための最も重要なステップは、ベンダーのライセンスを理解することでしょう。これには、ベンダーがあなたの会社のデータを管理、保管、使用する方法を理解することも含まれます。堅牢なデータアクセス制御を実装すれば、LLMによってもたらされる過度のリスクを回避できます。

まず、ベンダーのライセンス契約書を入手し、内容をしっかりと確認してください。データの使用、保存、プライバシーに関する項や節は特に注意して読みましょう。このレビュープロセスで確認すべき事項を以下にご紹介します。 

  1. どのような種類のデータをベンダーと共有するのか(できれば、名前、メールアドレス、IPアドレスなど、具体的なデータフィールド名を挙げてください)。

  2. このベンダー/サービスからの出力を、今後の処理のために自社のシステムやその他のサービス/アプリケーションへの入力として使用する予定はあるか。

  3. このベンダー/サービスに期待する可用性の要件(SLAなど)はどのようなものか。

  4. このベンダー/サービスを自社システムに統合/接続する場合、このベンダー/サービスとの統合/接続の一環として、自社システムに対するどの程度のアクセス権(読み取り、書き込み、変更、管理)をこのベンダー/サービスに付与するのか。

  5. このベンダー/サービスを自社システムに統合/接続する場合、どのような方法で自社システムをこのベンダー/サービスに接続するのか(例:TSシステムへの専用VPN/プライベートネットワーク接続、TSシステムがパブリックネットワーク経由でAPIを呼び出す、インターネットからアクセスできるポータルへの直接のユーザーログイン)。

  6. このベンダーは、自社に対象サービスを提供するために請負業者を利用するか。

  7. ベンダーと対象サービスの拠点が米国以外か。

  8. 実績のあるベンダーか(例:大規模な顧客やエンタープライズ顧客と複数年にわたる取引があり、業界で認められた何らかの認証を取得している)

  9. このベンダーは実績のあるプロセスを採用しているか。

  10. このベンダーは何らかの規制による監視の対象か(SOX、HIPAA、FINRA/SECなど)。

  11. このベンダーでは、過去5年間に、顧客データが無許可のユーザーに流出したセキュリティー/プライバシー関連のインシデントが発生していないか。

レビュープロセスで上記の事項のいずれかが不明である場合は、ベンダーに連絡してサポートを依頼し、不明点を明確にしてください。データのセキュリティーを確保するには、自社データがどのように使用されるのかを明確に理解しておくことが重要です。

包括的なインシデント対応計画を策定する

皆さんの組織は、すでにデータセキュリティーインシデントへの対応計画を策定済みかもしれません。まだの場合は、策定することが重要です。策定済みの場合は、最近のLLM開発によってもたらされているセキュリティーリスクに基づいて、計画を見直してください。 

インシデント対応計画を作成するには、インシデント対応を担う主要な人員で構成されるチームを編成する必要があります。このチームには、ITスタッフ、セキュリティーのプロフェッショナル、シニアマネジメント、広報のプロフェッショナル、法務スタッフなどを含めて、計画がデータ保護法や報告の規制に準拠するように徹底する必要があります。

包括的なインシデント対応計画に組み込むべき内容(ただし、これらに限定されるものではない): 

  • 重大度と影響に基づくインシデントの分類フレームワーク

  • 監視ツールによる検出とベストプラクティス

  • 報告のシステムおよび手順と明確な役割

  • 対応手順と明確な役割および責任

  • 社内および社外のステークホルダーとのコミュニケーション計画

インシデント対応計画を策定したら、LLMによってもたらされる具体的なセキュリティー上の脆弱性を考慮して、分類と検出のフレームワークを評価する必要があります。ビジネスベンダー各社を分析してLLMを使用しているベンダーを特定し、ライセンス契約を再確認して、新たに脆弱性がもたらされることがないように徹底します。

チームに対してセキュリティー上の脆弱性に関するトレーニングを実施する

セキュリティー上の脆弱性に関するベンダー契約の評価のデューディリジェンスを完了し、インシデント対応計画を策定したら、セキュリティーのベストプラクティスについて従業員を教育することが重要です。このステップでは、セキュリティーについての認識、重要性、手順をバランス良く織り交ぜましょう。 

つまり、LLMが普及している現在、AIツールの採用を遅らせるのではなく、採用を推進して導く必要があります。目的は従業員を不安にさせることではなく、従業員に権限を与えることです。これにより、ビジネスの効率が高まり、セキュリティーに対する認識とコンプライアンスの文化を定着させることができます。

トレーニングを開始するためのアイデア:

  1. LLMの使用とリスクに関するチームの現在の知識を評価する

  2. 理論と実践の応用を組み込んだトレーニングカリキュラムを作成する

  3. ベンダーによるLLMの使用とセキュリティーのベストプラクティスに特化したハンズオンラボ、トレーニング、演習を提供する

  4. リスクと軽減策を監視し、実際の例をチームと共有する

  5. 報酬や表彰によって報告の文化を推進する

将来のリスクに対応するための継続的な監視と評価

事前の作業、計画、トレーニングの提供にどれだけ力を注いでも、LLMやテクノロジー全般がワークフローや日常生活により一層浸透するにつれて、将来のリスクは増加し続けます。そのため、リスクの監視と評価を続けながら、新しいワークスペースツールの導入、現行スタックの更新の確認、さらには自社製品へのLLMの組み込みの開始に取り組むことが重要です。 

LLM自体がもたらすサイクルなどにより、イノベーションのペースはかつてないほど速くなっています。セキュリティーがこのペースから後れを取らないように、以下の解決策を検討してください。

  • 侵害について通知する、高度な脅威検出システムを活用する

  • すべてのテクノロジースタックとベンダーを対象に、定期的な脆弱性の評価を実施する

  • 業界のフォーラムやコミュニティに参加して、同業者による発見を把握する

  • セキュリティーに関するインサイト、得た知識、ベストプラクティスを組織全体で共有する

モデル:自社のLLM対応製品にデータセキュリティーを組み込む

ThoughtSpotはThoughtSpot Sageのリリース時に、LLMの能力を応用して製品の機能強化を多く実現しました。たとえば、AIによる回答の生成、AIを活用した検索候補の表示、AI支援のデータモデリングなどです。 

AIを活用した分析の価値を体験するために、ThoughtSpot Sageを今すぐ無料でお試しください

製品のこうした機能強化をお客様に速やかにご利用いただくことはThoughtSpotの1つの目標ですが、最優先事項は引き続きお客様のデータセキュリティーの確保です。そのため、ThoughtSpotは製品のあらゆる段階に選択性、可視性、透明性を組み込んでいます。さらに、製品アーキテクチャーは、LLMを標的とする新世代のLLM集中型攻撃(プロンプトインジェクションやプロンプトリンクなど)に対して回復力を保つように設計されています。 

ThoughtSpot SageでLLMに対するデータセキュリティーを確保するためにThoughtSpotが実践した対策について、ブログで詳細をご確認ください。