新たな調査が示すレコメンデーションAI悪用の危険性
レコメンデーションエンジンは、ユーザーがより多くの商品を購入したり、より多くのコンテンツを利用するよう人々を誘導することを目的に、インターネット中のサイトやアプリで利用されています。このエンジンが提示する選択肢により、ユーザーは今まで好きだったものがさらに好きになったり、新しい製品を知ったりするなどの影響を受け、エンゲージメントが高まります。
これらのシステムの完全性を検証するため、エフセキュアでは、レコメンデーションメカニズムが悪意のある第三者によって不正操作される可能性を検証しました。 このリサーチでは、別のコンテンツを利用して、コンテンツをソーシャルメディアのタイムラインや検索結果の上位に表示するために使用できる技術を用いて、多くのサイトやアプリで使用されている協調フィルタリングモデルの汚染を試みました。
攻撃シミュレーションの結果、リツイートに基づいて、あるユーザーに別の特定のユーザーが推奨される確率が明らかに上昇しました。たとえリツイート数がごくわずかでも、仕込まれたリツイートを通じて他のアカウントを推奨してそのコンテンツをシェアするようレコメンデーションアルゴリズムを操作するには十分です。これらの攻撃は、偽情報を拡散したり、フォローバックの輪を大きくしてアクティビティを連携させ、特定のコンテンツへのアクセス数を増やしたりするのに効果的なメカニズムであることが分かりました。
また、今回の調査結果では、サイトのエンゲージメントを高めるためにあらゆるソーシャルメディアプラットフォームで使われることが多い人工知能モデルは、特定の目的を持ったユーザーによってすでに操作されていることも分かりました。これらのプラットフォームは、悪意のある第三者による、より大規模な攻撃に対して脆弱です。悪意のある第三者は、これらのメカニズムに影響を及ぼす最良の方法をテストするため、より実験的なアプローチをとる場合があります。
偽装情報の危険性
YouTube、Facebook、TikTok、Twitter は、オーディエンスに影響を及ぼし、世論を形成する上で重要な役割を果たしています。これらのサイトは、下記のようにさまざまな形ですでに操作されています:
- リツイート、いいね、表示数、購読数などを販売するサービス
- Troll Factory といった組織グループ
- 連携アクティビティによって政論に影響を及ぼしたり偽情報を拡散したりする非公然の特定の目的のためのグループ
悪意のある第三者の多くはソーシャルメディアを情報戦争ゲームとして扱い、コンテンツを増幅し拡散する新しい方法を常に編み出しています。偽のアカウントによる連携アクションを通じてコンテンツを増幅させることもよくあります。こうした行為をさらに効果的にするため、彼らは悪意のある操作、偽情報の拡散、その他、プラットフォームの利用規約で禁止されている行動を防止するために設計されたシステムを回避します。
世界の何十億人もの人々が、ソーシャルメディア経由でニュースを見ています。真実でない情報ほど火が付きやすいことを考えても、偽情報の拡散を加速する能力は特に悩ましいものです。2018年に 「Sience」に掲載された研究によると、偽情報は真実よりもTwitter上でのリツイートされやすさが70パーセント高いそうです。より最近の研究では、新型コロナウイルス関連の偽情報は、真実よりも速く広まったことが分かっています。こうした現象はレコメンデーションによって増長され、悪意ある情報を意図的に広めようとするグループの試みに油を注ぐものになる恐れがあります。これらの研究は、レコメンデーションメカニズムの意図的な悪用と、これらのプラットフォームでのユーザーの標準的なアクティビティとを区別することの難しさを示しています。
それでも、これらの研究結果は、世論の誘導のためにいかにレコメンデーションメカニズムが悪用される可能性があるかについて警告を発してくれています。特に期間限定のイベントの場合、工作者たちは短期間で効果的に偽情報を拡散し、それが検知される頃には物事がすでに終わっています。たとえば 選挙運動期間、または株価の上昇または下落を狙った試み、あるいは国の大多数の信頼を獲得することが必要なワクチンの一斉接種キャンペーンの最中などが挙げられます。
レコメンデーションに注目する理由
E コマースサイトの機械学習モデルは、購買者が閲覧したり、以前購入したアイテムに基づいて商品を推奨するために学習します。ソーシャルネットワーク上のレコメンデーションメカニズムも仕組みは同様です。このモデルでは、ユーザーと他のユーザー/コンテンツとのやり取りに基づいてトレーニングされ、精選されたタイムライン、ランク分けされた検索結果、フォローすべきユーザーや参加すべきグループを表示します。これらのツールの中には、プラットフォーム上でのユーザーの行動に基づいてモデルを作成する機械学習技術を用いたものもあります。
これらのモデルのアウトプットは、トレーニングセットに含まれた動作を反映しています。政治的メッセージをオンラインで盛んに拡散していたグループは、意識的か無意識的かは別として、これらのモデルがどう機能するかをある程度知った上で、自分たちに有利なように活用していたようです。こうした操作的行動が基礎のモデルにどう影響する可能性があるかを理解することは、ソーシャルエンジニアリング、偽情報、詐欺、さらには合法的なマーケティング手法がどのようにコンテンツを拡散させるかを知る、またとない機会を提供してくれます。
シンプルな操作テクニックがいかにソーシャルネットワーク上のレコメンデーションに影響を及ぼし得るかを確認するため、私たちは Twitter からデータを収集し、それらのデータを使用してモデルをトレーニングしてから、それをもとにシンプルなレコメンデーションメカニズムを実装しました。その後、元のデータセットを汚染し、汚染されたデータを使用して新しいモデルをトレーニングして、レコメンデーションがどのように変化するかを観察しました。
協調フィルタリングとは
私たちは、協調フィルタリングモデルに基づくレコメンデーションメカニズムを研究することにしました。
協調フィルタリングとは、ユーザーとコンテンツ間の類似性をユーザーが以前どのようにやり取りをしたかに基づいて符号化するモデルの構築に使用できる機械学習手法です。今回の実験では、ユーザーの嗜好データは、ユーザーが他のユーザーのコンテンツをリツイートする頻度で表されています。
そこで、汚染されたデータをいくつか追加しました。 これは、特定のアカウントが少数のコントロールユーザーに推奨されるようにするために、選択したアカウント間で追加のリツイートを元のデータセットに注入するというものです。 汚染の対象となるアカウントとそのアクションは、さまざまな方法で選択されました。その目的は、ど、どのようなユーザー行動が最も効率的にレコメンデーションメカニズムを操作するかを見極めることです。
Twitterでは,コンテンツ,キーワード,フレーズ,ハッシュタグなどを増幅させる「フォローバック」メカニズムによって,協調的なグループが形成されることがよくあります.今回のシミュレーションでモデル化した攻撃は、Twitter 上の協調的なグループの行動と同様の方法で行われるように設計されています。この結果は、これらのグループがどのようにして現在の活動方法を確立したのかを示していると考えられます。
調査結果
リツイートする適切なアカウントを選択し、アカウントが公開するリツイートの数と共に、リツイートを実施するアカウントの数を変化させることで、特定のアカウント間の相似値を変化させ、それらが制御集団のメンバーにおすすめされるようにすることができました。私たちの完全版レポートには、これらのメカニズムが実際にどう機能するかが視覚的なデモで表現されています。
Twitterは、おそらく私たちがテストしたのとほぼ同じ方法で、サイトのメカニズムがどのように操作されているかを認識しているようで、以来、このデータセット内のアカウントの多くが、場合によっては、私たちが実験中にフォーカスした特定のアカウントを含め、Twitter によって停止されています。
とはいえ、私たちの実験は意図的に非常にシンプルなメカニズムを使用し、ソーシャルネットワーク上のレコメンデーションシステムがどのように機能するかを見積もることのみを目的としてデザインされています。もし実際のレコメンデーションメカニズムの機能を反映させようとすれば、これらのメカニズムを操作しようというグループは動作をさらに改変させ、より効果的にコンテンツを増幅させることが可能となるでしょう。しかしながら、私たちの実験がソーシャルネットワークで使用されている実際のメカニズムにどれだけ近づけたかを判断することは不可能であるため、今回の結果は例証として見るべきでしょう。
これらの実験に使用された方法論、結果、およびコードを含む完全版のレポートは、次の場所で閲覧できます。https://github.com/r0zetta/collaborative_filtering/
カテゴリ