SNS悪用への活路: 米国大統領候補のツイートから導いた斬新なクラスタリング手法
米国大統領候補へのTwitterのリプライを分析した新たな研究で、マイクロブログプラットフォーム上の投稿を分類するための新しい方法論の有望性を示しています。
エフセキュアの人工知能センターのリサーチャーであるAndy Patel (アンディ・パテル) (英語) と、クレタ大学FORTH-ICS研究所の博士課程の学生であるAlexandros Kornilakis(アレクサンドロス・コルニラキス)氏は、彼らが行った実験の内容を「ツイートをクラスタリングする斬新な方法(英語)」としてまとめました。
「Twitterに代表されるSNSの悪用に対抗する課題は、新しい投稿が毎秒数千件も公開されるために、処理しなければならないテキストが膨大な量になる点です」とAndyは述べています。
悪意のあるアクターは、SNSにコンテンツが溢れれば溢れるほど、偽情報、デマ、嘘、詐欺、フェイクニュースを拡散しやすくなります。しかしながら、サイトの運営者は、人為的で悪意のある、または搾取的な行動を抑え込むことが容易ではないため、結果的に、いいね、ビュー、購読、レビュー、偽のアカウントに対するある種のマーケットプレイスが形成さることになります。
情報源としてのSNSの重要性は日に日に高まっているため、研究者達はこの問題への対処方法を模索しています。現在、多くの研究者がSNS上のさまざまな種類の行動を識別・分類して、悪用の可能性があるコンテンツを特定する方法を開発しています。
クラスタリングとは何か?
クラスタリングとは、機械学習メカニズムを利用して、フレーズや節(この研究では、ツイート)を話題や主題に基づいてグループ化するプロセスのことです。
AndyとAlexandrosが開発したクラスタリングメカニズムは、想定外の驚くべき結果を生み出し、彼らが過去に試したどの手法よりも汎用性が高い方法であることが実証されました。
有害ツイートに狙われたトランプ大統領
彼らは、この新手法のテストにあたって、米国大統領選で非常に多くの熱心な支持者を有しているAlexandria Ocasio-Cortez(アレクサンドリア・オカシオ・コルテス)女性下院議員のアカウントへのリプライに、現職のDonald Trump(ドナルド・トランプ)大統領のアカウントへのリプライを加えて、有力な民主党大統領候補のツイートに対する100万件以上のリプライを調査しました。
「影響力のある政治家」へのメンションは、平均的なTwitterユーザより表現が過激になりがちです。彼らは必然的に多くのエンゲージメントを受けますが、それらはしばしば極端に肯定的だったり否定的だったりします。そのため、主語、動詞、目的語と、全体的な感情表現でツイートを分類しました。」とAndy は述べています。
このレポートで説明されているように、この方法で平均センチメントスコアを生成することができました。投稿は、さまざまな識別子に基づいて、ポジティブ(元の投稿者へ同意を示すもの)、ネガティブ(元の投稿者への否定を示すもの)、または有害(否定的な投稿よりもきつい表現で敵意や激しい憎悪を示すもの)に分類できました。
彼らはこのクラスタリング方法を利用して、民主党へのリプライの中から以下の内容が含まれた最も一般的な否定的な内容を見つけました。
- あなたは馬鹿だ/まぬけだ/嘘つきだ/裏切り者だ(または同様の言葉)
- あなたは決して大統領にはなれない
- トランプが次の選挙で再選する
肯定的な内容は以下を含みます。
- あなたを愛しています
- あなたならできます
- あなたを支持しています
「この結果は、私たちがセンチメント分析ライブラリを使用した場合と比べてもさほど変わりがありませんでした。しかし、調査した両方のデータセットで一貫性が保たれていました」とAndyは述べています。「@AndrewYangが圧倒的に肯定的なリプライの割合が高く、@AOCと@SenWarrenが有害なリプライの割合が高いという結果でした」
POS: 肯定的 NEG: 否定的 TOX: 有害
しかし、いずれの民主党アカウントも、現職の米国大統領ほど有害なリプライを受けていませんでした。トランプ大統領の結果は次のとおりです。
トランプ大統領のリプライで最もよくある否定的な内容は以下のとおりです。
- あなたは馬鹿だ/嘘つきだ/恥だ/犯罪者だ/#不能だ
- あなたは私たちの大統領ではありません
- あなたはまったく分かっていない/何も知らない
- あなたは黙ってください
- あなたはうそをつくのはやめてください
- あなたはプーチン大統領と関係している
肯定的なテーマは以下のとおりです。
- 大統領に神のご加護を
- あなたを愛してます
- あなたは最高の大統領です
スパムに対処する賢明な方法
「私たちの実験の驚くべき成果の1つは、この手法が、類似の主題ではあるが異なる表現を持つ文章を容易に識別し、グループ化できるという確信を得たことでした」とAndyは説明しています。「たとえば、英語の表現 ‘the pot calls the kettle black’、‘name is pot and he say’s you’re black’、 ‘kettle meet black’、‘pot and kettle situation’ などはすべて「どんぐりの背比べ」を意味していることから同じクラスターに属します。実験中に、これと似たような種類のインスタンスのリプライをいくつか確認しました」
そして、この手法は、いわゆるスパムを検出する際にも役立つことがわかりました。
「この実験は、私たちが開発した手法が、リプライスパム、アカウント自動化、および偽情報の協調キャンペーンに関連した、ほぼ同一内容のツイートを識別するのに非常に効果的であることも実証しました。」
これらのクラスターから得られる洞察
この研究は、EUホライズン2020プロジェクトのPROTASIS(英語)、SHERPA、およびエフセキュアのProject Blackfin(英語)の一部として実施されました。エフセキュアの関心は、最先端の自然言語処理(NLP)技術の実験から端を発し、スパム検出、オンラインコンテンツ分類、敵対的攻撃で使用される複雑なコマンドラインの自動分析など、いくつかのドメインに拡大しています。
Andyはこの手法が、協調的な偽情報活動からのツイート、多くのフォロワーを持つアカウントへのリプライを悪用しようとするスパマー、ボットやその他の種類の自動化など、ソーシャルメディアの悪用を減らすことに役立つことを願っています。
「例えば、私たちの手法は、オーストラリアの山火事が放火犯によって引き起こされたというデマを流すツイートを自動的に識別してグループ化することができます」
緊急事態に際して、偽情報を識別して対処することができれば、救助活動を直接支援することにつながります。少なくとも、偽情報が救助活動に害を及ぼすのを防ぐことができるのです(英語)。
「一層の研究が求められますが、進展すればさまざまな分野への応用が考えられます。この手法は、スパム、偽情報、その他の有害コンテンツの自動フィルタリングや削除に活用できます。これは、有毒コンテンツを投稿する頻度やユーザに嫌がらせをする頻度に基づいて、アカウントに品質スコアを割り当てることで実現できます」
Andyは、このメカニズムが人々のつぶやきの方法を変えるのに役立つ可能性があることを示唆しています。
「ツイートを簡単に識別して分類する機能があれば、Twitterのリプライは、Eメールの受信トレイで行われているスパムフィルター機能を使用しないで済むようになるかもしれません」
この研究に基づいて、彼らは個人が調べることができるインタラクティブなWebサイト(英語)を立ち上げました。また、この研究をコードと共にGithub(英語)に公開しています。
カテゴリ