趣味と実益を兼ねたオープンソースインテリジェンス、#Presidentielle2017版
アンディ・パテル
以前に投稿した記事で述べたように、私はTwitterストリームのパターンを分析するスクリプトを書いている。調査の目的には、選挙のような、ニュースで大きく取り上げられそうなイベントにまつわるTwitter活動を追跡することがある。ちょうど先週末、フランスで新大統領の決選投票が行われた。そこで、スクリプトのパラメータを調整して、どのようなことがわかるか調べてみることにした。
そのスクリプトは、検索パラメータのリストに基づいてツイートのストリームを受け取る仕組みになっている。以下のパラメータを指定した。
[‘macron’, ‘lepen’, ‘presidentielle2017’, ‘presidentielles2017’, ‘MarineLePen’, ‘Marine2017’, ‘ ElectionPresidentielle2017’ ‘enmarche’, ‘aunomdupeuple’, ‘jevote’, ’emmanuelmacron’, ‘choisirlafrance’, ‘MLP’, ‘debat2017’, ‘debatpresidentiel’, ‘jevotepour’]
スクリプトの開始は5月5日(金)の午後、フランス時間の14:00少し前で、終了は5月7日(日)の22:00、開票速報が出た数時間後であった。スクリプトは、上記の検索語にマッチするTwitterステータスオブジェクトのストリームを受け取った。1時間当たりのツイート数は、約18,000件(フランス時間の深夜)から、79,000件(投票締切数時間前)まで、時間帯によってさまざまであった。ツイート言語、ハッシュタグ、URL、およびメンションなどのメタデータを抽出して出力ファイルへ書き込む処理を行った。
スクリプト開始後、ほどなくして、英語で書かれた政治的な意見記事をリンク先とするかなりの数のURLがストリームで共有されていることが明らかになる。時間が経つにつれて、大多数がル・ペン氏支持、反マクロンの論調であることが一目瞭然となった。共有されていたその種の記事の見出しには、次のようなものがある。
・ 速報:リークされたマクロン氏メールは本物とWikiLeaksが確認
・ 速報:マクロン氏のメールにより、薬物使用、同性愛、ロスチャイルドマネーの疑惑が浮上
・ 賭博市場では投票前の数時間でマリーヌ・ル・ペン氏リードに
・フランスの警察官、組合の指示に反してル・ペン氏に投票へ
・ 爆弾レポート:メールのリークで、マクロン氏の同性愛者向けメーリングリストへの登録が発覚
「マクロン氏告発者の不審な死」と題する記事には、マクロン氏の選挙運動員が「心臓発作を引き起こす銃」を使って暗殺されたとほのめかすような記述がある。以下は、その記事からの引用だ。
「1975年に撮影された議会証言の映像によれば、諜報機関では長年、「心臓発作銃」の技術を利用してきたようだ。もしかすると、コリンヌ・エレル議員はそのような技術の犠牲者となったのだろうか」
とりあえず先に進もう。
私のスクリプトは、設定された検索語にかかわらず、あまり信頼性が高いとは言えない意見記事をリンク先とするURLを、かなりたくさん拾い上げる傾向がある。このような記事は、一般には「バックグラウンドノイズ」であるが、先週末には、そうしたノイズの音量は確かに大きくなった。フランス報道機関によるフランス語の記事がURLフィードに現れ始めたのは、日曜日の夜遅くになってようやくのことだった。
フランス大統領選に関するデータを通して、どのくらい英語よりフランス語のツイートがあったのかを調べてみるのも面白いだろうと考えた。全体としては、Twitterによって「fr」のフラグが付けられたツイートは、「en」のフラグが付けられたツイートよりも多かった。そうした中、週末のある時間帯におけるツイート数は、目にとまるものがあった。次のグラフは、5月6日(土)の午後から5月7日(日)の午後の間のツイート数を言語別にしたものだ。
オレンジ色の線は、予想した数である。5月6日の真夜中を過ぎると、フランス語でのツイートの数は減り始める。おそらく人々が眠りについたためだ。その後、5月7日(日)の朝になると再び増加する。一日が始まり人々が動き始めたのだ。青色の線は英語でのツイートを示しており、フランス時間の1:00に急上昇している。何が急上昇の原因となったかはわからないが、時間帯としてはアメリカ時間の夕方となる。
また、ハッシュタグに関しても、興味深いパターンが見て取れた。スクリプト開始の数時間は、検索上位に#Macron、#LePen、および#Presidentielle2017となった。5月5日(金)の夕方遅くになると、#MacronGateというハッシュタグが現れ始める。DFR Labが、この現象の背景にあるメカニズムについて解説した素晴らしい記事を書いている。是非読んでもらいたい(要約すると、ボットの使用ということだが)。また、私が収集したデータからも、このハッシュタグをプッシュする自動化機能のパターンが見られる。次のグラフを見てほしい。
上のグラフは、フランス時間の2017年5月7日3:00~11:00の1時間ごとの、スクリプトが見つけた4つのハッシュタグの各々の数を示している。わかるだろうか、#Macron、#LePen、および#Presidentielle2017というハッシュタグは夜の間は少なく(多くの人は就寝中)、人々が起き出してくると増える。けれども、#MacronLeaksというハッシュタグは、これらの時間帯全体を通してほぼ横ばいである。実際#Macronというハッシュタグは、金曜日の夕方に登場したときから開票速報が出るまで横ばいである。そして開票速報後は、それ以前の回数の5%以下にまで急降下した。ボットのインフラが切り離されたためだ。
URLにおいても、#MacronLeaksハッシュタグの大多数は「アメリカのオルタナティブ右翼」のTwitterアカウントによって共有されていた。一部のケースでは、これらのアカウントはフランス語でもツイート/リツイートされていた。選挙最終戦の週末、最も多く共有されたURLは、「マクロンについての真実」というタイトルのYouTube動画へのリンクであった。次に多かったのは、盗まれたマクロン氏のデータへのリンクが記されたpastebinのページである。共有されたURLの上位10件中7件は、信用度の低いニュースソースへのリンクであった。DFR Labsの記事が6位に食い込んだのは幸いである。
上記の分析からすると、かなり悲観的な状況に思えそうだが、実際には、想像されるほどは悪くはない。おそらく、圧倒的多数のTwitterユーザは、URLとハッシュタグの大量ツイートの発生にまったく気付いていなかっただろう。それはなぜだろうか。Twitterで検索を行うと、デフォルトでは「トップ」と検索結果が表示される。これはアルゴリズムを使用してツイートをランク付けしたものだ。そして、そのアルゴリズムは、何らかの特質によってフィルタリングをしているようだ(良いものと悪いものを分ける)。そのようなボットアカウントによってバックグラウンドで行われるスパミングの場合、すべては登録されないように思われる。同じことは「ニュース」タブやトップ10のトレンドハッシュタグのリストについても言える。バックグラウンドノイズがすぐに見られるのは、「最新」タブだけである。
したがって、そのようなノイズを立てたところで、何かのきっかけになることはあまりないのだとすれば、そもそも、どうしてまた、そのようなことを行ったりするのだろうか。その答えは、プレスやメディアが、記載するための手を加えてないデータを探す労力を惜しまないからである。そのような「隠れていた」データを見つけては、それについて取り上げる。要するに、プレスはボットを代わりに行っているのだ。
フランスの大統領選挙は、私が取り組んでいるスクリプトを改良する絶好の機会となった。私が書いているスクリプトは、今後予定されている選挙や世界的なイベントにおける「アクティブメジャーズ(政治工作)」に関わりのある使用パターンを見つけることを目的としたものだ。数週間後には英国の総選挙がある。今回の修正がどれくらいうまく機能するか試すことができるだろう。選挙が終わった後には、きっと興味深い内容を報告できると思う。
カテゴリ