機械学習の現状はどうなっているか

アンディ・パテル

近頃、サイバーセキュリティにおける機械学習技術の使用に関する質問が、かなり多く寄せられるようになっている。そのため、これについての記事をブログに投稿する良い頃合いと思うようになっていた。面白いことに、記事を書こうとしていたところ、さらに多くの質問が寄せられてきた。やはり今が絶好のタイミングなのだろう。

セキュリティ製品に機械学習技術を使用していることについて、まるで目新しいことのように大々的に宣伝する企業が少なくないようだ。別に目新しいことではない。当社では2005年から機械学習技術を使用しており、最近では、ほとんどどこでも機械学習が使用されているのを目にする。

最初にセキュリティ業界で機械学習技術が用いられたのは、アンチスパムエンジンをトレーニングするためだった。そこから、機械学習を用いて悪意あるファイルを識別しようと試みるようになっていった。2005年末に当社は、構造的特徴とビヘイビア（振る舞い）の特徴の両方に基づいてファイルの疑わしさを評価するよう設計されたエンジンを開発した。当初、このエンジンは、新たなビヘイビアベースのブロック技術によって生み出される誤検出を抑えるためのものだったが、それ以降、ひとつの堅実な検出技術としての地位を固めるようになっている。これらのコンポーネントはいずれも、2006年に当社の製品ラインに導入されている。

抵抗できない。（画像の出典元： https://theaviationist.com）

前述の通り、当社ではいたるところで機械学習を使用している。以下に、その使用例をいくつか示す。

サンプルの分析および分類 ‐ 当社では、エキスパートシステムおよび機械学習を用いて、毎日寄せられる500,000件の新たなサンプルを自動的に分類している。これらのシステムにより、多くの高品質のメタデータが生成され、それらはすぐに使用可能なスレットインテリジェンス（脅威対策の知見）へと変わる。

URLレピュテーションおよび分類 ‐ 当社では、URLから機械学習システムへコンテンツをフィードして、悪意の有無およびコンテンツの種類（アダルトコンテンツ、ショッピング、オンラインバンクなど）の両面からサイトの分類を行っている。

クライアントサイドの検出ロジック ‐ 当社では、ファイル構造およびビヘイビアの特徴に基づいて疑わしいファイルを識別できるようクライアントサイドのコンポーネントをトレーニングするのに機械学習を使用している。当社では、これらのコンポーネントをヒューリスティックエンジンと呼んでいる。CrowdStrike社のスヴェン・クラッサー氏が8月25日に投稿したブログ記事に、こうした技術がどのように機能するかについて、いろいろと詳しく記述されている。より詳しく知りたい方には読んでみることをお勧めする。

セキュリティ侵害の検出 ‐ この点については、これまであまり詳しく取り上げてこなかったが、今後、取り上げる予定である。当社では、ネットワーク上の疑わしいビヘイビアを識別するのに機械学習技術を使用している。そこで検出された徴候は、当社のRapid Detection Centerで業務に当たっているセキュリティ専門技術者へ送られる。彼らはインシデントを調査し、情報が妥当なものであれば、顧客に警告を発する。当然、悪意ある内部のアクティビティについても、侵害の徴候を発見するこの同じ技術によって、社内に対して警告が発せられる。

機械学習は、誤検出を起こす傾向が高くなる可能性がある。だからこそ、当社では人力と機械の両方を利用するハイブリッドな方式を用いている。機械学習と、専門技術者によって開発されたルールおよび大規模なオートメーションシステムとを組み合わせることにより、誤検出を減らし、脅威や疑わしいビヘイビアをより正確に判定することが可能になる。たとえば、当社のサンプル分類システムでは、機械学習技術は、入力されたサンプルをクラスタリングする上で有効に機能している。ただし、それまで見たことのない新たなサンプルについては、依然として人力でそうしたクラスターの識別、ラベル付け、分類を行っている。

機械学習が極めて有用なものであることは分かっている。けれども、まだ人間の持つ専門技術の代わりになるものではない。同僚の言葉を借りれば、機械学習を（万能な解決策を意味する）銀の弾丸だと思ってしまうと、その弾丸が自分の足に当たっているのをすぐに目にすることになる。そのため、すべての人に向けてアドバイスするとすれば、システムを保護するのに、機械学習だけに頼らないようにすることが重要だということである。特に、ファイルベースの脅威を識別できるだけのソリューションのみに頼るようではいけない。

そして、そうすべきでない理由が2つある。1つには、詐欺、フィッシング、およびソーシャルエンジニアリングからは保護されない。保護するためには、URLブロックコンポーネントが必要になる。もしなければ、認証情報、ID情報、またはバンキング情報を盗むべく設計されたサイトにすぐに行き当たってしまうのが落ちである。悪意のあるファイルを識別することを目的に設計されたソリューションでは、インターネット上の脅威から身を守るのに十分とは言えない。

2つには、間違いなくエクスプロイトに対する保護が必要になる。エクスプロイトは、サイバーキルチェーンにおけるチョークポイントである。侵害されたサイトまたは悪意のあるサイトは何十万とあり、また、悪意のあるファイルも何十万種もある。しかし、エクスプロイトは、それほど種類が多いわけではない。すべての既知のエクスプロイトをブロックすることは、世にあるすべての悪意のサイトやすべてのペイロードが確実に処理されるようにすることに比べれば、はるかに容易なことである。当社、エフセキュアでは、機械学習に依存している社内のオートメーションシステムから、こうしたエクスプロイトを見つけるのに必要となるスレットインテリジェンスを頻繁に収集している。しかし、そうしたルールは、まだ当社の専門技術者によって手書きされたものだ。これは、単にそれほど機械学習に向いているわけではないクライアントサイドの保護技術の1つの例である。

最後に、@kevtownsendから寄せられた質問と私の回答を以下に示す。

機械学習のせいで、サイバーセキュリティ業界の業務は廃れていってしまうのか？

そんなことは絶対にない。マルウェア作者であれ、企業のネットワークの侵害を目論むマルウェアアクターであれ、攻撃者は人間である。彼らは創造的に物事を考え、単にオートメーション化されているだけのソリューションを簡単に回避することができる攻撃を考案する。このため、防御する側も創造的に物事を考えることができなければならない。人工知能が人間レベルの創造性を有するようになるまでは、人間がその分野で不可欠であり続けるだろうと思う。

機械学習エンジンがVirus Totalに統合できるのなら、なぜ、ビヘイビア分析エンジンは統合できないのか？

ビヘイビアエンジンは、Virus Totalのシステムに統合するのが難しい。Virus Totalのシステムで処理されるすべてのサンプルは、各ベンダーの保護ソリューションが含まれた環境で実行される必要がある。実際上、このことは、仮想マシンを立ち上げ、ベンダーの製品をインストールまたはアップデートし、VMにサンプルを入れて実行し、その製品による判定を取り出してVMを破棄する、ということを意味する。こうしたことはすべて、マルウェアがそこから拡散しないようにするために、特別なネットワーク状況下で行われなければならない。

こうした全体のプロセスは、極度にリソース集約型であるだけでなく、メンテナンスが非常に厄介である。VTのシステムにはすでに50以上の製品が含まれていることを考えてみれば、特にそう思える。たとえ、1日につき、ベンダー50社 × サンプル500,000件についてこうした処理を行えるだけのインフラがVTにあったとしても、環境のメンテナンスを行い、製品を最新に保つために多くのスタッフを雇う必要が生じる。

機械学習検出エンジンとビヘイビア検出エンジンとの間には本質的な違いがあるのか？

これはリンゴとオレンジを比べるようなものであって、比べようがない。機械学習技術は、クライアントサイドの検出ロジックを「トレーニング」するのに用いられる。実際の機械学習プロセスは、大量のサンプルとかなり高い処理能力を必要とするため、強大なバックエンドインフラで処理される。検出ロジックのセットが生成されたら、製品のアップデートを通じてクライアントに提供される。中には、ルール、シグネチャ、またはデータベースについて特に触れないベンダーもあるが、彼らの製品にも何らかの形でそれらが含まれている。データベースがバイナリ本体に組み込まれているとしても、それはやはりデータベースである。機械学習は、ファイルの構造やそのビヘイビア、またはその両方に基づいて疑わしさを検出するように設計されたロジックをトレーニングするのに用いることができる。

よくある派手な宣伝文句を鵜呑みにしてはならない、と声を大にして言っておきたい。ほとんどの「AV」ベンダーは、すでに何年もの間、機械学習技術を使用してルールやロジックを作成してきたのだ。

テーマのトレンド

機械学習の現状はどうなっているか

F-Secure Japan

F-Secure Japan

注目記事

関連する投稿

テーマのトレンド

機械学習の現状はどうなっているか

共有

共有

注目記事

関連する投稿