何が機械学習のキラーアプリケーションと成り得るか？

１．何が機械学習のキラーアプリケーションと成り得るか？まとめ

・機械学習による画像認識や画像分類、音声認識は非可逆的な圧縮処理と見なせる
・計算機資源が十分でないために実現はまだできていないが圧縮は大きな可能性がある
・圧縮はお金をかけるべきソリューションと認識されているため一度広まれば収益化も容易

２．圧縮は機械学習のキラーアプリケーションと成り得る！

以下、petewarden.comより「Will Compression Be Machine Learning’s Killer App?」の意訳です。元記事の投稿は2018年10月16日で、Pete Wardenさんによる投稿です。

私がスマートフォンやオンデバイスの機械学習について講演している時、しばしば「キラーアプリケーションは何ですか？」と尋ねられます。私は、音声インターフェイスからまったく新しいセンサデータ使用方法まで、さまざまな答えをたくさん持っていますが、私が仲間内で最も可能性に興奮しているのは圧縮です。研究コミュニティではかなりよく知られていますが、これは多くの人々を驚かせるようです。なぜ私は圧縮がとても有望であると思うのか私の個人的な思考の一部を今回の投稿でシェアしたいと思いました。

OSDIの論文「Neural Adaptive Content-aware Internet Video Delivery」を読んだときの事を思い出します。要約すると、ニューラルネットワークを使用することにより、同じ帯域幅であれば人間が感じ取れる品質を43％向上させることができ、逆に人間が同品質と認知出来る品質を維持しながら帯域幅を17％削減することができたそうです。他にも同様な圧縮手法や画像圧縮に関する論文も存在し、これらは全て印象的な成果を出しています。圧縮に関する機械学習アプリケーションについてもっと知りたいと思いませんか？

私たちは（まだ）圧縮に使えるほど高性能なコンピューターを持っていません
これらのアプローチはすべて、比較的大きなニューラルネットワークを必要とし、必要とされる計算量は画像のピクセル数に比例します。つまり、1秒あたりのフレーム数が多い大きな画像やビデオは、現在のスマートフォンやその他の類似デバイスよりも多くの計算能力を必要とします。

ほとんどのCPUは1秒間に何十億もの算術演算しか処理することができず、HDビデオを機械学習で圧縮するためにはその10倍以上の性能が必要になります。良いニュースは、エッジTPUのようなハードウェアソリューションが開発されつつあり、将来的にはより多くのコンピューターパワーが利用できそうだということです。ビデオや画像、オーディオ、さらに想像力豊かなアプローチから、あらゆる種類の圧縮問題にこれらのリソースを適用できることが期待できます。

自然言語は究極の圧縮です
私がMLが圧縮に適していると考えている理由の1つは、直近で私たちが自然言語処理の分野で何度も興味深い結果を出したことです。
もし、あなたが画像をコンピューターにチラ見せしたら、機械学習はキャプション(見出し)を作り出す事ができます。。それは考えようによっては、イメージを根本的に圧縮した事と見なせます。私が長い間作りたいと思っているプロジェクトの1つは、1秒間に1フレームでキャプションを実行し、それぞれを一連の行としてログファイルに書き出すカメラです。それは、時間の経過とともにカメラが見るものをベースにして非常に単純なストーリーを作り出します。私はそれを物語センサーと考えています。

私がこれを圧縮と考える理由は、作り出したキャプションに生成的なニューラルネットワークを適用すれば画像を再作成できるからです。イメージは入力画像と逐次一致しているわけではありませんが、画像自体は同じ意味を持ちます。オリジナルに近い結果が得られるようにするには、たとえば各シーンの線画を作成するなど、様式化することもできます。これらの手法が共通しているのは、人として私たちが最も重要するインプットの部分を特定し、残りを無視するということです。

画像だけではありません
スピーチの世界にも同様の傾向があります。音声認識は急速に改善されており、音声を合成する能力も向上しています。音声認識は、オーディオを自然言語テキストに圧縮しる事であり、合成は逆に解凍するプロセスと見ることができます。あなたは、サイズの大きい会話の音声ファイルをサイズの小さいテキストファイルに圧縮すると見なすことができるのです。私はこれまでのところ、そこまでする必要はないと思っていますが、音声ファイルを、この新しい考え方を利用してテキストに変換すれば、より良い品質と帯域幅を実現できると思います。

私は、テキスト自体にML圧縮を適用する興味深い可能性も感じています。Andrej Karpathyのchar-rnnは、ニューラルネットワークが事例を元に、そのスタイルを模倣できることを示しています。スタイルを摸倣して適用できる事は、ある種の圧縮と見なす事ができまし。例えば、典型的なHTMLページにどれくらいの冗長性があるか考えてみれば、機械学習が圧縮したgzip形式のファイルを更に改善する機会はあるように思えます。私は機械学習によるテキスト圧縮の論文を手元においているわけではないので、これは一部推測ですけれども。

圧縮にかかる費用はすでに予算として計上されています
私がスタートアップとして立ち上げた会社を企業に売却しようとして失敗したときに学んだことの1つは、扱っていた商品が既に世の中でお金を払うべき商品として認知されていたら、売却をもっとずっと簡単に出来ただろうと言う事です。

顧客と成り得る企業の中で、既に予算化された予算明細が存在すると言う事は、そのソリューションに費用を費やす必要があるかどうか判断する難しい戦いに既に勝利している事を意味します。メーカーはすでにビデオやオーディオの圧縮に必要なエンジニア、月額費用、ストレージ領域を予算として確保しているため、機械学習が圧縮で劇的な成果を成し遂げたらそれに対して支払う企業が出てくるでしょう。これは、私が機械学習による圧縮が成功する可能性があると考えている理由の1つです。既存のソリューションに機械学習を追加することで、測定可能な方法（たとえば品質、スピード、消費電力など）が向上することがわかったら、すぐに採用されるでしょう。

帯域幅はユーザと通信事業者にコストを強います。品質とバッテリ寿命は製品のセールスポイントになるため、圧縮に機械学習を採用するモチベーションは他の多くのユースケースよりもはるかに直接的です。既存の研究は、それが非常に効果的であることを示しています。私は発見すべきものがたくさんあるであろうと楽観的なので、圧縮が機械学習のキラーアプリケーションに発展することを期待しています。