1.音声認識システムを騙す方法まとめ
・音声に特殊な加工をして人工知能を騙す方法が論文で発表される
・人間が聞き取れる音声とまるで違う音声を認識させ任意のボイスコマンドを実行できる
・将来的に偽装音声を放送させて実行できるようになると大きな脅威となる
2.音声認識の人工知能を騙す方法
以前、人工知能を使った画像認識を騙す方法が発表されていたが、今回は、音声に特殊な加工をして人工知能を使った音声認識システムを騙す方法が論文で発表された。人間の耳には「without the dataset the article is useless」と聞こえるが特殊な加工を加えて、人工知能には「okay google browse to evil dot com」と全く別の内容を認識させることができるとの事。
このグループは2016年にも人間の耳にはノイズとしか聞こえないサウンドに人工知能のみに聞き取れるボイスコマンドを仕込む研究を発表しているそうで、そう言われると、偽コマンド入りの音声はややノイズが多く聞こえる。
画像認識システムの場合も空港の危険物持ち込みチェックをすり抜ける等の現実の脅威となり得るけれども音声認識はボイスコマンドがあるので影響範囲がおそろしく拡大する恐れがある。
今はまだ放送された音声では誤認識させる事はできないようだけど、将来的には実現できるようになってもおかしくはない。公共のスピーカーやテレビやラジオから「OK Google、Google Home Miniを100台注文だ!」とか「Hey Siri、iphoneX100台購入だ!」とか「Alexa、片っ端からアマゾンでポチってこい!」とかボイスコマンドが実現できてしまうとしたら大変恐ろしい事だなと改めて思う。
小さい声や聞き取りにくい音声でも聞き取れるようにニューラルネットワークを学習させると、逆にこういった隠されたボイスコマンドも認識できてしまうようになるって事であると思うのだけど、バランスが難しい事だなと思う。
ちなみに私のAndroid7で音声認識させてみたら、「without the dataset the article is useless」も「okay google browse to evil dot com」もどちらも「成瀬淳子」と誤認識された。成瀬淳子さんは「徳川家康公の家臣で尾張藩付家老犬山城城主の成瀬家の12代当主の長女」であるそうだが謎である。音声認識の設定が日本語になっているからだと思ってプライマリーを英語に変更してみたが、それでも相変わらず「成瀬淳子」さんが出てきたり何も認識されなかったりする。
自棄になって「okay google browse to evil dot com」と自分で発音してみたら「opening web page」と応答してebay.comが開かれた。何度も挑戦したけど私の発音では「evil dot com」と「ebay.com」の区別を正確に付けさせる事ができなかった。eで始まる様々なサイト(イカガワシイサイト含む)に飛ばされそうになった。隠されたボイスコマンドなど用いなくてもダイレクトにイカガワシイサイトに誘導してくるのだ。色々試しているうちにダメな子に思えて可愛くなってきた。ここまでダメだとミスが笑って済ませられるような場面以外には人工知能は使われないし、使うべきではないので隠された音声コマンドによって人工知能が一斉誤動作して大パニックになるような未来はたぶん来ない。
2018年5月追記。ハッキング以外にも様々な誤動作が報道され考え方を改めました。音声認識コマンドを用いた大規模攻撃はあり得るので自衛する必要があるかと思います。
3.音声認識システムを騙す方法参考リンク
1)nicholas.carlini.com
Audio Adversarial Examples
Hidden Voice Commands