GoogleのAI研究チームの2017年成果２クリエイティブ編（音声）

１．GoogleのAI研究チームの2017年成果２クリエイティブ編（音声）まとめ

・機械学習を使って新しい音を作り出す研究も進んでいる（NSynth）
・猫の声とフルートの音から特徴量を抜き出し、猫の声のようなフルートを作れる
・機械学習の仕組みが不完全さ、揺らぎにつながりそれがNSynthの個性になっている

２．NSynthとは？

インターネットからクローリングした沢山の画像を人工知能に学習させて、架空のアイドルやセレブの顔を合成する試みは最近流行しているが、それの音声版がNSynth。

従来の音声合成は
・猫の声の波形
・フルートの音の波形
を合成して猫フルートを作成していた。

NSynthでは
・猫の声を猫の声と特徴づける何か
・フルートの音をフルートの音と特徴づける何か
を合成して「猫の声の特徴とフルートの音の特徴を持った音」を合成できる。

正直な感想、画像の場合は特徴量合成が非常にわかりやすいけど音声の場合は「これはギターと風の特徴量を合わせた音です！」と言われてもあまりピンと来ない。

ただ、従来のコンピュータミュージックは音の長さや音程が完璧すぎるので、それがコンピュータミュージックの機械的な冷たさに繋がってしまっていた。それに対してNSynthは機械学習のせいで不完全さ、揺らぎがありそれが個性に繋がっている、と言う話が大変興味深かった。

この技術は初音ミク等のVOCALOIDをより人間っぽく歌わせる事に応用できそうな気がする。また、動画中のミュージシャンよりミュージシャンっぽい格好をしているエンジニアのお兄さんの「機械学習は基本的に「文脈の単純化」と捉える事が出来る」の発言も心に残った。

３．関連リンク

１）youtube
機械学習でまったく新しい音を作るには – feat. アンドリューホァン