音声

基礎理論

機械学習のトップマインドによる2020年のAI予測(3/3)

1.機械学習のトップマインドによる2020年のAI予測(3/3)まとめ ・ニューラルネットワークを訓練する際の計算は非常に無駄が多く根本的な再考が必要 ・AIの解釈可能性の向上にはニューラルシンボリックアプローチが有用とIBMは考えている ...
入門/解説

Googleトレンドで振り返る2019年の日本のAI関連トレンド

1.Googleトレンドで振り返る2019年の日本のAI関連トレンドまとめ ・アマテラスAI ・美空ひばり ai ・ai 菜奈ちゃん 2.2019年に日本でトレンドになったAI関連キーワードとは? タイトルの通り、Googleトレンドで20...
学習手法

Recorder:Pixelスマートフォン用の検索可能な録音アプリ(2/2)

1.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(2/2)まとめ ・Recorderは音声を50ms単位で小さく分析し正確に音声イベントの開始時間と終了時間を特定している ・音声分類結果が目まぐるしく変わらないようにa...
学習手法

Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)

1.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)まとめ ・録音音声をリアルタイムで書き起こしてタグ付けし、検索しやすくするPixel用アプリが公開 ・Recorderと名付けられたこのアプリはオンデバイスで動...
公平性

Fairness Indicator:公正な機械学習を構築するためのツール(3/3)

1.Fairness Indicator:公正な機械学習を構築するためのツール(3/3)まとめ ・Fairness IndicatorsはTensorFlow関連のツールを使っていると簡単に呼び出す事が出来る ・TensorFlow関連のツ...
学会

NeurIPS 2019におけるGoogleの存在感

1.NeurIPS 2019におけるGoogleの存在感まとめ ・最大の機械学習学会である第33回Neural Information Processing Systemsが開催 ・Googleからは500名以上の研究者が貢献及び学習のため...
入門/解説

RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)

1.RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)まとめ ・ユーザーニーズに最適に対応するためにユーザーと対話を行う推薦システム、CIRが有望視されている ・しかし、CIRはユーザと対話するアルゴ...
モデル

SPICE:自己教師学習で音の高さを推定

1.SPICE:自己教師学習で音の高さを推定まとめ ・メロディーを認識するためには音の高さの変化、つまりピッチの変化を追跡する能力が必要 ・しかし音の高さをそのまま認識する絶対音感より相対的に認識する相対音感の方が人間の脳でも一般的 ・SP...
その他の分野

Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)まとめ ・Live Captionを長時間駆動させる事を可能にするために様々な工夫が行われている ・例えばASR用のRNN-Tエンジンは電力消費が激しいので発話...
学習手法

Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)まとめ ・音声コンテンツに字幕を付ける新しいAndroidの機能、Live Captionが発表された ・現在Pixel 4およびPixel 4 XLで利用可能...
入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)まとめ ・FADとFVDによる評価が人間による評価を厳密に相関する事は実際のデータを使った検証された ・同じ音声を異なった2つの手段で歪ませて、どちらがよりすぐ実音声に近い...
入門/解説

フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)まとめ ・GANの品質を測定する手法としてFID、フレシェ インセプション 距離がある ・FIDの原則に基づいてフレシェビデオ距離(FVD)とフレシェオーディオ距離(FAD...