音声

1/24ページ

機械学習を用いて賢い繊維を実現(2/3)

AI

1.機械学習を用いて賢い繊維を実現(2/3)まとめ ・e繊維はシンプルなジェスチャーと操作に対して応答を行う事を設計ガイドラインを定めている ・12人の実験参加者から収集したジェスチャーを機械学習させ94%のジェスチャー認識精度を達成 ・一般的なジェスチャーは指紋センサーの登録と同程度の30秒未満の時間で学習可能 2.ジェスチャーの学習 以下、ai.googleblog.comより「Enablin […]

WaveNetEQでGoogle Duoの通話品質を向上(2/2)

AI

1.WaveNetEQでGoogle Duoの通話品質を向上(2/2)まとめ ・コンディショニングネットワークは抑揚を意識して自己回帰ネットワークをあるべき波形に修正できる ・WaveNetEQの学習時は実際のデータを次のステップの入力に使うteacher forcingを使っている ・48言語の100人以上の音声で学習した結果、WaveNetEQは人間の発声の一般的な特性を学習できた 2.Wav […]

WaveNetEQでGoogle Duoの通話品質を向上(1/2)

AI

1.WaveNetEQでGoogle Duoの通話品質を向上(1/2)まとめ ・Google Duo通話の20%は3%以上の音声データを失い、10%の通話は8%以上の音声データを失っている ・失われた音声データを処理する手法はPLCと呼ばれDuo用の新しいPLCであるWaveNetEQが開発された ・WaveNetEQはDeepMindのWaveRNNに基づく生成モデルで実際の音声に近い音声波形を […]

Open Images V6:新しいタイプの注釈localized narrativesが特徴(2/2)

AI

1.Open Images V6:新しいタイプの注釈localized narrativesが特徴(2/2)まとめ ・Open Images V6では、視覚的関係の注釈の種類を1桁(約1.4k)増やした ・個々のアクションを実行する人間を含んだ250万の注釈も増やした ・2350万の人間が検証した新しい画像レベルのラベルも追加した 2.Open Images V6の収録データ数 以下、ai.goo […]

Open Images V6:新しいタイプの注釈localized narrativesが特徴(1/2)

AI

1.Open Images V6:新しいタイプの注釈localized narrativesが特徴(1/2)まとめ ・多くの点で世界最大の画像データセットであるOpen Imagesのバージョン6が公開 ・バージョン6では新しいタイプの注釈「localized narratives(物語化した注釈)」が追加された ・これはマルチモーダルな注釈、つまり音声や文章、マウスの動きを使って表現した全く新し […]

1 24