音声認識

データセット

発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(2/2)

1.発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(2/2)まとめ ・全体的にパーソナライズ手法は全重症度レベルと条件にわたって大幅な改善をもたらした ・個人向けに最適化されたASRモデルの単語誤り率は人...
データセット

発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(1/2)

1.発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(1/2)まとめ ・自動音声認識(ASR)テクノロジーは発声に困難を持つ個人を支援する可能性を秘めている ・ASRの精度向上は著しいが発声に困難を持つ個人...
学会

NeurIPS 2019におけるGoogleの存在感

1.NeurIPS 2019におけるGoogleの存在感まとめ ・最大の機械学習学会である第33回Neural Information Processing Systemsが開催 ・Googleからは500名以上の研究者が貢献及び学習のため...
入門/解説

RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)

1.RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)まとめ ・ユーザーニーズに最適に対応するためにユーザーと対話を行う推薦システム、CIRが有望視されている ・しかし、CIRはユーザと対話するアルゴ...
その他の分野

Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)まとめ ・Live Captionを長時間駆動させる事を可能にするために様々な工夫が行われている ・例えばASR用のRNN-Tエンジンは電力消費が激しいので発話...
学習手法

Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(1/2)まとめ ・音声コンテンツに字幕を付ける新しいAndroidの機能、Live Captionが発表された ・現在Pixel 4およびPixel 4 XLで利用可能...
入門/解説

M4:超多言語、大規模ニューラル機械翻訳(1/3)

1.M4:超多言語、大規模ニューラル機械翻訳(1/3)まとめ ・機械翻訳システムの品質は飛躍的に進歩しているが品質は学習用データの量に依存している ・学習用データが少ない言語では学習用データが多い言語ほど品質を向上できていない問題がある ・...
モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)まとめ ・多言語モデルはトレーニングセット内に頻繁に表れる言語の特徴表現からより多くの影響を受ける ・利用可能なデータが多い言語から多くの影響を受けてしまうので言語情報を入...
モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)まとめ ・音声データからニューラルネットワークが学習した「知識」の多くは他の言語に流用できる ・この洞察を元に利用可能な音声データが多い言語で学習した結果をマイナーな言語に...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ ・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難 ・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価 ・動画内の音声...
学習手法

音響的な手がかりと言語的な手がかりを使って発言者を特定する(3/3)

1.音響的な手がかりと言語的な手がかりを使って発言者を特定する(3/3)まとめ ・TPUなどのアクセラレータとTensorFlowの効率的なアルゴリズムにより効率的な開発ができた ・統合モデルは音声認識と同じ様にトレーニングできるが発言者の...
入門/解説

音響的な手がかりと言語的な手がかりを使って発言者を特定する(2/3)

1.音響的な手がかりと言語的な手がかりを使って発言者を特定する(2/3)まとめ ・従来のアプローチには、進歩を妨げるいくつかの制限があり改良版も全ての制限を回避はできていない ・今回新しく提案された手法は音響的な手がかりと言語的な手がかりを...