rnn-t

エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)

１．エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)まとめ・音声データからニューラルネットワークが学習した「知識」の多くは他の言語に流用できる・この洞察を元に利用可能な音声データが多い言語で学習した結果をマイナーな言語に転用...

2019.10.02

モデル

１．音響的な手がかりと言語的な手がかりを使って発言者を特定する(3/3)まとめ・TPUなどのアクセラレータとTensorFlowの効率的なアルゴリズムにより効率的な開発ができた・統合モデルは音声認識と同じ様にトレーニングできるが発言者の役割...

2019.08.23

学習手法

１．音響的な手がかりと言語的な手がかりを使って発言者を特定する(2/3)まとめ・従来のアプローチには、進歩を妨げるいくつかの制限があり改良版も全ての制限を回避はできていない・今回新しく提案された手法は音響的な手がかりと言語的な手がかりをシー...

2019.08.22

入門／解説

１．音響的な手がかりと言語的な手がかりを使って発言者を特定する(1/3)まとめ・スピーカーダイアライゼーション(Speaker Diarization)は「誰が何を発言したのか？」を認識する技術・従来は発言者が変化した事を認識するシステムと...

2019.08.21

学習手法

１．RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(1/2)まとめ・スマホで実行可能ニューラルネットワークベースの音声認識が発表・音声をクラウドに送って認識する従来型システムより応答が早い・コネクショニスト時間...

2019.03.18

モデル