asr

データセット

発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(1/2)

1.発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(1/2)まとめ ・自動音声認識(ASR)テクノロジーは発声に困難を持つ個人を支援する可能性を秘めている ・ASRの精度向上は著しいが発声に困難を持つ個人...
学習手法

音響的な手がかりと言語的な手がかりを使って発言者を特定する(1/3)

1.音響的な手がかりと言語的な手がかりを使って発言者を特定する(1/3)まとめ ・スピーカーダイアライゼーション(Speaker Diarization)は「誰が何を発言したのか?」を認識する技術 ・従来は発言者が変化した事を認識するシステ...
学習手法

Project Euphoniaの非標準音声用のパーソナライズされた音声認識(2/2)

1.Project Euphoniaの非標準音声用にパーソナライズした音声認識(2/2)まとめ ・部調整モデルはASLスピーチに関しては、ベースラインモデルに比べてかなり改善する事が検証された ・2つのレイヤーの微調整だけで全体を微調整した...
学習手法

Project Euphoniaの非標準音声用のパーソナライズされた音声認識(1/2)

1.Project Euphoniaの非標準音声用にパーソナライズした音声認識(1/2)まとめ ・Project Euphoniaは音声認識モデルを改良して様々な非定形音声を適切に転写する事が目標 ・一般的な音声モデルでトレーニングした後に...
入門/解説

SpecAugment:音声認識のために学習データを水増しする(1/2)

1.SpecAugment:音声認識のために学習データを水増しする(1/2)まとめ ・SpecAugmentは学習用の音声データを水増しする手法で従来手法より効率的な水増しが可能 ・音声データのままではなく音声データを画像データに変換してか...