speech recognition

アプリケーション

発声に困難を抱える人を自分自身の声で話せるようにする試み(2/2)

1.発声に困難を抱える人を自分自身の声で話せるようにする試み(2/2)まとめ ・通常のNATモデルはカンマの後にくる「two」と「too」を混同してしまう ・PnG NATモデルは、入力として音素に加えて書記素を受け取るので空白を適切に扱え...
アプリケーション

発声に困難を抱える人を自分自身の声で話せるようにする試み(1/2)

1.発声に困難を抱える人を自分自身の声で話せるようにする試み(1/2)まとめ ・ルー・ゲーリッグはALSで亡くなった野球選手で最も幸運な男というスピーチを行った ・ALSを発症して発声が困難になった元NFL選手がゲーリッグのスピーチを自声で...
学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)まとめ ・HuBERTは完全に音声データだけでトレーニングされたNLPシステムを開発するのに役立つ ・AI音声アシスタントは人が発音するニュアンスや感情を考慮し...
学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)まとめ ・他の人の話を聞いたり交流するだけで音声をよりよく認識して学習するAIは大きな目標 ・実現には単語だけでなく話者の個性、感情、割り込みなど、多くを分析す...
アプリケーション

FRILL:TensorFlow-Liteを使用したオンデバイスで動作可能な音声特徴表現(1/2)

1.FRILL:TensorFlow-Liteを使用したオンデバイスで動作可能な音声特徴表現(1/2)まとめ ・昨年、音声の特徴表現を比較するベンチマークと新しい音声特徴表現モデルTRILLを公開 ・TRILLは有用だが単純な音声特徴を処理...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ ・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる ・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上 ...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能 ・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が...
アプリケーション

VoiceFilter-Lite:オンデバイス音声認識の改善(2/2)

1.VoiceFilter-Lite:オンデバイスの音声認識の改善(2/2)まとめ ・VoiceFilter-Liteは使用者が自分の音声を登録しなかった場合はアプリ側で無効化できる ・音声分離モデルに発生しがちな抑制不足と抑制過剰への対処...
アプリケーション

VoiceFilter-Lite:オンデバイス音声認識の改善(1/2)

1.VoiceFilter-Lite:オンデバイスの音声認識の改善(1/2)まとめ ・2018年に自分の声を登録して音声認識機能をパーソナライズするVoiceFilterを発表 ・VoiceFilterは成功したがスマートフォンなどのデバイ...
モデル

自己教師学習で音声特徴表現と個人専用モデルを改善(2/2)

1.自己教師学習で音声特徴表現と個人専用モデルを改善(2/2)まとめ ・同じ音声のembeddingは、別の音声のembeddingよりembedding空間内で近い場所に位置するはず ・これを利用しBERTと同様なデータ自体の構造にのみ依...
学習手法

自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)

1.自己教師学習で音声特徴表現と個人専用モデルを改善(1/2)まとめ ・非セマンティックタスクとは、声の調子など、人間の音声の「意味以外の側面」に焦点を当てたタスク ・従来のベンチマークでは非セマンティックタスク用の特徴表現が有用か否かを比...
その他の分野

Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)

1.Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)まとめ ・Live Captionを長時間駆動させる事を可能にするために様々な工夫が行われている ・例えばASR用のRNN-Tエンジンは電力消費が激しいので発話...