speech recognition

モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(2/2)まとめ ・多言語モデルはトレーニングセット内に頻繁に表れる言語の特徴表現からより多くの影響を受ける ・利用可能なデータが多い言語から多くの影響を受けてしまうので言語情報を入...
モデル

エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)

1.エンドツーエンドモデルによる多言語リアルタイム音声認識(1/2)まとめ ・音声データからニューラルネットワークが学習した「知識」の多くは他の言語に流用できる ・この洞察を元に利用可能な音声データが多い言語で学習した結果をマイナーな言語に...
学会

Google at Interspeech 2019

1.Google at Interspeech 2019まとめ ・オーストリアで国際音声コミュニケーション協会の第20回年次会議(Interspeech 2019)が開催 ・GoogleはInterspeech 2019のゴールドスポンサー...
その他の調査

長文を読みあげる合成音声の品質を評価する(2/2)

1.長文を読みあげる合成音声の品質を評価する(2/2)まとめ ・複数の文が含まれる長文を評価する事は人間の音声を評価対象にしても評価がぶれる ・長文を読みあげる合成音声の評価は簡単ではなく、人間の行動真理などが関係している可能性がある ・段...
入門/解説

長文を読みあげる合成音声の品質を評価する(1/2)

1.長文を読みあげる合成音声の品質を評価する(1/2)まとめ ・合成音声の品質評価は従来1文ごとに行われており、文脈の中で評価する統一基準は存在しない ・しかし評価対象の文を長い文章の一部として評価すると従来と来なる評価基準が採用されている...
学習手法

音響的な手がかりと言語的な手がかりを使って発言者を特定する(3/3)

1.音響的な手がかりと言語的な手がかりを使って発言者を特定する(3/3)まとめ ・TPUなどのアクセラレータとTensorFlowの効率的なアルゴリズムにより効率的な開発ができた ・統合モデルは音声認識と同じ様にトレーニングできるが発言者の...
入門/解説

音響的な手がかりと言語的な手がかりを使って発言者を特定する(2/3)

1.音響的な手がかりと言語的な手がかりを使って発言者を特定する(2/3)まとめ ・従来のアプローチには、進歩を妨げるいくつかの制限があり改良版も全ての制限を回避はできていない ・今回新しく提案された手法は音響的な手がかりと言語的な手がかりを...
学習手法

Project Euphoniaの非標準音声用のパーソナライズされた音声認識(2/2)

1.Project Euphoniaの非標準音声用にパーソナライズした音声認識(2/2)まとめ ・部調整モデルはASLスピーチに関しては、ベースラインモデルに比べてかなり改善する事が検証された ・2つのレイヤーの微調整だけで全体を微調整した...
学習手法

Project Euphoniaの非標準音声用のパーソナライズされた音声認識(1/2)

1.Project Euphoniaの非標準音声用にパーソナライズした音声認識(1/2)まとめ ・Project Euphoniaは音声認識モデルを改良して様々な非定形音声を適切に転写する事が目標 ・一般的な音声モデルでトレーニングした後に...
モデル

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある ・第一に仮に誤認識をしても、音響的に似...
モデル

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(2/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(2/3)まとめ ・Parrotronは二段階にわけて学習を行う ・第一段階は様々な音声データを単一の音声に変換する事前学習 ・第二段階では話者に特有の発声、...
AI関連その他

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(1/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(1/3)まとめ ・発声に困難を抱える人々にとってスマートスピーカなどの音声インターフェースは利用が難しい ・Parrotronは流暢でない非定型の発声パター...