音声認識 | ページ 2

音響的な手がかりと言語的な手がかりを使って発言者を特定する(1/3)

１．音響的な手がかりと言語的な手がかりを使って発言者を特定する(1/3)まとめ・スピーカーダイアライゼーション(Speaker Diarization)は「誰が何を発言したのか？」を認識する技術・従来は発言者が変化した事を認識するシステ...

2019.08.21

学習手法

１．Project Euphoniaの非標準音声用にパーソナライズした音声認識(2/2)まとめ・部調整モデルはASLスピーチに関しては、ベースラインモデルに比べてかなり改善する事が検証された・2つのレイヤーの微調整だけで全体を微調整した...

2019.08.20

学習手法

１．Project Euphoniaの非標準音声用にパーソナライズした音声認識(1/2)まとめ・Project Euphoniaは音声認識モデルを改良して様々な非定形音声を適切に転写する事が目標・一般的な音声モデルでトレーニングした後に...

2019.08.19

学習手法

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある・第一に仮に誤認識をしても、音響的に似...

2019.07.21

モデル

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(2/3)まとめ・Parrotronは二段階にわけて学習を行う・第一段階は様々な音声データを単一の音声に変換する事前学習・第二段階では話者に特有の発声、...

2019.07.20

モデル

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(1/3)まとめ・発声に困難を抱える人々にとってスマートスピーカなどの音声インターフェースは利用が難しい・Parrotronは流暢でない非定型の発声パター...

2019.07.19

AI関連その他

１．機械学習を使ってバスの運行情報を予測(1/3)まとめ・GoogleMapにバスの運行情報を予測する機能が搭載された・従来の経路案内もリアルタイム交通情報が提供されていると考慮していた・今回のバスの運行予測は交通情報が提供されていな...

2019.06.30

入門／解説

１．カメラの時代：Google Lensの1年間(1/2)まとめ・Google Lensを使うとカメラに写した物体が何であるかを検索する事が出来る・これにより言葉で表現する事が難しいような特徴をカメラで撮影する事で検索できる・Goog...

2019.06.20

入門／解説

１．Translatotron：入力された音声を外国語の音声に直接翻訳する試み(2/2)まとめ・Translatotronの翻訳品質は現時点ではまだ従来手法のシステムに劣る・しかし、従来システムでは難しい声質の保存や推論速度の速さなどポ...

2019.05.20

モデル

１．Translatotron：入力された音声を外国語の音声に直接翻訳する試み(1/2)まとめ・従来の音声翻訳システムは入力された音声を一旦テキストにし、それを翻訳して再び音声に戻していた・Translatotronは中間のテキストを生...

2019.05.19

モデル

１．SpecAugment：音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentにより学習データの追加でパラメータ等を変更せずともネットワークの性能向上が可能・またSpecAugmentは故意に破損したデータを...

2019.04.26

入門／解説

１．SpecAugment：音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentは学習用の音声データを水増しする手法で従来手法より効率的な水増しが可能・音声データのままではなく音声データを画像データに変換してか...

2019.04.25

入門／解説