speech recognition

モデル

Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)

1.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)まとめ・Translatotronの翻訳品質は現時点ではまだ従来手法のシステムに劣る・しかし、従来システムでは難しい声質の保存や推論速度の速さなどポテン...
モデル

Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)

1.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)まとめ・従来の音声翻訳システムは入力された音声を一旦テキストにし、それを翻訳して再び音声に戻していた・Translatotronは中間のテキストを生成せ...
入門/解説

SpecAugment:音声認識のために学習データを水増しする(2/2)

1.SpecAugment:音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentにより学習データの追加でパラメータ等を変更せずともネットワークの性能向上が可能・またSpecAugmentは故意に破損したデータを与え...
入門/解説

SpecAugment:音声認識のために学習データを水増しする(1/2)

1.SpecAugment:音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentは学習用の音声データを水増しする手法で従来手法より効率的な水増しが可能・音声データのままではなく音声データを画像データに変換してから水...
モデル

RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)

1.RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)まとめ・RNN-Tモデルは従来モデルに比べて1/5のサイズ圧縮に成功・更にTensorFlow Liteのモデル最適化ツールキットで1/4にサイズを圧...
モデル

RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(1/2)

1.RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(1/2)まとめ・スマホで実行可能ニューラルネットワークベースの音声認識が発表・音声をクラウドに送って認識する従来型システムより応答が早い・コネクショニスト時間...
入門/解説

Live Transcribe:音声を文章にリアルタイム変換するAndroidアプリ

1.Live Transcribe:音声を文章にリアルタイム変換するAndroidアプリまとめ・Live Transcribeは音声を文章にリアルタイム変換して聴覚障害者の日常会話への参加を助けるAndroidアプリ・使い勝手の調査から研究...
学習手法

教師あり学習を使い音声データから個々人の声を聞き分ける

1.教師あり学習を使い音声データから個々人の声を聞き分けるまとめ・音声データから誰が話しているか話し手を区別するダイアリゼ―ションの新手法の発表・教師あり学習ができるためラベル付きデータを有効活用して教師あり学習で品質を向上できる・従来のク...
AI関連その他

何が機械学習のキラーアプリケーションと成り得るか?

1.何が機械学習のキラーアプリケーションと成り得るか?まとめ・機械学習による画像認識や画像分類、音声認識は非可逆的な圧縮処理と見なせる・計算機資源が十分でないために実現はまだできていないが圧縮は大きな可能性がある・圧縮はお金をかけるべきソリ...
モデル

Looking to Listen:動画から個々の音声を切出す試み

1.Looking to Listen:動画から個々の音声を切出す試みまとめ・Googleがカクテルパーティー効果を人工知能で実現・複数の人が同時にしゃべっている動画から個別の音声を抜き出せた・動画と音声の解析を連動させている事がTacot...
入門/解説

頭の中の言葉を読み取る機械

1.頭の中の言葉を読み取る機械まとめ・言葉に出さずとも言葉を読み取ってくれる機械が公開・人工知能が顎近辺の神経筋の信号から言葉を読みとると言う・現時点では個別チューニングと訓練が必要と言う2.AlterEgoとは?MITが開発したAlter...
学習手法

タコトロンによる音声合成の表現力を向上

1.タコトロンによる音声合成の表現力を向上まとめ・Googleが文書読み上げシステムTacotronでprosodyを実現・prosodyとは発話の強弱やリズム、イントネーションで話者固有の抑揚・動画からノイズを取り除いてスピーチの再構築す...