音声 | ページ 10

Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある・第一に仮に誤認識をしても、音響的に似...

2019.07.21

モデル

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(2/3)まとめ・Parrotronは二段階にわけて学習を行う・第一段階は様々な音声データを単一の音声に変換する事前学習・第二段階では話者に特有の発声、...

2019.07.20

モデル

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(1/3)まとめ・発声に困難を抱える人々にとってスマートスピーカなどの音声インターフェースは利用が難しい・Parrotronは流暢でない非定型の発声パター...

2019.07.19

AI関連その他

１．データ拡張を教師なしで実現し半教師付き学習の性能を向上(1/2)まとめ・ラベル付きデータが不足している際にデータを水増しする手法は進歩している・しかし、基本的には教師付き学習でのみ利用可能な手法であった・今回、ラベルなしデータを教...

2019.07.14

入門／解説

１．機械学習を使ってバスの運行情報を予測(1/3)まとめ・GoogleMapにバスの運行情報を予測する機能が搭載された・従来の経路案内もリアルタイム交通情報が提供されていると考慮していた・今回のバスの運行予測は交通情報が提供されていな...

2019.06.30

入門／解説

１．カメラの時代：Google Lensの1年間(1/2)まとめ・Google Lensを使うとカメラに写した物体が何であるかを検索する事が出来る・これにより言葉で表現する事が難しいような特徴をカメラで撮影する事で検索できる・Goog...

2019.06.20

入門／解説

１．Translatotron：入力された音声を外国語の音声に直接翻訳する試み(2/2)まとめ・Translatotronの翻訳品質は現時点ではまだ従来手法のシステムに劣る・しかし、従来システムでは難しい声質の保存や推論速度の速さなどポ...

2019.05.20

モデル

１．Translatotron：入力された音声を外国語の音声に直接翻訳する試み(1/2)まとめ・従来の音声翻訳システムは入力された音声を一旦テキストにし、それを翻訳して再び音声に戻していた・Translatotronは中間のテキストを生...

2019.05.19

モデル

１．MuseNet:ショパン風のレディガガ、ビートルズ風のハリポッターのテーマ(1/4)まとめ・MuseNetは楽曲のスタイルを他の楽曲にコピーできる人工知能・大きな違和感を感じないような自然な形で異なったスタイルを融合可能・従来の同...

2019.05.04

モデル

１．2019年4月時点のGANに関する未解決な問題(3/7)まとめ・GANを画像以外の領域に適用する試みは主に３分野で、文章、構造型データ、音声・音声が最も有望な分野であるが、現時点ではまだ限定的な成功に留まっている・GANが他の連続...

2019.04.29

入門／解説

１．SpecAugment：音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentにより学習データの追加でパラメータ等を変更せずともネットワークの性能向上が可能・またSpecAugmentは故意に破損したデータを...

2019.04.26

入門／解説

１．SpecAugment：音声認識のために学習データを水増しする(1/2)まとめ・SpecAugmentは学習用の音声データを水増しする手法で従来手法より効率的な水増しが可能・音声データのままではなく音声データを画像データに変換してか...

2019.04.25

入門／解説