end-to-end

データセット

CVSS:大規模多言語音声間翻訳データセット(1/2)

1.CVSS:大規模多言語音声間翻訳データセット(1/2)まとめ・ある言語の音声を別の言語の音声に自動翻訳する事を音声合成翻訳(S2ST)という・S2STは直接翻訳するタイプと複数システムを連結して実現する2種が存在する・直接型のS2STの...
モデル

MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(1/2)

1.MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(1/2)まとめ・パノプティックはセマンティックとインスタンスの両セグメンテーションを統合したもの・従来の最高手法は画像から直接求め...
モデル

Transporter Networks:物体の再配置問題を改善してロボットの性能を向上(2/2)

1.Transporter Networks:物体の再配置問題を改善してロボットの性能を向上(2/2)まとめ・Transporter Netはサンプル効率が高く100回のデモで多くのタスクで90%以上の成功率・Transporter Net...
モデル

Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

1.Parrotron:発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある・第一に仮に誤認識をしても、音響的に似た音...