音声

AI関連その他

Model Search:最適なMLモデルを見つけるためのオープンソースプラットフォーム(2/2)

1.Model Search:最適なMLモデルを見つけるためのオープンソースプラットフォーム(2/2)まとめ ・Model Searchは自分で選択したアーキテクチャで構築された新しい探索スペースも利用可能 ・Model Searchに実装...
入門/解説

50億のパラメータを持つ人工知能はどこかぁ~に君ぃ~を隠しているからぁ~♪の続きを歌えるのか?

1.50億のパラメータを持つ人工知能はどこかぁ~に君ぃ~を隠しているからぁ~♪の続きを歌えるのか?まとめ ・10億版に比べて50億版の表現力は明らかにあがっており違和感が減っている ・特に英語の歌では人工知能によって補完された歌である事に気...
アプリケーション

IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(2/2)

1.IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(2/2)まとめ ・デバイス上で実行するためバックボーンの幅と深さをパフォーマンスに影響を与えずに削減 ・バックボーン選択後ニューラルアーキテクチャ探索(NAS...
アプリケーション

IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)

1.IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)まとめ ・Android用アプリのVoice Accessを使用するとユーザーは口頭で指示してアプリ操作可能 ・アイコン情報を提供していないアプリもあ...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ ・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる ・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上 ...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能 ・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が...
アプリケーション

Googleマップでインドの言葉の翻字を改善(1/2)

1.Googleマップでインドの言葉の翻字を改善(1/2)まとめ ・日本だと「Google 渋谷」でも「グーグル 渋谷」でも渋谷のGoogle入居ビルを捜せる ・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模 ・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明 ・R...
基礎理論

RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ ・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題 ・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度...
入門/解説

10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?

1.10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?まとめ ・未完の文章や画像の続きを作風を合わせて完成させる事が出来る人工知能が発表されている ・Jukeboxは同様に生の音楽のイントロの続きを...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...