アプリケーション

IconNet：スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)

１．IconNet：スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)まとめ・Android用アプリのVoice Accessを使用するとユーザーは口頭で指示してアプリ操作可能・アイコン情報を提供していないアプリもあるの...

2021.02.08

アプリケーション

１．Google Mapで電気自動車用に充電場所を考慮した経路案内を実現(2/2)まとめ・グラフを改良する事でダイクストラで充電時間を考慮した経路を求める事が可能になった・しかし充電ステーションの密度が非常に高い場所ではグラフが巨大になり効...

2021.02.07

アプリケーション

１．Google Mapで電気自動車用に充電場所を考慮した経路案内を実現(1/2)まとめ・ガソリン駆動車の経路案内時には給油場所は問題にならないが電気自動車は考慮が必要・充電時間は総移動時間のかなりの部分を占める可能性があり充電率によっても...

2021.02.06

アプリケーション

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上・表示...

2021.02.04

アプリケーション

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が多く...

2021.02.03

アプリケーション

１．Googleマップでインドの言葉の翻字を改善(2/2)まとめ・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された・今後は他の...

2021.02.02

アプリケーション

１．Googleマップでインドの言葉の翻字を改善(1/2)まとめ・日本だと「Google 渋谷」でも「グーグル渋谷」でも渋谷のGoogle入居ビルを捜せる・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語では...

2021.02.01

アプリケーション

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能・カメラパラメータを使用せずに異なる視点から同じポーズを取得で...

2021.01.25

アプリケーション基礎理論

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる・二次元情報のみを使用して三次元ポーズの類似性を認識できると様々...

2021.01.24

アプリケーション基礎理論

１．Jukebox：歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い・ダウンサンプリングとアップサンプリングを行っているためノイズ...

2021.01.23

アプリケーションモデル

１．Jukebox：歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介・CD品質の音楽は1,000万を超えるタイムステップにな...

2021.01.22

アプリケーションモデル

１．Portrait Light：機械学習を使ってポートレートモードの照明を強化(2/2)まとめ・照明方向とポートレートを指定する照明を元の写真に追加するモデルを学習させた・トレーニングには多数のポートレートが必要でLight Stage計...

2020.12.14

アプリケーション