アプリケーション

アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ ・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる ・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上 ...
アプリケーション

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

1.Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能 ・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が...
アプリケーション

Googleマップでインドの言葉の翻字を改善(2/2)

1.Googleマップでインドの言葉の翻字を改善(2/2)まとめ ・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現 ・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された ・今後...
アプリケーション

Googleマップでインドの言葉の翻字を改善(1/2)

1.Googleマップでインドの言葉の翻字を改善(1/2)まとめ ・日本だと「Google 渋谷」でも「グーグル 渋谷」でも渋谷のGoogle入居ビルを捜せる ・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能 ・カメラパラメータを使用せずに異なる視点から同じポーズを取...
アプリケーション

Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)

1.Pr-VIPE:異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる ・二次元情報のみを使用して三次元ポーズの類似性を認識できると...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...
アプリケーション

Portrait Light:機械学習を使ってポートレートモードの照明を強化(2/2)

1.Portrait Light:機械学習を使ってポートレートモードの照明を強化(2/2)まとめ ・照明方向とポートレートを指定する照明を元の写真に追加するモデルを学習させた ・トレーニングには多数のポートレートが必要でLight Stag...
アプリケーション

Portrait Light:機械学習を使ってポートレートモードの照明を強化(1/2)

1.Portrait Light:機械学習を使ってポートレートモードの照明を強化(1/2)まとめ ・ポートレート写真撮影時にプロはカメラから離した位置で照明器具を使用している ・これをシミュレートするためPixelカメラ及びGoogleフォ...
アプリケーション

MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(2/2)

1.MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(2/2)まとめ ・MediaPipe Holisticは2017年モデルや中価格帯のスマホほぼリアルタイムで実行可能 ・モデルがほとんど独立しているため、速...
アプリケーション

MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(1/2)

1.MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(1/2)まとめ ・MediaPipeはスマホで人間のポーズ、顔、手をリアルタイムで認識するフレームワーク ・従来のMediaPipeシリーズは各モデルで個々...