業界/分野

Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が多く...

2021.02.03

アプリケーション

１．Googleマップでインドの言葉の翻字を改善(2/2)まとめ・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された・今後は他の...

2021.02.02

アプリケーション

１．Googleマップでインドの言葉の翻字を改善(1/2)まとめ・日本だと「Google 渋谷」でも「グーグル渋谷」でも渋谷のGoogle入居ビルを捜せる・同じ単語を別の文字で書く事を翻字(transliteration)と言い多言語では...

2021.02.01

アプリケーション

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能・カメラパラメータを使用せずに異なる視点から同じポーズを取得で...

2021.01.25

アプリケーション基礎理論

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる・二次元情報のみを使用して三次元ポーズの類似性を認識できると様々...

2021.01.24

アプリケーション基礎理論

１．Jukebox：歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い・ダウンサンプリングとアップサンプリングを行っているためノイズ...

2021.01.23

アプリケーションモデル

１．Jukebox：歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介・CD品質の音楽は1,000万を超えるタイムステップにな...

2021.01.22

アプリケーションモデル

１．Portrait Light：機械学習を使ってポートレートモードの照明を強化(2/2)まとめ・照明方向とポートレートを指定する照明を元の写真に追加するモデルを学習させた・トレーニングには多数のポートレートが必要でLight Stage計...

2020.12.14

アプリケーション

１．Portrait Light：機械学習を使ってポートレートモードの照明を強化(1/2)まとめ・ポートレート写真撮影時にプロはカメラから離した位置で照明器具を使用している・これをシミュレートするためPixelカメラ及びGoogleフォトア...

2020.12.13

アプリケーション

１．MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)まとめ・MediaPipe Holisticは2017年モデルや中価格帯のスマホほぼリアルタイムで実行可能・モデルがほとんど独立しているため、速度と...

2020.12.12

アプリケーションモデル

１．MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(1/2)まとめ・MediaPipeはスマホで人間のポーズ、顔、手をリアルタイムで認識するフレームワーク・従来のMediaPipeシリーズは各モデルで個々の部...

2020.12.11

アプリケーションモデル

１．時系列予測にAutoMLを使用する(2/2)まとめ・最新コンペであるM5予測コンペでAutoMLは銀メダルゾーンにあたる成績を収めた・人間の参加者が数か月かかったモデル設計を2時間と人的介入なしでAutoMLは達成・他のデータセットでも...

2020.12.07

アプリケーション学習手法