モデル

アプリケーション

MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(1/2)

1.MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(1/2)まとめ ・MediaPipeはスマホで人間のポーズ、顔、手をリアルタイムで認識するフレームワーク ・従来のMediaPipeシリーズは各モデルで個々...
モデル

ViT:規模拡大可能な画像認識用のTransformers(2/2)

1.ViT:規模拡大可能な画像認識用のTransformers(2/2)まとめ ・画像タスク用に特化したモデルは不要であるか最適ではない可能性がある ・データのサイズが増え続けており画像タスクに関する新しいアプローチが必要 ・ViTは視覚タ...
モデル

ViT:規模拡大可能な画像認識用のTransformers(1/2)

1.ViT:規模拡大可能な画像認識用のTransformers(1/2)まとめ ・畳み込みニューラルネットワークは画像専用に設計されたため計算量が多くなる可能性がある ・次世代の計算効率の高い視覚モデルが求められておりVision Tran...
モデル

人間による評価を使って要約を学ぶ(4/4)

1.人間による評価を使って要約を学ぶ(4/4)まとめ ・モデルは依然として不正確な要約を生成する可能性があり満点の要約は45%の割合で達成 ・人間がモデル出力の品質を簡単に評価できないようなタスクにも今回の手法を応用したい ・人間の好みに合...
モデル

人間による評価を使って要約を学ぶ(3/4)

1.人間による評価を使って要約を学ぶ(3/4)まとめ ・初期要約モデル、人間が要約品質を定量化、報酬モデル、RLによる微調整の4ステップで実現 ・要約品質の定量化はラベル付け作業者に高い報酬と緊密な連携を取る事で実現した ・報酬モデルを最適...
モデル

人間による評価を使って要約を学ぶ(2/4)

1.人間による評価を使って要約を学ぶ(2/4)まとめ ・人間によるフィードバックを使った微調整は他の手法と比較して品質に大きな影響を与えた ・Redditの投稿と非常に異なったスタイルで書かれたニュースデータセットにも対応できた ・要約の長...
モデル

人間による評価を使って要約を学ぶ(1/4)

1.人間による評価を使って要約を学ぶ(1/4)まとめ ・人間による評価を強化学習に取り込んで優れた要約文を書き上げる言語モデルを開発 ・人間による評価モデルは巨大な教師ありモデルや人間が作成した要約よりも優れていた ・本研究は長期的にはAI...
モデル

Performers:Attentionの規模拡大を容易にする(3/3)

1.Performers:Attentionの規模拡大を容易にする(3/3)まとめ ・PerformerはAttentionをまったく使用していないモデルに非常に近い性能を発揮 ・転移後に微調整すると元の勾配ステップ数のごく一部で精度をすば...
モデル

Performers:Attentionの規模拡大を容易にする(2/3)

1.Performers:Attentionの規模拡大を容易にする(2/3)まとめ ・通常のAttentionは保存されたAttention行列に入力された値を乗算して最終結果を取得 ・Attention行列を分解すれば通常のAttenti...
モデル

Performers:Attentionの規模拡大を容易にする(1/3)

1.Performers:Attentionの規模拡大を容易にする(1/3)まとめ ・Transformerの中心となるAttentionモジュールはデータが長くなると計算が困難になる ・類似性スコアを計算するため指数関数的に計算量と必要メ...
モデル

Image GPT:自然言語処理用の人工知能で画像を生成(3/3)

1.Image GPT:自然言語処理用の人工知能で画像を生成(3/3)まとめ ・iGPTが強力な画像特徴表現を学習可能で教師有り、半教師モデルと匹敵する事が示された ・しかしGPUにV100を使って延べ2500日が必要で画像専用モデルの約3...
モデル

Image GPT:自然言語処理用の人工知能で画像を生成(2/3)

1.Image GPT:自然言語処理用の人工知能で画像を生成(2/3)まとめ ・モデルは画像生成を学んだ際に物体のカテゴリについても学習している可能性がある ・本研究で、より良い生成モデルがより強力な分類パフォーマンスを達成する事が示された...