モデル

モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している ・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した ・109言語に...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)まとめ ・MAXIMは低レベルの画像間予測タスクのために調整されたUNetに似たアーキテクチャ ・画像サイズが大きくなっても計算量は線形に増えるだけなので高...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)まとめ ・視覚領域では畳み込みやAttentionを取り入れた手法が主流だがMLPという手法もある ・ViTとMLPは計算量が画像サイズに対して二次関数的に...
モデル

PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)

1.PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)まとめ ・ポリシーの学習には10台のロボットで11ヶ月間収集したデモデータ+αを使用 ・更にシミュレーションでオンラインデータを収...
モデル

PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(1/2)

1.PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(1/2)まとめ ・ロボットは明確なタスク定義を用いて学習しているので曖昧な指示が苦手 ・言語モデルは曖昧な指示も理解できるが現実世界を知ら...
モデル

MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(2/2)

1.MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(2/2)まとめ ・高度に関連したドメイン間ではネットワーク内のパスと構成要素の大部分が重複する ・MPNASから得られたモデルは従来モデルと比較して効率と...
モデル

MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)

1.MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)まとめ ・視覚タスクではデータ領域が写真や絵画などで異なる場合は別々にモデルを学習させる事が多い ・異なる領域を共同で学習させる試みはマルチドメイ...
モデル

ByteQRNN:BERTの1/300のサイズで同等性能なオンデバイスモデル(2/2)

1.ByteQRNN:BERTの1/300のサイズで同等性能なオンデバイスモデル(2/2)まとめ ・ByteQRNNはマージAttentionサブレイヤーと量子化ビーム探索で計算を効率化している ・事前学習済みのByteQRNNの性能は、3...
モデル

ByteQRNN:BERTの1/300のサイズで同等性能なオンデバイスモデル(1/2)

1.ByteQRNN:BERTの1/300のサイズで同等性能なオンデバイスモデル(1/2)まとめ ・トークンフリーモデルは文字列をバイト列として扱うのでモデルサイズを小さくできる ・サイズは小さくできるが推論の待ち時間や計算コストが増加する...
モデル

MGDT:41種のゲームを人間同等にプレイ可能なTransformer(2/2)

1.MGDT:41種のゲームを人間同等にプレイ可能なTransformer(2/2)まとめ ・MGDTは様々な経験を学習した方が専門家レベルのデモのみを学習するより優れている ・他の学習システムと比較してモデルサイズの増加に伴う性能向上がよ...
モデル

MGDT:41種のゲームを人間同等にプレイ可能なTransformer(1/2)

1.MGDT:41種のゲームを人間同等にプレイ可能なTransformer(1/2)まとめ ・現在の強化学習は様々な個別タスクの意思決定に秀でるが汎用性に関する研究は少ない ・自然言語、視覚、生成モデルの分野ではTransformerが活躍...
モデル

CMT-DeepLa:パノプティックセグメンテーションをクラスタ問題として考える(2/2)

1.CMT-DeepLab:パノプティックセグメンテーションをクラスタ問題として考える(2/2)まとめ ・マスクtransformerをクラスタリングの観点から再定義すると性能と解釈可能性が大幅に向上 ・kMaX-DeepLabは修正が簡単...