モデル | ページ 4

FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)

１．FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)まとめ・３つのタスク全てを同じ入力を取るように適応させ学習の効率化を行った・全てのタスクに対して標準的な物体検出損失を使ったが驚くほ...

2022.09.28

モデル基礎理論

１．FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)まとめ・物体レベルの識別タスクは３種類あるが別々に研究される事が多い・３種のタスクに柔軟に対応できるFindItと呼ばれる統一視覚モ...

2022.09.27

モデル基礎理論

１．PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)まとめ・全タスクを単一の汎用API経由で実施する事でタスク間の知識共有を行った・PaLIは難易度の高い汎用的な視覚-言語ベンチマークで最先端の結果を達成・視覚と言語の...

2022.09.21

モデル

１．PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した・109言語に...

2022.09.20

モデル

１．MaxViTとMAXIM：ViTの効率を更に高めた視覚タスク用新モデル(2/2)まとめ・MAXIMは低レベルの画像間予測タスクのために調整されたUNetに似たアーキテクチャ・画像サイズが大きくなっても計算量は線形に増えるだけなので高...

2022.09.12

モデル

１．MaxViTとMAXIM：ViTの効率を更に高めた視覚タスク用新モデル(1/2)まとめ・視覚領域では畳み込みやAttentionを取り入れた手法が主流だがMLPという手法もある・ViTとMLPは計算量が画像サイズに対して二次関数的に...

2022.09.11

モデル

１．PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて！とロボットに頼めるようになる(2/2)まとめ・ポリシーの学習には10台のロボットで11ヶ月間収集したデモデータ+αを使用・更にシミュレーションでオンラインデータを収...

2022.08.20

モデルロボット

１．PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて！とロボットに頼めるようになる(1/2)まとめ・ロボットは明確なタスク定義を用いて学習しているので曖昧な指示が苦手・言語モデルは曖昧な指示も理解できるが現実世界を知ら...

2022.08.19

モデルロボット

１．MPNAS：写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(2/2)まとめ・高度に関連したドメイン間ではネットワーク内のパスと構成要素の大部分が重複する・MPNASから得られたモデルは従来モデルと比較して効率と...

2022.08.07

モデル学習手法

１．MPNAS：写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)まとめ・視覚タスクではデータ領域が写真や絵画などで異なる場合は別々にモデルを学習させる事が多い・異なる領域を共同で学習させる試みはマルチドメイ...

2022.08.06

モデル学習手法

１．ByteQRNN：BERTの1/300のサイズで同等性能なオンデバイスモデル(2/2)まとめ・ByteQRNNはマージAttentionサブレイヤーと量子化ビーム探索で計算を効率化している・事前学習済みのByteQRNNの性能は、3...

2022.08.05

モデル

１．ByteQRNN：BERTの1/300のサイズで同等性能なオンデバイスモデル(1/2)まとめ・トークンフリーモデルは文字列をバイト列として扱うのでモデルサイズを小さくできる・サイズは小さくできるが推論の待ち時間や計算コストが増加する...

2022.08.04

モデル