人工知能/機械学習

学習手法

Alpa:わずか1行でJAXニューラルネットワークを並列化(2/2)

1.Alpa:わずか1行でJAXニューラルネットワークを並列化(2/2)まとめ ・Alpaは標準的な専門家が設計したTransformerモデルでは最高のフレームワークに匹敵する ・mixture-of-expert層を持つTransfor...
学習手法

Alpa:わずか1行でJAXニューラルネットワークを並列化(1/2)

1.Alpa:わずか1行でJAXニューラルネットワークを並列化(1/2)まとめ ・データ並列を行うと複数アクセラレータで並列処理できるのでモデルの規模拡大が可能 ・しかし、最近の大規模モデルはデータ並列では間に合わずモデル並列処理が必要にな...
ロボット

VFS:強化学習で長期目線が必要な行動を実現(2/2)

1.VFS:強化学習で長期目線が必要な行動を実現(2/2)まとめ ・各遷移に影響を与えその結果を予測するために必要な機能情報はVFS特徴表現内にある ・原理的には高レベルのエージェントがすべてのスキルを連鎖させる事が可能になる ・VFSは風...
モデル

VFS:強化学習で長期目線が必要な行動を実現(1/2)

1.VFS:強化学習で長期目線が必要な行動を実現(1/2)まとめ ・強化学習の進歩によりロボットは複雑なタスクを実行できるようになった ・しかし、可能なのは短期目線タスクで長期目線が必要なタスクは困難 ・VFSで長期目線を持たせると状態と行...
学会

ICLR 2022におけるGoogleの存在感

1.ICLR 2022におけるGoogleの存在感まとめ ・4/25(月) - 4/29(金)に第10回目の開催となる ICLR 2022が仮想空間で開催された ・Googleは100近い論文で強力な存在感を示し講演やワークショップも開催 ...
モデル

Pix2Seq:言語モデルを使って物体検出を行う(2/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(2/2)まとめ ・Pix2Seqでは物体検出を言語モデリングタスクとみなしており特別な設計をしていない ・システムの出力が比較的簡潔なトークンの並びで表現されるような領域に応用可能 ・幅...
モデル

Pix2Seq:言語モデルを使って物体検出を行う(1/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(1/2)まとめ ・物体検出タスクを行う従来のアプローチは高度にカスタマイズされており汎用性がない ・物体検出タスクを画素を入力とする言語モデリングタスクとみなすPix2Seqを考案 ・P...
学習手法

FormNet:書式に基づいた文書理解を実現(2/2)

1.FormNet:書式に基づいた文書理解を実現(2/2)まとめ ・FormNetは多くの代替案に欠けている数学的正しさを備えていると見なせる ・新しいRichAtt機構とスーパートークンにより優れたフォーム理解能力を発揮可能 ・FormN...
学習手法

FormNet:書式に基づいた文書理解を実現(1/2)

1.FormNet:書式に基づいた文書理解を実現(1/2)まとめ ・フォームベース(Form-based)の文書理解は実用的な可能性を持つため研究が盛ん ・従来はフォーム文書を一列に直列化してから順次処理していたが書式構造を無視していた ・...
学習手法

L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(2/2)

1.L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(2/2)まとめ ・L2PはリハーサルバッファやタスクIDが既知でなくとも高い性能を出す事ができる ・タスクに依存しない設定など、様々な複雑な継続的学習シナリオを扱う事も可能 ...
学習手法

L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(1/2)

1.L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(1/2)まとめ ・継続学習はデータ分布が変化する状況で単一のモデルを学習する手法で破局的忘却がネック ・従来手法は過去データをリハーサルバッファに格納して現在のデータと混ぜて...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)まとめ ・転移学習は精度は高いがタスク毎に手間がかかり対照学習はその逆で性能面に難があった ・LiTは画像エンコーダの学習をロックする事でこの性能ギャップを半...