モデル

Pix2Seq:言語モデルを使って物体検出を行う(2/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(2/2)まとめ ・Pix2Seqでは物体検出を言語モデリングタスクとみなしており特別な設計をしていない ・システムの出力が比較的簡潔なトークンの並びで表現されるような領域に応用可能 ・幅...
モデル

Pix2Seq:言語モデルを使って物体検出を行う(1/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(1/2)まとめ ・物体検出タスクを行う従来のアプローチは高度にカスタマイズされており汎用性がない ・物体検出タスクを画素を入力とする言語モデリングタスクとみなすPix2Seqを考案 ・P...
アプリケーション

アンビエント・コンピューティング用の目立たないインターフェイスの実現(2/2)

1.アンビエント・コンピューティング用の目立たないインターフェイスの実現(2/2)まとめ ・最新のAMOLEDと比較してもパラレルレンダリングは5倍以上明るかった ・最先端のAMOLEDディスプレイでも表現できない複雑な構造も表現できた ・...
アプリケーション

アンビエント・コンピューティング用の目立たないインターフェイスの実現(1/2)

1.アンビエント・コンピューティング用の目立たないインターフェイスの実現(1/2)まとめ ・美観を保ちつつ必要に応じて操作可能になるアンビエントコンピューティングが望まれている ・これは織物、木製化粧板、アクリル、一方向鏡などの素材にディス...
学習手法

FormNet:書式に基づいた文書理解を実現(2/2)

1.FormNet:書式に基づいた文書理解を実現(2/2)まとめ ・FormNetは多くの代替案に欠けている数学的正しさを備えていると見なせる ・新しいRichAtt機構とスーパートークンにより優れたフォーム理解能力を発揮可能 ・FormN...
学習手法

FormNet:書式に基づいた文書理解を実現(1/2)

1.FormNet:書式に基づいた文書理解を実現(1/2)まとめ ・フォームベース(Form-based)の文書理解は実用的な可能性を持つため研究が盛ん ・従来はフォーム文書を一列に直列化してから順次処理していたが書式構造を無視していた ・...
学習手法

L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(2/2)

1.L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(2/2)まとめ ・L2PはリハーサルバッファやタスクIDが既知でなくとも高い性能を出す事ができる ・タスクに依存しない設定など、様々な複雑な継続的学習シナリオを扱う事も可能 ...
学習手法

L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(1/2)

1.L2P:継続学習にプロンプトを導入してコンパクトな記憶を実現(1/2)まとめ ・継続学習はデータ分布が変化する状況で単一のモデルを学習する手法で破局的忘却がネック ・従来手法は過去データをリハーサルバッファに格納して現在のデータと混ぜて...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)まとめ ・転移学習は精度は高いがタスク毎に手間がかかり対照学習はその逆で性能面に難があった ・LiTは画像エンコーダの学習をロックする事でこの性能ギャップを半...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)まとめ ・画像分類などでは事前学習後にタスク毎に微調整に固有データが必要になるので手間がかかる ・代替手法には画像とテキストを使う対照学習があるが微調整手法に...
学習手法

タスク指向対話でシンプルで効果的なゼロショット転移を実現(3/3)

1.タスク指向対話でシンプルで効果的なゼロショット転移を実現(3/3)まとめ ・D3STとSDTは従来モデルと同程度のモデルサイズで、同等以上の性能を発揮 ・D3STとSDTはスキーマの言語的変化に対して強い堅牢性を持つ事もわかった ・D3...
学習手法

タスク指向対話でシンプルで効果的なゼロショット転移を実現(2/3)

1.タスク指向対話でシンプルで効果的なゼロショット転移を実現(2/3)まとめ ・D3STは会話状態を予測を行う際に、スロットと意図の記述を活用するDSTモデル ・SDTは具体的な会話内で可能なスロットと値を示す、単一の注釈付き対話例を活用 ...