モデル

モデル

VFS:強化学習で長期目線が必要な行動を実現(1/2)

1.VFS:強化学習で長期目線が必要な行動を実現(1/2)まとめ ・強化学習の進歩によりロボットは複雑なタスクを実行できるようになった ・しかし、可能なのは短期目線タスクで長期目線が必要なタスクは困難 ・VFSで長期目線を持たせると状態と行...
モデル

Pix2Seq:言語モデルを使って物体検出を行う(2/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(2/2)まとめ ・Pix2Seqでは物体検出を言語モデリングタスクとみなしており特別な設計をしていない ・システムの出力が比較的簡潔なトークンの並びで表現されるような領域に応用可能 ・幅...
モデル

Pix2Seq:言語モデルを使って物体検出を行う(1/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(1/2)まとめ ・物体検出タスクを行う従来のアプローチは高度にカスタマイズされており汎用性がない ・物体検出タスクを画素を入力とする言語モデリングタスクとみなすPix2Seqを考案 ・P...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)まとめ ・転移学習は精度は高いがタスク毎に手間がかかり対照学習はその逆で性能面に難があった ・LiTは画像エンコーダの学習をロックする事でこの性能ギャップを半...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)まとめ ・画像分類などでは事前学習後にタスク毎に微調整に固有データが必要になるので手間がかかる ・代替手法には画像とテキストを使う対照学習があるが微調整手法に...
モデル

VDTTS:視覚駆動型の音声合成モデル(2/2)

1.VDTTS:視覚駆動型の音声合成モデル(2/2)まとめ ・TTSおよびTTS with length hintの両モデルより様々な観点でVDTTSは大きく優れている ・VDTTSはビデオフレームのみを使って話者が何を話しているかを予測す...
モデル

VDTTS:視覚駆動型の音声合成モデル(1/2)

1.VDTTS:視覚駆動型の音声合成モデル(1/2)まとめ ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある ・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる ・VDT...
モデル

PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(3/3)

1.PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(3/3)まとめ ・PythonコードのみのデータセットでPaLMを微調整するとさらなる性能向上を確認できた ・規模拡大可能な巨大言語モデルの誤用対策は現在進行中の課題で透...
モデル

PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(2/3)

1.PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(2/3)まとめ ・PaLMの性能はモデル規模の関数として表現でき、性能が更に向上可能である事が示唆される ・PaLMは適切な文脈で概念の組み合わせを理解するので絵文字から...
モデル

PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(1/3)

1.PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(1/3)まとめ ・昨年、Googlは領域やタスクを横断して汎化できる高効率な単一モデルPathways構想を発表 ・PaLMはPathwaysシステムで学習した5,400...
ヘルスケア

目を正面から撮影した写真で病気の兆候を検出(3/3)

1.目を正面から撮影した写真で病気の兆候を検出(3/3)まとめ ・身体的特徴が異なる患者群に対しても比較対象モデルより予測性が高かった ・広く商用利用するためには必要な画質レベルの把握など多くの追加研究が必要 ・包括的なデータセットで更にテ...
ヘルスケア

目を正面から撮影した写真で病気の兆候を検出(2/3)

1.目を正面から撮影した写真で病気の兆候を検出(2/3)まとめ ・モデルの性能をAUCで測定したところ、HbA1c の上昇を 67 ~ 70% で測定できた ・リストの上位5%を見ると69%はHbA1c測定値が9以上でこれは有意に高かった ...