モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)まとめ ・全タスクを単一の汎用API経由で実施する事でタスク間の知識共有を行った ・PaLIは難易度の高い汎用的な視覚-言語ベンチマークで最先端の結果を達成 ・視覚と言語の...
モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している ・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した ・109言語に...
アプリケーション

デザイナーさんやイラストレーターさんのためのstable diffusion入門

1.デザイナーさんやイラストレーターさんのためのstable diffusion入門まとめ ・デザインやイラストの分野でご活躍されている方向けのstable diffusionの解説 ・情報が溢れていて経緯がわかりにくくなっているように感じ...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
画像生成

スマホ写真で学習した人工知能はStable Diffusionの画像をどう評価するか?

1.スマホ写真で学習した人工知能はStable Diffusionの画像をどう評価するか?まとめ ・写真に写っている人とイラストに描かれている人は人工知能にとって異なる ・スマホ撮影写真の評価を行う人工知能にstable diffusion...
ロボット

ロボットが地形を見て適切な歩き方を選択できるようになる(2/2)

1.ロボットが地形を見て適切な歩き方を選択できるようになる(2/2)まとめ ・最初にセマンティックセグメンテーションモデルを学習させる事で学習を効率化 ・速度ポリシーからの指令に基づいて歩行スタイルを計算するようにした ・登山同を従来手法よ...
ロボット

ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)

1.ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)まとめ ・4足歩行ロボットの能力は大幅に向上したが不整地を対象とした研究は少ない ・不整地では地形特性の推定が重要だが既存の知覚運動システムでは困難 ・階層的な学習フレーム...
その他の調査

Stable Diffusionは写真とイラストのどちらが得意なのか?

1.Stable Diffusionは写真とイラストのどちらが得意なのか?まとめ ・18000枚の画像をStable Diffusionで生成し、スコア付けして傾向を分析した ・今回の実験では写真系よりイラスト系画像の方が相対的によい品質と...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)まとめ ・MAXIMは低レベルの画像間予測タスクのために調整されたUNetに似たアーキテクチャ ・画像サイズが大きくなっても計算量は線形に増えるだけなので高...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)まとめ ・視覚領域では畳み込みやAttentionを取り入れた手法が主流だがMLPという手法もある ・ViTとMLPは計算量が画像サイズに対して二次関数的に...
その他の分野

POM:色地図のように使える匂いの地図を作成(2/2)

1.POM:色地図のように使える匂いの地図を作成(2/2)まとめ ・嗅覚は食物の状態を知るために様々な種で使われている共通感覚の可能性がある ・匂いマップで離れている2つの匂い分子は代謝状態の変化にも時間がかかる ・匂いは虫除けにも応用が可...