人工知能/機械学習

基礎理論

Dual Mirror Descent:どのタイミングでどのくらい売るのが最も儲かるかを予測する(1/2)

1.Dual Mirror Descent:どのタイミングでどのくらい売るのが最も儲かるかを予測する(1/2)まとめ ・デジタル化によりリアルタイムで意思決定を行う事が重要な市場が増えている ・限られた資源を効率的に割り当てるオンライン割り...
モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)まとめ ・全タスクを単一の汎用API経由で実施する事でタスク間の知識共有を行った ・PaLIは難易度の高い汎用的な視覚-言語ベンチマークで最先端の結果を達成 ・視覚と言語の...
モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している ・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した ・109言語に...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
画像生成

スマホ写真で学習した人工知能はStable Diffusionの画像をどう評価するか?

1.スマホ写真で学習した人工知能はStable Diffusionの画像をどう評価するか?まとめ ・写真に写っている人とイラストに描かれている人は人工知能にとって異なる ・スマホ撮影写真の評価を行う人工知能にstable diffusion...
ロボット

ロボットが地形を見て適切な歩き方を選択できるようになる(2/2)

1.ロボットが地形を見て適切な歩き方を選択できるようになる(2/2)まとめ ・最初にセマンティックセグメンテーションモデルを学習させる事で学習を効率化 ・速度ポリシーからの指令に基づいて歩行スタイルを計算するようにした ・登山同を従来手法よ...
ロボット

ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)

1.ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)まとめ ・4足歩行ロボットの能力は大幅に向上したが不整地を対象とした研究は少ない ・不整地では地形特性の推定が重要だが既存の知覚運動システムでは困難 ・階層的な学習フレーム...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)まとめ ・MAXIMは低レベルの画像間予測タスクのために調整されたUNetに似たアーキテクチャ ・画像サイズが大きくなっても計算量は線形に増えるだけなので高...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)まとめ ・視覚領域では畳み込みやAttentionを取り入れた手法が主流だがMLPという手法もある ・ViTとMLPは計算量が画像サイズに対して二次関数的に...
データセット

特許フレーズ類似性データセットの発表(2/2)

1.特許フレーズ類似性データセットの発表(2/2)まとめ ・特許フレーズ類似性データセットの有用性はKaggle競技会の結果で確認できた ・既存のNLPモデルと比較して大幅な改善を達成できる事が実証された ・Kaggleの設問は人間の専門家...
データセット

特許フレーズ類似性データセットの発表(1/2)

1.特許フレーズ類似性データセットの発表(1/2)まとめ ・特許文書では文脈に依存する用語が口語的な意味と全く異なる事がある ・これにより特許文書を従来の方法(キーワード検索など)で検索するのは困難 ・この課題に挑戦する次世代モデルのために...