WebBigData

FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)

１．FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)まとめ・３つのタスク全てを同じ入力を取るように適応させ学習の効率化を行った・全てのタスクに対して標準的な物体検出損失を使ったが驚くほ...

2022.09.28

モデル基礎理論

１．FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)まとめ・物体レベルの識別タスクは３種類あるが別々に研究される事が多い・３種のタスクに柔軟に対応できるFindItと呼ばれる統一視覚モ...

2022.09.27

モデル基礎理論

１．stable diffusionに自分の好きなキャラクターを描いてもらう事は出来るのか？まとめ・stable diffusionが既に内部的に概念を確立しているキャラクターは描いてもらうのは簡単・そのキャラクターを認識していない場合...

2022.09.26

画像生成

１．Stable Diffusionに天空の城ラピュタの飛行石の紋章を描いて貰うまとめ・textual inversionは画像からstable diffusionに新しい概念を学ばせる手法・学んだ概念をprompt内でタグとして利用す...

2022.09.25

画像生成

１．INTERSPEECH 2022におけるGoogleの存在感まとめ・9/18から9/22の間、韓国の仁川とヴァーチャルブースでINTERSPEECH 2022が開催・Google社員も多数参加し47の論文や8のワークショップ・チュー...

2022.09.24

学会

１．Dual Mirror Descent：どのタイミングでどのくらい売るのが最も儲かるかを予測する(2/2)まとめ・資源の制約を扱う際のシンプルで強力なアイデアは「価格」の概念を導入する事・ミラーディセントは時間の経過とともに一様に資...

2022.09.23

基礎理論

１．Dual Mirror Descent：どのタイミングでどのくらい売るのが最も儲かるかを予測する(1/2)まとめ・デジタル化によりリアルタイムで意思決定を行う事が重要な市場が増えている・限られた資源を効率的に割り当てるオンライン割り...

2022.09.22

基礎理論

１．PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)まとめ・全タスクを単一の汎用API経由で実施する事でタスク間の知識共有を行った・PaLIは難易度の高い汎用的な視覚-言語ベンチマークで最先端の結果を達成・視覚と言語の...

2022.09.21

モデル

１．PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した・109言語に...

2022.09.20

モデル

１．デザイナーさんやイラストレーターさんのためのstable diffusion入門まとめ・デザインやイラストの分野でご活躍されている方向けのstable diffusionの解説・情報が溢れていて経緯がわかりにくくなっているように感じ...

2022.09.19

アプリケーション入門／解説画像生成

１．LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)まとめ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている・LOLNeRFは単一...

2022.09.18

学習手法

１．LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)まとめ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている・LOLNeRFは単一...

2022.09.17

学習手法