Stable Diffusionを動かすパソコンを選ぶ際の基礎知識

入門/解説

1.Stable Diffusionを動かすパソコンを選ぶ際の基礎知識まとめ

・自分のパソコンでStable Diffusionを動したい人向けにどういう視点で何を選ぶべきかの構成のヒント
・開発者が使っている構成やユーザー数が多い構成などがトラブルに対処しやすくなるのでオススメ
・イラストを生成するだけなのか、微調整や学習をさせる事もやってみたいのかが判断材料の1つになる

2.Stable Diffusionを動かすパソコンにはどのような選択肢があるのか?

アイキャッチ画像はstable diffusionをアニメ系のイラストで微調整した2023年1月1日公開のWaifu Diffusion 1.4 Animeでサイバー空間っぽくしたらナウシカのサイボーグ化はともかく、テトもロボ化してしまったけれども面白かったので採用したイラスト

これからイラスト生成AIを始めてみたい方向けの入門記事で書いた自分のパソコンでStable Diffusionを動かすパターンの解説に進もうと思っているのですが、大別してもOSは3種、GPUのメーカーも3社います。

多様なパターンがあるのでベストプラクティス、つまり「この構成で間違いなし!」と断言できる構成は現時点ではないと思います。

更に、結構なお高い買い物になるのでお仕事やその他の趣味用途との兼ね合いもあり、Stable Diffusion専用機として使われるわけでもないでしょうし、OSにはコダワリや愛着を持っている方もおられると思うので書き方に悩みます。

最終的に私の構成を念頭に「どう考えて、何故この構成にしたのか?」がわかるようにヒントを書く事にしました。つまりは、以下、私の独断と偏見ベースになりますが、ユーザー数から考えるStable Diffusionを動かすためのおすすめ構成は以下です。

Mac Windows Linux
intel Mac M1 Mac M2 Mac NVIDIA AMD Intel NVIDIA AMD Intel
× × ×

Macユーザーからお怒りのお言葉をいただきそうですが、私、intel Macは使ってた事あるのですが、Docker起動していると熱暴走に悩まされる事があって、放熱のために10円玉を積むみたいなことも頻繁にやったので、GPUをガンガン回す事になるStable Diffusionではあまりオススメする気になれません。

×や△をつけた構成が絶対に動かせないというわけではないと思いますが、オープンソースの様々なレポジトリなどを見ていると、Linux/NVIDIA前提の作りになっているケースが多いです。

Stable Diffusionに限ると、Windows前提の作りもみかけます。AMD/Macは「AMD/Macで動かすにはどうすれば良いですか?」と質問されている事を稀に見かける程度です。

ユーザー数が多い=何か問題が発生した際に同士が多い=誰かが解決策を見つけてくれる人がいる可能性が高い、のでユーザー数はトラブル解決の容易さに直結するのです。

念のため、WebBigDataのOS別ユーザー数を調べてみたところ以下でした。


WebBigDataのユーザが閲覧時に使用しているOSの傾向

Linuxは予想以上に少ないですが、おそらくはサーバー用途で利用しておりブラウザなどの普段使いで使っている人は少ないという事だと思います。

一般的な内容を取り上げるWebサイトではスマートフォン(iphone(iOS)+Android)経由のアクセスが過半数を占める事が多いのですが、会社や学校から閲覧される事の多いWebBigDataではまだWindowsユーザが過半数を占めていて、やっぱりユーザー数はまだMacよりWindowsの方が多いのです。

Windowsの場合は以下の2パターンがあります。

・直接Stable Diffusionを動かす
・WSL(Windows Subsystem for Linux)、つまりWindows上で動作するLinuxの実行環境で動かす

後者はほぼLinux環境として考えて良いと思います。

現在の私のStable Diffusion実行環境

・OS
LinuxはPop!_OSですが、少しでもGPUメモリの空き容量を増やすために現在はデスクトップ環境としては使っておらず、Windows端末からリモートでアクセスしています。そのため、導入が容易なものであればデスクトップの綺麗さなどにはこだわらず、どのディストリビューションでも良いと思います。ディープラーニング学習用途に最適なLinuxディストリビューションとは?などを参考にしてみてください。

・GPUはRTX 3060の12GB版です。Stable Diffusionを動作させる観点から重要なのはメモリの多さです。ゲーミングPC視点でのベンチマーク結果などは特に気にする必要はないです。最低限、8GBはないと出来る事が色々と制限されてきます。現在の相場だと上記の構成は全部で15万円前後で入手可能と思います。もう少しご予算を用意できる方であればアップグレード先候補としては以下が考えられると思います。

(1)RTX 3090(24GB)
前世代のフラグシップモデル。価格がだいぶ下がってきてGPUだけで20万円くらい。ヤフオクで中古は10万切るくらいですが、おそらく仮想通貨マイニングに酷使されてきた可能性が高いので躊躇してしまうのと、消費電力が非常に高い事がネックです。

(2)RTX 4090(24GB)
最新世代のフラグシップモデル。RTX 3090よりやや消費電力少ない事も魅力的ですがGPUだけで30万円くらい。

(3)RTX A6000(48GB)
プロ向けグラフィックワークステーション用。GPUだけで60万円くらい。メモリが48GBあれば大抵のモデルは動かせるので魅力的ですがトータルで軽自動車買えるレベルのお値段になってしまいます。

(4)RTX 4060 ti(16GB)
RTX 4060 tiは8GBと16GBがあるので注意です。RTX 3060より消費電力が下がり、ゲーミング性能が低いので口コミ評価が低く、値下がりが激しいのでねらい目に感じています。GPUだけで7万くらい。

このクラスのGPUになると画像の生成だけではなくStable Diffusionや言語モデルを微調整したりトレーニングさせて独自モデルを作成する事も出来るようになります。

私も上記のGPUを欲しいなぁ~、と感じる事はたまにありますが、現時点では私は微調整やトレーニングなどでどうしても大容量メモリのGPUが必要になった時は特化型のクラウドでA6000Colab pro+でA100(40GB)などを必要な時だけ時間単位で借りるという形でやっており、おそらくこの形式がもっともコストパフォーマンスが高いだろうな、と思っています。

逆にイラストの生成時は一度に何百、何千と生成したり何度もアウトペインティングインペインティングをやりなおす事があるため、従量課金制のクラウドやColab proを利用する事はオススメしません。比較的安価に自分のPC環境を構築し課金を気にせずに心行くまで作成できるようにしてしまった方が良いと思っています。

私の場合はゲームや他の用途での利用を一切考えていない、Stable Diffusionやディープラーニング学習特化の構成のため、必ずしも皆さんにとっての最適解ではないと思いますが、一例としてご参考までに。

なお、ベンチマークなどが気になる方は「イラスト生成AIのStable DiffusionはどのGPUで実行するのが最速か?」もご覧ください。

タイトルとURLをコピーしました